隆重推出由Workers AI提供支持的Stream生成字幕功能

來源:Cloudflare
作者:Cloudflare
時間:2024-07-11
2890
隆重推出Cloudflare Stream的最新功能-客戶現(xiàn)在只需單擊一下即可輕松生成視頻字幕:AI生成的點播視頻和直播錄制字幕。

CE875AD5-2F22-4355-A69C-AD0FDCCA9B59.png

隆重推出Cloudflare Stream的最新功能-客戶現(xiàn)在只需單擊一下即可輕松生成視頻字幕:AI生成的點播視頻和直播錄制字幕。作為Cloudflare幫助構(gòu)建更好的互聯(lián)網(wǎng)使命的一部分,此功能可供所有Stream客戶免費使用。

此解決方案旨在簡化流程,消除對第三方轉(zhuǎn)錄服務(wù)和復(fù)雜工作流程的需求。對于缺少字幕等輔助功能的視頻,手動轉(zhuǎn)錄可能非常耗時且不切實際,對于大型視頻庫而言則尤為如此。傳統(tǒng)上,它需要專業(yè)服務(wù),有時甚至是專門的團隊來轉(zhuǎn)錄音頻并將文本與視頻一起交付,以便在播放期間顯示。由于各種原因(包括道德義務(wù)、法律合規(guī)性和不斷變化的觀眾偏好),字幕變得越來越普遍,我們希望為大家減輕這種負擔(dān)。

借助Cloudflare Stream的集成解決方案,字幕生成過程可以無縫集成到您現(xiàn)有的視頻管理工作流程中,從而節(jié)省時間和資源。無論您何時上傳視頻,都可以輕松添加自動字幕以增強可訪問性?,F(xiàn)在可以在Cloudflare儀表板中或通過API請求生成字幕,所有這些都在熟悉且統(tǒng)一的Stream平臺中完成。

此功能在設(shè)計時充分考慮了隱私和數(shù)據(jù)保護。與其他可能與外部實體共享內(nèi)容的第三方轉(zhuǎn)錄服務(wù)不同,您的數(shù)據(jù)在整個字幕生成過程中都安全地保留在Cloudflare的生態(tài)系統(tǒng)中。Cloudflare不會將您的內(nèi)容用于模型訓(xùn)練目的。有關(guān)數(shù)據(jù)保護的更多信息,請查看您的數(shù)據(jù)和Workers AI。

如何開始使用

自2024年6月20日起,測試版可供所有Stream客戶以及Professional和Business計劃的訂閱用戶使用,其中包括100分鐘的視頻存儲。

要開始使用,請先將視頻上傳到Stream(從Cloudflare儀表板或通過API)。

接下來,導(dǎo)航到視頻上的“字幕”選項卡,點擊“添加字幕”,然后選擇語言和“使用AI生成字幕”。最后,點擊保存,幾分鐘后,新字幕就會顯示在字幕管理器中,并自動在播放器中可用。當然,也可以通過API生成字幕。

字幕通常會在幾分鐘內(nèi)生成。字幕準備好后,Stream播放器將自動更新以將其提供給用戶。HLS和DASH清單也會更新,以便支持文本軌道的第三方播放器也可以顯示它們。

支持點播視頻和直播錄制,無論它們是何時創(chuàng)建的。在測試版中,目前只能生成英文字幕,且視頻時長不得超過2小時。語音清晰且背景噪音最小的視頻轉(zhuǎn)錄質(zhì)量最好。

我們對AI模型在測試中轉(zhuǎn)錄不同類型內(nèi)容的效果感到滿意。不過,有時結(jié)果并不完美,另一種方法可能更適合某些特定用例。請務(wù)必檢查所生成字幕的準確性是否適合您的需求。

相關(guān)技術(shù)細節(jié)

使用Workers AI構(gòu)建

Stream工程團隊使用Workers AI構(gòu)建了這項新功能,使我們能夠通過單個API調(diào)用訪問Whisper模型(一種開源自動語音識別模型)。使用Workers AI,通過開箱即用的解決方案從根本上簡化了AI模型的部署、集成和擴展。我們的團隊不再需要處理基礎(chǔ)設(shè)施的復(fù)雜性,從而能夠?qū)W⒂跇?gòu)建自動字幕功能。

編寫利用AI模型的軟件可能涉及多個挑戰(zhàn)。首先,難以配置適當?shù)挠布A(chǔ)設(shè)施。AI模型需要大量計算資源才能高效運行,并且需要GPU等專用硬件,而這些硬件可能成本高昂且難以管理。大規(guī)模部署AI模型也是一項艱巨的任務(wù),涉及平衡工作負載分配、最小化延遲、優(yōu)化吞吐量和保持高可用性等復(fù)雜性。Workers AI不僅解決了管理底層基礎(chǔ)設(shè)施的難題,還可以根據(jù)需要自動擴展。

使用Workers AI將一項艱巨的任務(wù)轉(zhuǎn)變?yōu)橹恍璨坏?0行代碼即可轉(zhuǎn)錄音頻文件的Worker。

613A5E3E-A555-437F-91AF-AA5423E5037E.jpeg

快速且大規(guī)模地為視頻添加字幕

Stream團隊希望確保此功能在大規(guī)模運行時足夠快速且高性能-這需要工程工作來處理大量視頻,無論時長如何。

首先,我們的團隊需要在運行AI推理之前對音頻進行預(yù)處理,以確保輸入與Whisper的輸入格式和要求兼容。

視頻內(nèi)容千差萬別,從用手機拍攝的短小粗糙的視頻,到長達數(shù)小時的高質(zhì)量好萊塢電影,應(yīng)有盡有。視頻可能無聲,也可能包含動作驅(qū)動的雜音。此外,Stream的點播視頻包括直播錄制,這些錄制的打包方式與作為完整文件上傳的視頻不同。由于存在這種多樣性,音頻輸入存儲在一系列不同的容器格式中,具有不同的持續(xù)時間和不同的文件大小。我們確保我們的音頻文件格式正確,符合Whisper的要求。

預(yù)處理的一個方面是確保文件具有合理的時長,以優(yōu)化推理。Whisper的音頻文件轉(zhuǎn)錄時長“最佳點”是30秒。正如他們在Github討論中指出的那樣:

“如果太短,會缺乏周圍的背景。你會更頻繁地刪減句子。很多句子會變得毫無意義。如果太長,你需要越來越大的模型,來容納你希望模型跟蹤的含義的復(fù)雜性。”

幸運的是,Stream已經(jīng)將視頻分割成更小的片段,以確保在Web上播放時快速交付。我們編寫了功能,在發(fā)送給Workers AI之前將這些小片段連接成30秒的批次。

5156730A-B387-4ECA-8E3B-F8FBE6AE8656.jpeg

為了優(yōu)化處理速度,我們的團隊盡可能多地并行化操作。通過同時創(chuàng)建30秒的音頻批次并向Workers AI發(fā)送請求,我們充分利用了Workers AI平臺的可擴展性。這樣做大大減少了生成字幕所需的時間,但增加了一些額外的復(fù)雜性。由于我們并行向Workers AI發(fā)送請求,因此轉(zhuǎn)錄響應(yīng)可能會無序到達。例如,如果視頻時長為一分鐘,則生成視頻后30秒字幕的請求可能會在生成視頻前30秒字幕的請求之前完成。字幕需要按順序排列才能與視頻對齊,因此我們的團隊必須保持對音頻批次順序的理解,以確保我們最終組合的WebVTT字幕文件與視頻正確同步。我們對傳入的Workers AI響應(yīng)進行排序,并重新排序時間戳以獲得最終準確的轉(zhuǎn)錄。

最終結(jié)果是能夠快速、高效且大規(guī)模地為較長視頻生成字幕。

即刻開始試用

現(xiàn)在,我們已為所有訂閱者以及Pro和Business計劃用戶提供此功能的公開測試版,我們對此感到非常興奮!如要開始使用,請先將視頻上傳到Stream。查看我們的文檔以了解教程和當前測試版的限制。接下來,我們將著重于添加更多語言并支持更長的視頻。

立即登錄,閱讀全文
原文鏈接:點擊前往 >
文章來源:Cloudflare
版權(quán)說明:本文內(nèi)容來自于Cloudflare,本站不擁有所有權(quán),不承擔(dān)相關(guān)法律責(zé)任。文章內(nèi)容系作者個人觀點,不代表快出海對觀點贊同或支持。如有侵權(quán),請聯(lián)系管理員(zzx@kchuhai.com)刪除!
優(yōu)質(zhì)服務(wù)商推薦
更多
個人VIP