隆重推出Cloudflare Stream的最新功能-客戶現(xiàn)在只需單擊一下即可輕松生成視頻字幕:AI生成的點(diǎn)播視頻和直播錄制字幕。作為Cloudflare幫助構(gòu)建更好的互聯(lián)網(wǎng)使命的一部分,此功能可供所有Stream客戶免費(fèi)使用。
此解決方案旨在簡(jiǎn)化流程,消除對(duì)第三方轉(zhuǎn)錄服務(wù)和復(fù)雜工作流程的需求。對(duì)于缺少字幕等輔助功能的視頻,手動(dòng)轉(zhuǎn)錄可能非常耗時(shí)且不切實(shí)際,對(duì)于大型視頻庫(kù)而言則尤為如此。傳統(tǒng)上,它需要專業(yè)服務(wù),有時(shí)甚至是專門的團(tuán)隊(duì)來(lái)轉(zhuǎn)錄音頻并將文本與視頻一起交付,以便在播放期間顯示。由于各種原因(包括道德義務(wù)、法律合規(guī)性和不斷變化的觀眾偏好),字幕變得越來(lái)越普遍,我們希望為大家減輕這種負(fù)擔(dān)。
借助Cloudflare Stream的集成解決方案,字幕生成過(guò)程可以無(wú)縫集成到您現(xiàn)有的視頻管理工作流程中,從而節(jié)省時(shí)間和資源。無(wú)論您何時(shí)上傳視頻,都可以輕松添加自動(dòng)字幕以增強(qiáng)可訪問(wèn)性。現(xiàn)在可以在Cloudflare儀表板中或通過(guò)API請(qǐng)求生成字幕,所有這些都在熟悉且統(tǒng)一的Stream平臺(tái)中完成。
此功能在設(shè)計(jì)時(shí)充分考慮了隱私和數(shù)據(jù)保護(hù)。與其他可能與外部實(shí)體共享內(nèi)容的第三方轉(zhuǎn)錄服務(wù)不同,您的數(shù)據(jù)在整個(gè)字幕生成過(guò)程中都安全地保留在Cloudflare的生態(tài)系統(tǒng)中。Cloudflare不會(huì)將您的內(nèi)容用于模型訓(xùn)練目的。有關(guān)數(shù)據(jù)保護(hù)的更多信息,請(qǐng)查看您的數(shù)據(jù)和Workers AI。
如何開(kāi)始使用
自2024年6月20日起,測(cè)試版可供所有Stream客戶以及Professional和Business計(jì)劃的訂閱用戶使用,其中包括100分鐘的視頻存儲(chǔ)。
要開(kāi)始使用,請(qǐng)先將視頻上傳到Stream(從Cloudflare儀表板或通過(guò)API)。
接下來(lái),導(dǎo)航到視頻上的“字幕”選項(xiàng)卡,點(diǎn)擊“添加字幕”,然后選擇語(yǔ)言和“使用AI生成字幕”。最后,點(diǎn)擊保存,幾分鐘后,新字幕就會(huì)顯示在字幕管理器中,并自動(dòng)在播放器中可用。當(dāng)然,也可以通過(guò)API生成字幕。
字幕通常會(huì)在幾分鐘內(nèi)生成。字幕準(zhǔn)備好后,Stream播放器將自動(dòng)更新以將其提供給用戶。HLS和DASH清單也會(huì)更新,以便支持文本軌道的第三方播放器也可以顯示它們。
支持點(diǎn)播視頻和直播錄制,無(wú)論它們是何時(shí)創(chuàng)建的。在測(cè)試版中,目前只能生成英文字幕,且視頻時(shí)長(zhǎng)不得超過(guò)2小時(shí)。語(yǔ)音清晰且背景噪音最小的視頻轉(zhuǎn)錄質(zhì)量最好。
我們對(duì)AI模型在測(cè)試中轉(zhuǎn)錄不同類型內(nèi)容的效果感到滿意。不過(guò),有時(shí)結(jié)果并不完美,另一種方法可能更適合某些特定用例。請(qǐng)務(wù)必檢查所生成字幕的準(zhǔn)確性是否適合您的需求。
相關(guān)技術(shù)細(xì)節(jié)
使用Workers AI構(gòu)建
Stream工程團(tuán)隊(duì)使用Workers AI構(gòu)建了這項(xiàng)新功能,使我們能夠通過(guò)單個(gè)API調(diào)用訪問(wèn)Whisper模型(一種開(kāi)源自動(dòng)語(yǔ)音識(shí)別模型)。使用Workers AI,通過(guò)開(kāi)箱即用的解決方案從根本上簡(jiǎn)化了AI模型的部署、集成和擴(kuò)展。我們的團(tuán)隊(duì)不再需要處理基礎(chǔ)設(shè)施的復(fù)雜性,從而能夠?qū)W⒂跇?gòu)建自動(dòng)字幕功能。
編寫(xiě)利用AI模型的軟件可能涉及多個(gè)挑戰(zhàn)。首先,難以配置適當(dāng)?shù)挠布A(chǔ)設(shè)施。AI模型需要大量計(jì)算資源才能高效運(yùn)行,并且需要GPU等專用硬件,而這些硬件可能成本高昂且難以管理。大規(guī)模部署AI模型也是一項(xiàng)艱巨的任務(wù),涉及平衡工作負(fù)載分配、最小化延遲、優(yōu)化吞吐量和保持高可用性等復(fù)雜性。Workers AI不僅解決了管理底層基礎(chǔ)設(shè)施的難題,還可以根據(jù)需要自動(dòng)擴(kuò)展。
使用Workers AI將一項(xiàng)艱巨的任務(wù)轉(zhuǎn)變?yōu)橹恍璨坏?0行代碼即可轉(zhuǎn)錄音頻文件的Worker。
快速且大規(guī)模地為視頻添加字幕
Stream團(tuán)隊(duì)希望確保此功能在大規(guī)模運(yùn)行時(shí)足夠快速且高性能-這需要工程工作來(lái)處理大量視頻,無(wú)論時(shí)長(zhǎng)如何。
首先,我們的團(tuán)隊(duì)需要在運(yùn)行AI推理之前對(duì)音頻進(jìn)行預(yù)處理,以確保輸入與Whisper的輸入格式和要求兼容。
視頻內(nèi)容千差萬(wàn)別,從用手機(jī)拍攝的短小粗糙的視頻,到長(zhǎng)達(dá)數(shù)小時(shí)的高質(zhì)量好萊塢電影,應(yīng)有盡有。視頻可能無(wú)聲,也可能包含動(dòng)作驅(qū)動(dòng)的雜音。此外,Stream的點(diǎn)播視頻包括直播錄制,這些錄制的打包方式與作為完整文件上傳的視頻不同。由于存在這種多樣性,音頻輸入存儲(chǔ)在一系列不同的容器格式中,具有不同的持續(xù)時(shí)間和不同的文件大小。我們確保我們的音頻文件格式正確,符合Whisper的要求。
預(yù)處理的一個(gè)方面是確保文件具有合理的時(shí)長(zhǎng),以優(yōu)化推理。Whisper的音頻文件轉(zhuǎn)錄時(shí)長(zhǎng)“最佳點(diǎn)”是30秒。正如他們?cè)贕ithub討論中指出的那樣:
“如果太短,會(huì)缺乏周圍的背景。你會(huì)更頻繁地刪減句子。很多句子會(huì)變得毫無(wú)意義。如果太長(zhǎng),你需要越來(lái)越大的模型,來(lái)容納你希望模型跟蹤的含義的復(fù)雜性。”
幸運(yùn)的是,Stream已經(jīng)將視頻分割成更小的片段,以確保在Web上播放時(shí)快速交付。我們編寫(xiě)了功能,在發(fā)送給Workers AI之前將這些小片段連接成30秒的批次。
為了優(yōu)化處理速度,我們的團(tuán)隊(duì)盡可能多地并行化操作。通過(guò)同時(shí)創(chuàng)建30秒的音頻批次并向Workers AI發(fā)送請(qǐng)求,我們充分利用了Workers AI平臺(tái)的可擴(kuò)展性。這樣做大大減少了生成字幕所需的時(shí)間,但增加了一些額外的復(fù)雜性。由于我們并行向Workers AI發(fā)送請(qǐng)求,因此轉(zhuǎn)錄響應(yīng)可能會(huì)無(wú)序到達(dá)。例如,如果視頻時(shí)長(zhǎng)為一分鐘,則生成視頻后30秒字幕的請(qǐng)求可能會(huì)在生成視頻前30秒字幕的請(qǐng)求之前完成。字幕需要按順序排列才能與視頻對(duì)齊,因此我們的團(tuán)隊(duì)必須保持對(duì)音頻批次順序的理解,以確保我們最終組合的WebVTT字幕文件與視頻正確同步。我們對(duì)傳入的Workers AI響應(yīng)進(jìn)行排序,并重新排序時(shí)間戳以獲得最終準(zhǔn)確的轉(zhuǎn)錄。
最終結(jié)果是能夠快速、高效且大規(guī)模地為較長(zhǎng)視頻生成字幕。
即刻開(kāi)始試用
現(xiàn)在,我們已為所有訂閱者以及Pro和Business計(jì)劃用戶提供此功能的公開(kāi)測(cè)試版,我們對(duì)此感到非常興奮!如要開(kāi)始使用,請(qǐng)先將視頻上傳到Stream。查看我們的文檔以了解教程和當(dāng)前測(cè)試版的限制。接下來(lái),我們將著重于添加更多語(yǔ)言并支持更長(zhǎng)的視頻。