隆重推出由Workers AI提供支持的Stream生成字幕功能

來(lái)源：Cloudflare

作者：Cloudflare

時(shí)間：2024-07-11

隆重推出Cloudflare Stream的最新功能-客戶現(xiàn)在只需單擊一下即可輕松生成視頻字幕：AI生成的點(diǎn)播視頻和直播錄制字幕。

隆重推出Cloudflare Stream的最新功能-客戶現(xiàn)在只需單擊一下即可輕松生成視頻字幕：AI生成的點(diǎn)播視頻和直播錄制字幕。作為Cloudflare幫助構(gòu)建更好的互聯(lián)網(wǎng)使命的一部分，此功能可供所有Stream客戶免費(fèi)使用。

此解決方案旨在簡(jiǎn)化流程，消除對(duì)第三方轉(zhuǎn)錄服務(wù)和復(fù)雜工作流程的需求。對(duì)于缺少字幕等輔助功能的視頻，手動(dòng)轉(zhuǎn)錄可能非常耗時(shí)且不切實(shí)際，對(duì)于大型視頻庫(kù)而言則尤為如此。傳統(tǒng)上，它需要專業(yè)服務(wù)，有時(shí)甚至是專門的團(tuán)隊(duì)來(lái)轉(zhuǎn)錄音頻并將文本與視頻一起交付，以便在播放期間顯示。由于各種原因（包括道德義務(wù)、法律合規(guī)性和不斷變化的觀眾偏好），字幕變得越來(lái)越普遍，我們希望為大家減輕這種負(fù)擔(dān)。

借助Cloudflare Stream的集成解決方案，字幕生成過(guò)程可以無(wú)縫集成到您現(xiàn)有的視頻管理工作流程中，從而節(jié)省時(shí)間和資源。無(wú)論您何時(shí)上傳視頻，都可以輕松添加自動(dòng)字幕以增強(qiáng)可訪問(wèn)性?，F(xiàn)在可以在Cloudflare儀表板中或通過(guò)API請(qǐng)求生成字幕，所有這些都在熟悉且統(tǒng)一的Stream平臺(tái)中完成。

此功能在設(shè)計(jì)時(shí)充分考慮了隱私和數(shù)據(jù)保護(hù)。與其他可能與外部實(shí)體共享內(nèi)容的第三方轉(zhuǎn)錄服務(wù)不同，您的數(shù)據(jù)在整個(gè)字幕生成過(guò)程中都安全地保留在Cloudflare的生態(tài)系統(tǒng)中。Cloudflare不會(huì)將您的內(nèi)容用于模型訓(xùn)練目的。有關(guān)數(shù)據(jù)保護(hù)的更多信息，請(qǐng)查看您的數(shù)據(jù)和Workers AI。

如何開始使用

自2024年6月20日起，測(cè)試版可供所有Stream客戶以及Professional和Business計(jì)劃的訂閱用戶使用，其中包括100分鐘的視頻存儲(chǔ)。

要開始使用，請(qǐng)先將視頻上傳到Stream（從Cloudflare儀表板或通過(guò)API）。

接下來(lái)，導(dǎo)航到視頻上的“字幕”選項(xiàng)卡，點(diǎn)擊“添加字幕”，然后選擇語(yǔ)言和“使用AI生成字幕”。最后，點(diǎn)擊保存，幾分鐘后，新字幕就會(huì)顯示在字幕管理器中，并自動(dòng)在播放器中可用。當(dāng)然，也可以通過(guò)API生成字幕。

字幕通常會(huì)在幾分鐘內(nèi)生成。字幕準(zhǔn)備好后，Stream播放器將自動(dòng)更新以將其提供給用戶。HLS和DASH清單也會(huì)更新，以便支持文本軌道的第三方播放器也可以顯示它們。

支持點(diǎn)播視頻和直播錄制，無(wú)論它們是何時(shí)創(chuàng)建的。在測(cè)試版中，目前只能生成英文字幕，且視頻時(shí)長(zhǎng)不得超過(guò)2小時(shí)。語(yǔ)音清晰且背景噪音最小的視頻轉(zhuǎn)錄質(zhì)量最好。

我們對(duì)AI模型在測(cè)試中轉(zhuǎn)錄不同類型內(nèi)容的效果感到滿意。不過(guò)，有時(shí)結(jié)果并不完美，另一種方法可能更適合某些特定用例。請(qǐng)務(wù)必檢查所生成字幕的準(zhǔn)確性是否適合您的需求。

相關(guān)技術(shù)細(xì)節(jié)

使用Workers AI構(gòu)建

Stream工程團(tuán)隊(duì)使用Workers AI構(gòu)建了這項(xiàng)新功能，使我們能夠通過(guò)單個(gè)API調(diào)用訪問(wèn)Whisper模型（一種開源自動(dòng)語(yǔ)音識(shí)別模型）。使用Workers AI，通過(guò)開箱即用的解決方案從根本上簡(jiǎn)化了AI模型的部署、集成和擴(kuò)展。我們的團(tuán)隊(duì)不再需要處理基礎(chǔ)設(shè)施的復(fù)雜性，從而能夠?qū)Ｗ⒂跇?gòu)建自動(dòng)字幕功能。

編寫利用AI模型的軟件可能涉及多個(gè)挑戰(zhàn)。首先，難以配置適當(dāng)?shù)挠布A(chǔ)設(shè)施。AI模型需要大量計(jì)算資源才能高效運(yùn)行，并且需要GPU等專用硬件，而這些硬件可能成本高昂且難以管理。大規(guī)模部署AI模型也是一項(xiàng)艱巨的任務(wù)，涉及平衡工作負(fù)載分配、最小化延遲、優(yōu)化吞吐量和保持高可用性等復(fù)雜性。Workers AI不僅解決了管理底層基礎(chǔ)設(shè)施的難題，還可以根據(jù)需要自動(dòng)擴(kuò)展。

使用Workers AI將一項(xiàng)艱巨的任務(wù)轉(zhuǎn)變?yōu)橹恍璨坏?0行代碼即可轉(zhuǎn)錄音頻文件的Worker。

快速且大規(guī)模地為視頻添加字幕

Stream團(tuán)隊(duì)希望確保此功能在大規(guī)模運(yùn)行時(shí)足夠快速且高性能-這需要工程工作來(lái)處理大量視頻，無(wú)論時(shí)長(zhǎng)如何。

首先，我們的團(tuán)隊(duì)需要在運(yùn)行AI推理之前對(duì)音頻進(jìn)行預(yù)處理，以確保輸入與Whisper的輸入格式和要求兼容。

視頻內(nèi)容千差萬(wàn)別，從用手機(jī)拍攝的短小粗糙的視頻，到長(zhǎng)達(dá)數(shù)小時(shí)的高質(zhì)量好萊塢電影，應(yīng)有盡有。視頻可能無(wú)聲，也可能包含動(dòng)作驅(qū)動(dòng)的雜音。此外，Stream的點(diǎn)播視頻包括直播錄制，這些錄制的打包方式與作為完整文件上傳的視頻不同。由于存在這種多樣性，音頻輸入存儲(chǔ)在一系列不同的容器格式中，具有不同的持續(xù)時(shí)間和不同的文件大小。我們確保我們的音頻文件格式正確，符合Whisper的要求。

預(yù)處理的一個(gè)方面是確保文件具有合理的時(shí)長(zhǎng)，以優(yōu)化推理。Whisper的音頻文件轉(zhuǎn)錄時(shí)長(zhǎng)“最佳點(diǎn)”是30秒。正如他們?cè)贕ithub討論中指出的那樣：

“如果太短，會(huì)缺乏周圍的背景。你會(huì)更頻繁地刪減句子。很多句子會(huì)變得毫無(wú)意義。如果太長(zhǎng)，你需要越來(lái)越大的模型，來(lái)容納你希望模型跟蹤的含義的復(fù)雜性?！?/p>

幸運(yùn)的是，Stream已經(jīng)將視頻分割成更小的片段，以確保在Web上播放時(shí)快速交付。我們編寫了功能，在發(fā)送給Workers AI之前將這些小片段連接成30秒的批次。

為了優(yōu)化處理速度，我們的團(tuán)隊(duì)盡可能多地并行化操作。通過(guò)同時(shí)創(chuàng)建30秒的音頻批次并向Workers AI發(fā)送請(qǐng)求，我們充分利用了Workers AI平臺(tái)的可擴(kuò)展性。這樣做大大減少了生成字幕所需的時(shí)間，但增加了一些額外的復(fù)雜性。由于我們并行向Workers AI發(fā)送請(qǐng)求，因此轉(zhuǎn)錄響應(yīng)可能會(huì)無(wú)序到達(dá)。例如，如果視頻時(shí)長(zhǎng)為一分鐘，則生成視頻后30秒字幕的請(qǐng)求可能會(huì)在生成視頻前30秒字幕的請(qǐng)求之前完成。字幕需要按順序排列才能與視頻對(duì)齊，因此我們的團(tuán)隊(duì)必須保持對(duì)音頻批次順序的理解，以確保我們最終組合的WebVTT字幕文件與視頻正確同步。我們對(duì)傳入的Workers AI響應(yīng)進(jìn)行排序，并重新排序時(shí)間戳以獲得最終準(zhǔn)確的轉(zhuǎn)錄。

最終結(jié)果是能夠快速、高效且大規(guī)模地為較長(zhǎng)視頻生成字幕。

即刻開始試用

現(xiàn)在，我們已為所有訂閱者以及Pro和Business計(jì)劃用戶提供此功能的公開測(cè)試版，我們對(duì)此感到非常興奮！如要開始使用，請(qǐng)先將視頻上傳到Stream。查看我們的文檔以了解教程和當(dāng)前測(cè)試版的限制。接下來(lái)，我們將著重于添加更多語(yǔ)言并支持更長(zhǎng)的視頻。

AI Cloudflare Steam

上一篇：一圖看懂丨創(chuàng)新商業(yè)價(jià)值，洞見Akamai分布式云優(yōu)勢(shì)

原文鏈接：點(diǎn)擊前往 >

文章來(lái)源：Cloudflare

版權(quán)說(shuō)明：本文內(nèi)容來(lái)自于Cloudflare，本站不擁有所有權(quán)，不承擔(dān)相關(guān)法律責(zé)任。文章內(nèi)容系作者個(gè)人觀點(diǎn)，不代表快出海對(duì)觀點(diǎn)贊同或支持。如有侵權(quán)，請(qǐng)聯(lián)系管理員（zzx@kchuhai.com）刪除！

相關(guān)文章