Google用于YouTube的通用語音模型,現(xiàn)可識別超過100種語言

來源:十輪網(wǎng)
作者:十輪網(wǎng)
時間:2023-03-09
1134
Google在去年的時候宣布,將要構(gòu)建一個能夠支持1,000種語言的機器學習模型,現(xiàn)在發(fā)布階段性研究成果,Google的通用語音模型(USM)已經(jīng)能夠支持100種語言,這項成果目前發(fā)表在arXiv論文預印本網(wǎng)站。

fireshot_capture_168-universal_speech_model.jpg

Google在去年的時候宣布,將要構(gòu)建一個能夠支持1,000種語言的機器學習模型,現(xiàn)在發(fā)布階段性研究成果,Google的通用語音模型(USM)已經(jīng)能夠支持100種語言,這項成果目前發(fā)表在arXiv論文預印本網(wǎng)站。

研究人員提到,傳統(tǒng)的監(jiān)督式學習方法欠缺可擴展性,要將語音技術(shù)擴展至更多的語言,便需要有足夠多的資料訓練高品質(zhì)模型。過去資料準備的常見方法,需要以人工手動標記音頻資料,而這是耗時且昂貴的過程,更何況對于缺乏資源的語言,更是難以收集足夠的訓練資料。而自我監(jiān)督式的學習,反而可以利用純音頻資料,因此更可能達到擴展至數(shù)百種語言的目標。

Google的通用語音模型則是使用自我監(jiān)督式學習,運用大型未標記的多語言資料集預訓練模型編碼器,并使用較小的標記資料集進行微調(diào),使模型能夠識別缺乏資源的語言。通用語音模型具有20億參數(shù),使用1,200小時的語音和280億條文本句子進行訓練。

通用語音模型主要用于YouTube,不只可以對英語和漢語執(zhí)行自動語音識別,甚至還可以識別資源缺乏的阿薩姆語、馬達加斯加語和宿霧語等。目前通用語音模型能夠?qū)?00多種語言執(zhí)行自動語音識別,盡管該模型所使用的標記訓練資料集,僅有Whisper模型的七分之一,但是在跨多種語言的語音識別任務,卻有相同甚至更佳的表現(xiàn)。

通用語音模型在其中73種語言,平均每種語言的訓練資料不到3,000小時,卻實現(xiàn)了低于30%的單詞錯誤率,而這是Google過去從未達到的成果。在各種公開的資料集測試,包括CORAAL、SpeechStew和FLEURS,與Whisper模型相比較,通用語音模型的單詞錯誤率都較低。研究人員還利用CoVoST資料集微調(diào)通用語音模型,和Whisper的語音翻譯能力進行比較,通用語音模型無論是在資源可用性低、中和高的語言,BLEU分數(shù)都較Whisper更佳。

立即登錄,閱讀全文
原文鏈接:點擊前往 >
版權(quán)說明:本文內(nèi)容來自于十輪網(wǎng),本站不擁有所有權(quán),不承擔相關(guān)法律責任。文章內(nèi)容系作者個人觀點,不代表快出海對觀點贊同或支持。如有侵權(quán),請聯(lián)系管理員(zzx@kchuhai.com)刪除!
優(yōu)質(zhì)服務商推薦
更多