Google用于YouTube的通用語音模型,現(xiàn)可識(shí)別超過100種語言

來源:十輪網(wǎng)
作者:十輪網(wǎng)
時(shí)間:2023-03-09
1466
Google在去年的時(shí)候宣布,將要構(gòu)建一個(gè)能夠支持1,000種語言的機(jī)器學(xué)習(xí)模型,現(xiàn)在發(fā)布階段性研究成果,Google的通用語音模型(USM)已經(jīng)能夠支持100種語言,這項(xiàng)成果目前發(fā)表在arXiv論文預(yù)印本網(wǎng)站。

fireshot_capture_168-universal_speech_model.jpg

Google在去年的時(shí)候宣布,將要構(gòu)建一個(gè)能夠支持1,000種語言的機(jī)器學(xué)習(xí)模型,現(xiàn)在發(fā)布階段性研究成果,Google的通用語音模型(USM)已經(jīng)能夠支持100種語言,這項(xiàng)成果目前發(fā)表在arXiv論文預(yù)印本網(wǎng)站。

研究人員提到,傳統(tǒng)的監(jiān)督式學(xué)習(xí)方法欠缺可擴(kuò)展性,要將語音技術(shù)擴(kuò)展至更多的語言,便需要有足夠多的資料訓(xùn)練高品質(zhì)模型。過去資料準(zhǔn)備的常見方法,需要以人工手動(dòng)標(biāo)記音頻資料,而這是耗時(shí)且昂貴的過程,更何況對(duì)于缺乏資源的語言,更是難以收集足夠的訓(xùn)練資料。而自我監(jiān)督式的學(xué)習(xí),反而可以利用純音頻資料,因此更可能達(dá)到擴(kuò)展至數(shù)百種語言的目標(biāo)。

Google的通用語音模型則是使用自我監(jiān)督式學(xué)習(xí),運(yùn)用大型未標(biāo)記的多語言資料集預(yù)訓(xùn)練模型編碼器,并使用較小的標(biāo)記資料集進(jìn)行微調(diào),使模型能夠識(shí)別缺乏資源的語言。通用語音模型具有20億參數(shù),使用1,200小時(shí)的語音和280億條文本句子進(jìn)行訓(xùn)練。

通用語音模型主要用于YouTube,不只可以對(duì)英語和漢語執(zhí)行自動(dòng)語音識(shí)別,甚至還可以識(shí)別資源缺乏的阿薩姆語、馬達(dá)加斯加語和宿霧語等。目前通用語音模型能夠?qū)?00多種語言執(zhí)行自動(dòng)語音識(shí)別,盡管該模型所使用的標(biāo)記訓(xùn)練資料集,僅有Whisper模型的七分之一,但是在跨多種語言的語音識(shí)別任務(wù),卻有相同甚至更佳的表現(xiàn)。

通用語音模型在其中73種語言,平均每種語言的訓(xùn)練資料不到3,000小時(shí),卻實(shí)現(xiàn)了低于30%的單詞錯(cuò)誤率,而這是Google過去從未達(dá)到的成果。在各種公開的資料集測(cè)試,包括CORAAL、SpeechStew和FLEURS,與Whisper模型相比較,通用語音模型的單詞錯(cuò)誤率都較低。研究人員還利用CoVoST資料集微調(diào)通用語音模型,和Whisper的語音翻譯能力進(jìn)行比較,通用語音模型無論是在資源可用性低、中和高的語言,BLEU分?jǐn)?shù)都較Whisper更佳。

立即登錄,閱讀全文
原文鏈接:點(diǎn)擊前往 >
版權(quán)說明:本文內(nèi)容來自于十輪網(wǎng),本站不擁有所有權(quán),不承擔(dān)相關(guān)法律責(zé)任。文章內(nèi)容系作者個(gè)人觀點(diǎn),不代表快出海對(duì)觀點(diǎn)贊同或支持。如有侵權(quán),請(qǐng)聯(lián)系管理員(zzx@kchuhai.com)刪除!
優(yōu)質(zhì)服務(wù)商推薦
更多
掃碼登錄
打開掃一掃, 關(guān)注公眾號(hào)后即可登錄/注冊(cè)
加載中
二維碼已失效 請(qǐng)重試
刷新
賬號(hào)登錄/注冊(cè)
個(gè)人VIP
小程序
快出海小程序
公眾號(hào)
快出海公眾號(hào)
商務(wù)合作
商務(wù)合作
投稿采訪
投稿采訪
出海管家
出海管家