Google在去年的時(shí)候宣布,將要構(gòu)建一個(gè)能夠支持1,000種語言的機(jī)器學(xué)習(xí)模型,現(xiàn)在發(fā)布階段性研究成果,Google的通用語音模型(USM)已經(jīng)能夠支持100種語言,這項(xiàng)成果目前發(fā)表在arXiv論文預(yù)印本網(wǎng)站。
研究人員提到,傳統(tǒng)的監(jiān)督式學(xué)習(xí)方法欠缺可擴(kuò)展性,要將語音技術(shù)擴(kuò)展至更多的語言,便需要有足夠多的資料訓(xùn)練高品質(zhì)模型。過去資料準(zhǔn)備的常見方法,需要以人工手動(dòng)標(biāo)記音頻資料,而這是耗時(shí)且昂貴的過程,更何況對(duì)于缺乏資源的語言,更是難以收集足夠的訓(xùn)練資料。而自我監(jiān)督式的學(xué)習(xí),反而可以利用純音頻資料,因此更可能達(dá)到擴(kuò)展至數(shù)百種語言的目標(biāo)。
Google的通用語音模型則是使用自我監(jiān)督式學(xué)習(xí),運(yùn)用大型未標(biāo)記的多語言資料集預(yù)訓(xùn)練模型編碼器,并使用較小的標(biāo)記資料集進(jìn)行微調(diào),使模型能夠識(shí)別缺乏資源的語言。通用語音模型具有20億參數(shù),使用1,200小時(shí)的語音和280億條文本句子進(jìn)行訓(xùn)練。
通用語音模型主要用于YouTube,不只可以對(duì)英語和漢語執(zhí)行自動(dòng)語音識(shí)別,甚至還可以識(shí)別資源缺乏的阿薩姆語、馬達(dá)加斯加語和宿霧語等。目前通用語音模型能夠?qū)?00多種語言執(zhí)行自動(dòng)語音識(shí)別,盡管該模型所使用的標(biāo)記訓(xùn)練資料集,僅有Whisper模型的七分之一,但是在跨多種語言的語音識(shí)別任務(wù),卻有相同甚至更佳的表現(xiàn)。
通用語音模型在其中73種語言,平均每種語言的訓(xùn)練資料不到3,000小時(shí),卻實(shí)現(xiàn)了低于30%的單詞錯(cuò)誤率,而這是Google過去從未達(dá)到的成果。在各種公開的資料集測(cè)試,包括CORAAL、SpeechStew和FLEURS,與Whisper模型相比較,通用語音模型的單詞錯(cuò)誤率都較低。研究人員還利用CoVoST資料集微調(diào)通用語音模型,和Whisper的語音翻譯能力進(jìn)行比較,通用語音模型無論是在資源可用性低、中和高的語言,BLEU分?jǐn)?shù)都較Whisper更佳。