Meta大幅推進(jìn)語音識(shí)別技術(shù),發(fā)布的單一多語言語音識(shí)別模型MMS(Massively Multilingual Speech)模型,能夠識(shí)別超過4,000種的口說語言,而這個(gè)數(shù)量是目前已知技術(shù)的40倍。MMS也使得文本轉(zhuǎn)語音,以及語音轉(zhuǎn)文本技術(shù),從原本只能用于約100種語言,現(xiàn)在擴(kuò)展到1,107種。
要訓(xùn)練出能夠識(shí)別大量語言的模型,Meta第一個(gè)遭遇到的困難是收集各種語言的音頻資料,目前最大的語音資料集,也只不過涵蓋100種語言而已,研究人員想到一個(gè)克服難題的方法,是利用圣經(jīng)等宗教文本,這些文本已經(jīng)被大量翻譯成各種不同的語言,而且圣經(jīng)翻譯本也被廣泛地用在文本語言翻譯研究上。
這些宗教文本翻譯也有公開的錄音,因此Meta研究人員利用這些錄音,創(chuàng)建出1,100多種語言的新約圣經(jīng)音頻資料集,每種語言平均有32小時(shí)的錄音資料。除了圣經(jīng)之外,還有許多基督教宗教讀物無標(biāo)簽錄音,也能夠被拿來訓(xùn)練模型,使Meta得以將可用語言數(shù)量擴(kuò)張至4,000多種。
Meta研究人員提到,經(jīng)過他們的分析,雖然這些錄音資料主要都是男性說話者的聲音,但MMS模型處理男性和女性聲音的性能表現(xiàn)一致,另外,訓(xùn)練資料內(nèi)容來自于宗教,不過這并不會(huì)使模型產(chǎn)生更多的宗教語言。
語音技術(shù)被大量用在虛擬以及增強(qiáng)實(shí)境上,目的是讓每個(gè)用戶通過母語,理解網(wǎng)絡(luò)上其他人的話語,官方也表示,目前地球已知有7,000多種語言,許多語言正不斷的消失,更強(qiáng)大的語言技術(shù)將有助于保護(hù)這些語言。Meta現(xiàn)在開源MMS模型以及程序代碼,供研究社群能夠以這些基礎(chǔ)進(jìn)行后續(xù)研究。