Meta運用圣經(jīng)譯本與錄音改進語音模型,現(xiàn)可支持超過千種語言

來源:十輪網(wǎng)
作者:十輪網(wǎng)
時間:2023-05-25
1129
Meta大幅推進語音識別技術(shù),發(fā)布的單一多語言語音識別模型MMS(Massively Multilingual Speech)模型,能夠識別超過4,000種的口說語言,而這個數(shù)量是目前已知技術(shù)的40倍。MMS也使得文本轉(zhuǎn)語音,以及語音轉(zhuǎn)文本技術(shù),從原本只能用于約100種語言,現(xiàn)在擴展到1,107種。

2023-05-23-05-23-12.29.23.jpg

Meta大幅推進語音識別技術(shù),發(fā)布的單一多語言語音識別模型MMS(Massively Multilingual Speech)模型,能夠識別超過4,000種的口說語言,而這個數(shù)量是目前已知技術(shù)的40倍。MMS也使得文本轉(zhuǎn)語音,以及語音轉(zhuǎn)文本技術(shù),從原本只能用于約100種語言,現(xiàn)在擴展到1,107種。

要訓(xùn)練出能夠識別大量語言的模型,Meta第一個遭遇到的困難是收集各種語言的音頻資料,目前最大的語音資料集,也只不過涵蓋100種語言而已,研究人員想到一個克服難題的方法,是利用圣經(jīng)等宗教文本,這些文本已經(jīng)被大量翻譯成各種不同的語言,而且圣經(jīng)翻譯本也被廣泛地用在文本語言翻譯研究上。

這些宗教文本翻譯也有公開的錄音,因此Meta研究人員利用這些錄音,創(chuàng)建出1,100多種語言的新約圣經(jīng)音頻資料集,每種語言平均有32小時的錄音資料。除了圣經(jīng)之外,還有許多基督教宗教讀物無標(biāo)簽錄音,也能夠被拿來訓(xùn)練模型,使Meta得以將可用語言數(shù)量擴張至4,000多種。

Meta研究人員提到,經(jīng)過他們的分析,雖然這些錄音資料主要都是男性說話者的聲音,但MMS模型處理男性和女性聲音的性能表現(xiàn)一致,另外,訓(xùn)練資料內(nèi)容來自于宗教,不過這并不會使模型產(chǎn)生更多的宗教語言。

語音技術(shù)被大量用在虛擬以及增強實境上,目的是讓每個用戶通過母語,理解網(wǎng)絡(luò)上其他人的話語,官方也表示,目前地球已知有7,000多種語言,許多語言正不斷的消失,更強大的語言技術(shù)將有助于保護這些語言。Meta現(xiàn)在開源MMS模型以及程序代碼,供研究社群能夠以這些基礎(chǔ)進行后續(xù)研究。

原文鏈接:點擊前往 >
版權(quán)說明:本文內(nèi)容來自于十輪網(wǎng),本站不擁有所有權(quán),不承擔(dān)相關(guān)法律責(zé)任。文章內(nèi)容系作者個人觀點,不代表快出海對觀點贊同或支持。如有侵權(quán),請聯(lián)系管理員(zzx@kchuhai.com)刪除!
個人VIP
小程序
快出海小程序
公眾號
快出海公眾號
商務(wù)合作
商務(wù)合作
投稿采訪
投稿采訪
出海管家
出海管家