Meta運(yùn)用圣經(jīng)譯本與錄音改進(jìn)語音模型,現(xiàn)可支持超過千種語言

來源:十輪網(wǎng)
作者:十輪網(wǎng)
時(shí)間:2023-05-25
1069
Meta大幅推進(jìn)語音識(shí)別技術(shù),發(fā)布的單一多語言語音識(shí)別模型MMS(Massively Multilingual Speech)模型,能夠識(shí)別超過4,000種的口說語言,而這個(gè)數(shù)量是目前已知技術(shù)的40倍。MMS也使得文本轉(zhuǎn)語音,以及語音轉(zhuǎn)文本技術(shù),從原本只能用于約100種語言,現(xiàn)在擴(kuò)展到1,107種。

2023-05-23-05-23-12.29.23.jpg

Meta大幅推進(jìn)語音識(shí)別技術(shù),發(fā)布的單一多語言語音識(shí)別模型MMS(Massively Multilingual Speech)模型,能夠識(shí)別超過4,000種的口說語言,而這個(gè)數(shù)量是目前已知技術(shù)的40倍。MMS也使得文本轉(zhuǎn)語音,以及語音轉(zhuǎn)文本技術(shù),從原本只能用于約100種語言,現(xiàn)在擴(kuò)展到1,107種。

要訓(xùn)練出能夠識(shí)別大量語言的模型,Meta第一個(gè)遭遇到的困難是收集各種語言的音頻資料,目前最大的語音資料集,也只不過涵蓋100種語言而已,研究人員想到一個(gè)克服難題的方法,是利用圣經(jīng)等宗教文本,這些文本已經(jīng)被大量翻譯成各種不同的語言,而且圣經(jīng)翻譯本也被廣泛地用在文本語言翻譯研究上。

這些宗教文本翻譯也有公開的錄音,因此Meta研究人員利用這些錄音,創(chuàng)建出1,100多種語言的新約圣經(jīng)音頻資料集,每種語言平均有32小時(shí)的錄音資料。除了圣經(jīng)之外,還有許多基督教宗教讀物無標(biāo)簽錄音,也能夠被拿來訓(xùn)練模型,使Meta得以將可用語言數(shù)量擴(kuò)張至4,000多種。

Meta研究人員提到,經(jīng)過他們的分析,雖然這些錄音資料主要都是男性說話者的聲音,但MMS模型處理男性和女性聲音的性能表現(xiàn)一致,另外,訓(xùn)練資料內(nèi)容來自于宗教,不過這并不會(huì)使模型產(chǎn)生更多的宗教語言。

語音技術(shù)被大量用在虛擬以及增強(qiáng)實(shí)境上,目的是讓每個(gè)用戶通過母語,理解網(wǎng)絡(luò)上其他人的話語,官方也表示,目前地球已知有7,000多種語言,許多語言正不斷的消失,更強(qiáng)大的語言技術(shù)將有助于保護(hù)這些語言。Meta現(xiàn)在開源MMS模型以及程序代碼,供研究社群能夠以這些基礎(chǔ)進(jìn)行后續(xù)研究。

立即登錄,閱讀全文
原文鏈接:點(diǎn)擊前往 >
文章來源:十輪網(wǎng)
版權(quán)說明:本文內(nèi)容來自于十輪網(wǎng),本站不擁有所有權(quán),不承擔(dān)相關(guān)法律責(zé)任。文章內(nèi)容系作者個(gè)人觀點(diǎn),不代表快出海對(duì)觀點(diǎn)贊同或支持。如有侵權(quán),請(qǐng)聯(lián)系管理員(zzx@kchuhai.com)刪除!
優(yōu)質(zhì)服務(wù)商推薦
更多
掃碼登錄
打開掃一掃, 關(guān)注公眾號(hào)后即可登錄/注冊(cè)
加載中
二維碼已失效 請(qǐng)重試
刷新
賬號(hào)登錄/注冊(cè)
小程序
快出海小程序
公眾號(hào)
快出海公眾號(hào)
商務(wù)合作
商務(wù)合作
投稿采訪
投稿采訪
出海管家
出海管家