Meta運(yùn)用圣經(jīng)譯本與錄音改進(jìn)語音模型，現(xiàn)可支持超過千種語言

來源：十輪網(wǎng)

作者：十輪網(wǎng)

時(shí)間：2023-05-25

Meta大幅推進(jìn)語音識(shí)別技術(shù)，發(fā)布的單一多語言語音識(shí)別模型MMS（Massively Multilingual Speech）模型，能夠識(shí)別超過4,000種的口說語言，而這個(gè)數(shù)量是目前已知技術(shù)的40倍。MMS也使得文本轉(zhuǎn)語音，以及語音轉(zhuǎn)文本技術(shù)，從原本只能用于約100種語言，現(xiàn)在擴(kuò)展到1,107種。

2023-05-23-05-23-12.29.23.jpg

要訓(xùn)練出能夠識(shí)別大量語言的模型，Meta第一個(gè)遭遇到的困難是收集各種語言的音頻資料，目前最大的語音資料集，也只不過涵蓋100種語言而已，研究人員想到一個(gè)克服難題的方法，是利用圣經(jīng)等宗教文本，這些文本已經(jīng)被大量翻譯成各種不同的語言，而且圣經(jīng)翻譯本也被廣泛地用在文本語言翻譯研究上。

這些宗教文本翻譯也有公開的錄音，因此Meta研究人員利用這些錄音，創(chuàng)建出1,100多種語言的新約圣經(jīng)音頻資料集，每種語言平均有32小時(shí)的錄音資料。除了圣經(jīng)之外，還有許多基督教宗教讀物無標(biāo)簽錄音，也能夠被拿來訓(xùn)練模型，使Meta得以將可用語言數(shù)量擴(kuò)張至4,000多種。

Meta研究人員提到，經(jīng)過他們的分析，雖然這些錄音資料主要都是男性說話者的聲音，但MMS模型處理男性和女性聲音的性能表現(xiàn)一致，另外，訓(xùn)練資料內(nèi)容來自于宗教，不過這并不會(huì)使模型產(chǎn)生更多的宗教語言。

語音技術(shù)被大量用在虛擬以及增強(qiáng)實(shí)境上，目的是讓每個(gè)用戶通過母語，理解網(wǎng)絡(luò)上其他人的話語，官方也表示，目前地球已知有7,000多種語言，許多語言正不斷的消失，更強(qiáng)大的語言技術(shù)將有助于保護(hù)這些語言。Meta現(xiàn)在開源MMS模型以及程序代碼，供研究社群能夠以這些基礎(chǔ)進(jìn)行后續(xù)研究。

Meta

上一篇：Google開源云計(jì)算醫(yī)療圖片檢索函數(shù)庫，加速數(shù)字病理AI應(yīng)用開發(fā)

原文鏈接：點(diǎn)擊前往 >

版權(quán)說明：本文內(nèi)容來自于十輪網(wǎng)，本站不擁有所有權(quán)，不承擔(dān)相關(guān)法律責(zé)任。文章內(nèi)容系作者個(gè)人觀點(diǎn)，不代表快出海對(duì)觀點(diǎn)贊同或支持。如有侵權(quán)，請(qǐng)聯(lián)系管理員（zzx@kchuhai.com）刪除！

相關(guān)文章