Meta發(fā)布4合一Seamless Communication翻譯AI模型組件,支持近百種語言輸入

來源:十輪網(wǎng)
作者:十輪網(wǎng)
時間:2023-12-05
2643
Meta上周公布翻譯AI模型組件Seamless Communication,包含提供更精準(zhǔn)再現(xiàn)說話者情緒、及延遲僅2秒的幾近同步翻譯能力的新模型,支持近百種語言輸入。

1204-seamless_communication-seamlessexpressive_demo-meta-960_0.jpg

Meta上周(11/30)公布翻譯AI模型組件Seamless Communication,包含提供更精準(zhǔn)再現(xiàn)說話者情緒、及延遲僅2秒的幾近同步翻譯能力的新模型,支持近百種語言輸入。

Seamless Communication為Meta為慶祝其AI研究機構(gòu)基礎(chǔ)AI研究(Fundamental AI Research,F(xiàn)AIR)成立10周年而發(fā)布的研究成果之一。Seamless Communication是以8月公布的多語雙模(文本、語音)翻譯模型SeamlessM4T第2版為基礎(chǔ)而發(fā)展出的組件,號稱能在翻譯時保存不同語言的說話表情,以及說話者講話同時加速翻譯。

1204-Seamless-Communication-Meta.jpg

這個組件其實由4個模型組成,其中之一是SeamlessM4T第2代,以及SeamlessExpressive、SeamlessStreaming與Seamless。SeamlessExpressive是一種口譯模型,解決傳統(tǒng)AI翻譯時無法抓住聲音語調(diào)、停頓和重點,而失去情感和意圖的重要信號的問題。SeamlessExpressive是第一個掌握跨語言表情的公開系統(tǒng)。它使用的模型能保存說話者情緒、風(fēng)格、說話速度、停頓和節(jié)奏,又能維持翻譯品質(zhì)。目前SeamlessExpressive支持英、中、西、法、德、義語。

1204-SeamlessExpressive-demo-600.jpg

SeamlessStreaming是同步翻譯模型,主打2秒延遲的語音和文本翻譯,可支持口譯(speech-to-speech translation,S2ST)、聽寫翻譯(speech-to-text translation,S2TT)及自動語音識別(Automatic speech recognition,ASR)。在后二種任務(wù)上,SeamlessStreaming支持將近100種語言輸入及輸出,而在口譯同步翻譯則支持100種語言輸入、36種語言輸出。最后一種模型Seamless則是融合這三種語言模型于一。

Meta也將示范視頻公布在GitHub以及HuggingFace網(wǎng)站上。

立即登錄,閱讀全文
原文鏈接:點擊前往 >
文章來源:十輪網(wǎng)
版權(quán)說明:本文內(nèi)容來自于十輪網(wǎng),本站不擁有所有權(quán),不承擔(dān)相關(guān)法律責(zé)任。文章內(nèi)容系作者個人觀點,不代表快出海對觀點贊同或支持。如有侵權(quán),請聯(lián)系管理員(zzx@kchuhai.com)刪除!
優(yōu)質(zhì)服務(wù)商推薦
更多