Meta發(fā)布Voicebox AI語音生成模型、僅需2秒聲音樣本就可讓你說出6國語言

來源:十輪網(wǎng)
作者:十輪網(wǎng)
時間:2023-06-25
3254
Meta目前發(fā)布了Voicebox AI模型,相對于只能使用文本或圖片回復的競品模型,Voicebox AI模型的優(yōu)勢主要如其名,能夠生成用于回復的音頻消息。

268462a27a7663bcf896a0857fc96625.jpg

Meta目前發(fā)布了Voicebox AI模型,相對于只能使用文本或圖片回復的競品模型,Voicebox AI模型的優(yōu)勢主要如其名,能夠生成用于回復的音頻消息。

Voicebox可以制作高質量的音頻剪輯并編輯預先錄制的音頻,例如移除汽車音箱或狗叫聲的同時保留音頻的內容和風格。該模型也是多語言的,僅需2秒聲音樣本,可以產(chǎn)生六種語言的語音。

1d4e5fa0853e3b60fc85d7fa4e8cd284.jpg

未來像Voicebox這樣的多用途生成AI模型可以為元宇宙中的虛擬助手和NPC角色提供自然的聲音,也可以讓視障人士聽到朋友由文本傳來轉為語音的內容,AI會用他們的聲音朗讀這些文本消息。

Meta表示,Voicebox具有多功能性,可以實現(xiàn)各種任務,包括:

上下文文本到語音合成:使用短至兩秒的音頻樣本,Voicebox可以匹配音頻風格并將其用于文本到語音生成。

語音編輯和降噪:Voicebox可以重新創(chuàng)建被噪音打斷的部分語音或替換說錯的詞,而無需重新錄制整個語音。例如,您可以識別被狗叫聲打斷的一段語音,將其裁剪,然后指示Voicebox重新生成該段內容。

跨語言風格轉換:比方說某人以一段英語演講的內容,Voicebox可以生成他以不同語言演講的內容。將來可以使用此功能來幫助人們以自然、真實的方式進行交流,即使他們不會說同一種語言。

Diverse speech sampling:從不同的數(shù)據(jù)中學習后,Voicebox可以生成更能代表人們在現(xiàn)實世界中使用上述六種語言的談話方式的語音。

3898852ad4b8587908301471c18af282.jpg

Voicebox AI模型的特色,圖源Meta

8a88fc7f536dca1b03fc39bfe62aa2c9.jpg

Meta表示,Voicebox可以為基于AI的虛擬助手或元宇宙中的NPC提供自然而真實的語音效果。而對于無障礙方面而言,Voicebox也可以對聲帶受損的人群提供一定的協(xié)助作用。

不過,Meta表示Voicebox AI模型目前仍處于研發(fā)階段。Meta表示,他們意識到這種人工智能技術在虛假偽造方面,可能會帶來潛在危害。事實上,在新聞上也已經(jīng)聽過有些詐騙集團利用與本人幾乎一樣的聲音來進行詐騙的案例出現(xiàn)過了,因此Meta目前正在努力找到一種有效的方式來區(qū)分真實語音和由Voicebox生成的音頻,在找到解決方案前,暫時不會向公眾公開提供。

立即登錄,閱讀全文
原文鏈接:點擊前往 >
版權說明:本文內容來自于十輪網(wǎng),本站不擁有所有權,不承擔相關法律責任。文章內容系作者個人觀點,不代表快出海對觀點贊同或支持。如有侵權,請聯(lián)系管理員(zzx@kchuhai.com)刪除!
優(yōu)質服務商推薦
更多
掃碼登錄
打開掃一掃, 關注公眾號后即可登錄/注冊
加載中
二維碼已失效 請重試
刷新
賬號登錄/注冊
個人VIP
小程序
快出海小程序
公眾號
快出海公眾號
商務合作
商務合作
投稿采訪
投稿采訪
出海管家
出海管家