Meta發(fā)布首個(gè)能同時(shí)接受語言及文本輸入的聲音生成模型Audiobox

來源：十輪網(wǎng)

作者：十輪網(wǎng)

時(shí)間：2023-12-06

Meta上周發(fā)布可讓用戶使用語音及文本指令生成音效及語音的最新AI模型Audiobox。

Meta今年6月發(fā)布VoiceboxAI模型，可應(yīng)用在語音生成、去噪、采樣和內(nèi)容編輯等各式語音任務(wù)，不限定特定應(yīng)用場景且具高性能。Audiobox則是Voicebox的后一代模型，以Voicebox框架為基礎(chǔ)開發(fā)。Audiobox能生成各種環(huán)境及風(fēng)格的語音、音效或聲音地景（soundscape），新模型集成生成和編輯能力，以及多種輸入機(jī)制，以擴(kuò)大不同應(yīng)用場景的控制能力。

Audiobox承襲了Voicebox的引導(dǎo)聲音生成訓(xùn)練目標(biāo)，以及音流比對（flow-matching）建模方法，以支持聲音填充（audio infilling），以生成或修飾音效，例如在下雨聲音地景加入雷聲。用戶可運(yùn)用自然語言文本提示描述想要的聲音或語音類型。用戶可輸入“潺潺流水、鳥兒啾啁”的文本提示生成聲音地景，或是以“高聲快節(jié)奏講話的年輕女性”生成人聲。該模型還讓用戶輸入人聲及文本提示，以合成任何環(huán)境（如教堂）或任何情緒（如哀痛而緩慢）的一段說話。Meta認(rèn)為Audiobox是第一個(gè)可接受語音及文本描述來改造聲音的模型。

經(jīng)過Meta測試，顯示Audiobox在音質(zhì)及相關(guān)性（切合文本描述的程度）都超越了現(xiàn)有最佳的聲音生成模型如AudioLDM2、VoiceLDM及TANGO。

Meta解釋，生成高品質(zhì)聲音需要有大量音頻庫及深厚的領(lǐng)域知識，如聲音工程、后期、語音表演等，但大眾和消費(fèi)者都不會有這些資源。他們推出這個(gè)模型，相信未來可降低聲音生成的門檻，讓任何人都更容易制作視頻或podcast、電玩或其他應(yīng)用場景的音效。

Meta即將準(zhǔn)備讓特定研究人員及學(xué)者專家試用Audiobox，測試模型品質(zhì)及安全倫理性。再過幾周將通過申請網(wǎng)頁開放申請?jiān)囉谩?/p>

Audiobox是Meta發(fā)布的AI研發(fā)成果之一。為慶祝AI研究中心FAIR成立十周年，Meta還公布翻譯模型Seamless Communication。此外，Meta也宣布即將公開圖片學(xué)習(xí)及多模感知模型的基礎(chǔ)訓(xùn)練數(shù)據(jù)集Ego-Exo4D。Ego-Exo4D是Meta開發(fā)VR眼鏡Project Aria并和學(xué)界合作的成果，主體為以人為中心（egocentric）及外心（exocentric，由鏡頭環(huán)視周邊場景）的數(shù)據(jù)集，兩種角度能提升AI模型學(xué)習(xí)人類技能的能力。這批數(shù)據(jù)包含1,400小時(shí)視頻及基準(zhǔn)模型，將供研究社交媒體使用。

Meta

上一篇：AWS Clean Rooms添加機(jī)器學(xué)習(xí)和差分隱私功能，強(qiáng)化數(shù)據(jù)應(yīng)用與隱私安全性

原文鏈接：點(diǎn)擊前往 >

版權(quán)說明：本文內(nèi)容來自于十輪網(wǎng)，本站不擁有所有權(quán)，不承擔(dān)相關(guān)法律責(zé)任。文章內(nèi)容系作者個(gè)人觀點(diǎn)，不代表快出海對觀點(diǎn)贊同或支持。如有侵權(quán)，請聯(lián)系管理員（zzx@kchuhai.com）刪除！

相關(guān)文章