Meta上周發(fā)布可讓用戶使用語音及文本指令生成音效及語音的最新AI模型Audiobox。
Meta今年6月發(fā)布VoiceboxAI模型,可應(yīng)用在語音生成、去噪、采樣和內(nèi)容編輯等各式語音任務(wù),不限定特定應(yīng)用場景且具高性能。Audiobox則是Voicebox的后一代模型,以Voicebox框架為基礎(chǔ)開發(fā)。Audiobox能生成各種環(huán)境及風(fēng)格的語音、音效或聲音地景(soundscape),新模型集成生成和編輯能力,以及多種輸入機(jī)制,以擴(kuò)大不同應(yīng)用場景的控制能力。
Audiobox承襲了Voicebox的引導(dǎo)聲音生成訓(xùn)練目標(biāo),以及音流比對(flow-matching)建模方法,以支持聲音填充(audio infilling),以生成或修飾音效,例如在下雨聲音地景加入雷聲。用戶可運用自然語言文本提示描述想要的聲音或語音類型。用戶可輸入“潺潺流水、鳥兒啾啁”的文本提示生成聲音地景,或是以“高聲快節(jié)奏講話的年輕女性”生成人聲。該模型還讓用戶輸入人聲及文本提示,以合成任何環(huán)境(如教堂)或任何情緒(如哀痛而緩慢)的一段說話。Meta認(rèn)為Audiobox是第一個可接受語音及文本描述來改造聲音的模型。
經(jīng)過Meta測試,顯示Audiobox在音質(zhì)及相關(guān)性(切合文本描述的程度)都超越了現(xiàn)有最佳的聲音生成模型如AudioLDM2、VoiceLDM及TANGO。
Meta解釋,生成高品質(zhì)聲音需要有大量音頻庫及深厚的領(lǐng)域知識,如聲音工程、后期、語音表演等,但大眾和消費者都不會有這些資源。他們推出這個模型,相信未來可降低聲音生成的門檻,讓任何人都更容易制作視頻或podcast、電玩或其他應(yīng)用場景的音效。
Meta即將準(zhǔn)備讓特定研究人員及學(xué)者專家試用Audiobox,測試模型品質(zhì)及安全倫理性。再過幾周將通過申請網(wǎng)頁開放申請試用。
Audiobox是Meta發(fā)布的AI研發(fā)成果之一。為慶祝AI研究中心FAIR成立十周年,Meta還公布翻譯模型Seamless Communication。此外,Meta也宣布即將公開圖片學(xué)習(xí)及多模感知模型的基礎(chǔ)訓(xùn)練數(shù)據(jù)集Ego-Exo4D。Ego-Exo4D是Meta開發(fā)VR眼鏡Project Aria并和學(xué)界合作的成果,主體為以人為中心(egocentric)及外心(exocentric,由鏡頭環(huán)視周邊場景)的數(shù)據(jù)集,兩種角度能提升AI模型學(xué)習(xí)人類技能的能力。這批數(shù)據(jù)包含1,400小時視頻及基準(zhǔn)模型,將供研究社交媒體使用。