微軟發(fā)布最新 Azure 神經(jīng)網(wǎng)絡(luò)語音合成技術(shù) Uni-TTSv3 多語言語音合成模型

來源: 劍客網(wǎng)
作者:IT之家
時(shí)間:2021-11-17
16523
日前,微軟發(fā)布最新 Azure 神經(jīng)網(wǎng)絡(luò)語音合成技術(shù) Uni-TTSv3 多語言語音合成模型。與上一代語音合成模型相比,Uni-TTSv3 語音合成保真度更高、速度更快、訓(xùn)練時(shí)間更短,更降本增效。借助 Uni-TTSv3,微軟升級(jí)美語合成女聲 Jenny。全新升級(jí)的 Jenny Multilingual Neural,擁有跨語言能力,支持 14 個(gè)國家和地區(qū)的語言。

日前,微軟發(fā)布最新 Azure 神經(jīng)網(wǎng)絡(luò)語音合成技術(shù) Uni-TTSv3 多語言語音合成模型。與上一代語音合成模型相比,Uni-TTSv3 語音合成保真度更高、速度更快、訓(xùn)練時(shí)間更短,更降本增效。借助 Uni-TTSv3,微軟升級(jí)美語合成女聲 Jenny。全新升級(jí)的 Jenny Multilingual Neural,擁有跨語言能力,支持 14 個(gè)國家和地區(qū)的語言。

  IT之家獲悉,此外,基于 Uni-TTSv3 而構(gòu)建的深度神經(jīng)網(wǎng)絡(luò)定制語音服務(wù),也擴(kuò)展了跨語言定制服務(wù)功能,客戶只需提供一個(gè)語言的錄音數(shù)據(jù)作為語料,即可訓(xùn)練定制模型同時(shí)說多個(gè)語言。

  Jenny Multilingual Neural 音頻示例:

  隨著技術(shù)不斷迭代,微軟智能語音性能已能媲美真人,并支持超過 110 個(gè)國家和地區(qū)的語言,提供超過 270 個(gè)神經(jīng)網(wǎng)絡(luò)聲音。為進(jìn)一步拓寬語音使用場景,滿足各行業(yè)客戶的多元化需求,微軟智能語音也在不斷探索新的服務(wù)和能力:

  跨語種語音技術(shù)需求:僅用一個(gè)音色就能生成同時(shí)覆蓋全球用戶的多語言應(yīng)用需求,譬如在虛擬游戲中創(chuàng)建具有多語言能力的 NPC (Non-Player Character , 非玩家角色),在智能客服等場景中使用多種語言與用戶交談,提升用戶體驗(yàn)。

  穩(wěn)定高效的平臺(tái)需求:使語音模型更加魯棒(robust,系統(tǒng)穩(wěn)定性),即使在定制服務(wù)場景中,也可以不受外界環(huán)境影響,穩(wěn)定、高效的處理不同類型的訓(xùn)練數(shù)據(jù)。

  新一代神經(jīng)網(wǎng)絡(luò)語音合成技術(shù) Uni-TTSv3 的提出,旨在解決上述訴求并完善如下功能:

  保真度高

  Uni-TTSv3 是非自回歸語音合成模型,基于 FastSpeech 2(快速高質(zhì)量語音合成模型) 構(gòu)建,通過直接使用真實(shí)語音進(jìn)行訓(xùn)練,并引入更多有關(guān)語速、語調(diào)、重音模式等語音變化信息,提高合成語音質(zhì)量。經(jīng)行業(yè)公認(rèn)的、專業(yè)評(píng)估語音自然度的 MOS(Mean Opinion Score 平均意見評(píng)分)評(píng)測結(jié)果顯示,智能合成女聲 Jenny Multilingual Neural 的各語種語音平均評(píng)分達(dá)到 4.2 分以上(總分 5 分),語音保真度高。

Uni-TTSv3 模型結(jié)構(gòu)圖

  多語言通用

  Uni-TTSv3 是強(qiáng)大的多語言語音模型,在多語言和多說話人數(shù)據(jù)集上訓(xùn)練。Uni-TTSv3 通過訓(xùn)練來自 50 多個(gè)不同地域和口音的發(fā)音人在不同場景下錄制的超過 3,000 個(gè)小時(shí)的語音數(shù)據(jù),構(gòu)建多語言通用基礎(chǔ)語音模型,確保 AI 語音在語速、語調(diào)和重音模式等不變的情況下演繹多國語言。

  訓(xùn)練時(shí)間更短

  Uni-TTSv3 授權(quán) Azure 語音合成平臺(tái)和自定義神經(jīng)語音支持多語種語音。借助 Uni-TTSv3 升級(jí)自定義神經(jīng)語音訓(xùn)練管道,支持客戶用更短的訓(xùn)練時(shí)間創(chuàng)建高質(zhì)量的語音模型。與上一代語音合成模型相比,Uni-TTSv3 調(diào)優(yōu)過程簡單,尤其在聲學(xué)訓(xùn)練部分,訓(xùn)練時(shí)間顯著減少 50% 左右,更加降本增效。

  Uni-TTSv3 模型訓(xùn)練示意圖

  你可以點(diǎn)此鏈接試用體驗(yàn) Uni-TTSv3 多語言語音合成模型,并使用微軟 Azure 有聲內(nèi)容制作平臺(tái)制作高質(zhì)量合成語音。

立即登錄,閱讀全文
版權(quán)說明:
本文內(nèi)容來自于劍客網(wǎng),本站不擁有所有權(quán),不承擔(dān)相關(guān)法律責(zé)任。文章內(nèi)容系作者個(gè)人觀點(diǎn),不代表快出海對(duì)觀點(diǎn)贊同或支持。如有侵權(quán),請(qǐng)聯(lián)系管理員(zzx@kchuhai.com)刪除!
相關(guān)文章
Azure Arc為企業(yè)構(gòu)建安全的云基礎(chǔ)
Azure Arc為企業(yè)構(gòu)建安全的云基礎(chǔ)
隨著人工智能技術(shù)持續(xù)重塑企業(yè)運(yùn)營方式,企業(yè)需要能夠處理海量數(shù)據(jù)的系統(tǒng),以支持實(shí)時(shí)洞察,同時(shí)幫助他們應(yīng)對(duì)跨IT和OT環(huán)境(包括云端、邊緣和本地)中運(yùn)營、應(yīng)用、數(shù)據(jù)和基礎(chǔ)設(shè)施的協(xié)作難題。
Azure
微軟云
云服務(wù)
2024-12-172024-12-17
釋放.NET 9和Azure的AI技術(shù)與云計(jì)算潛力:更快、更智能、面向未來
釋放.NET 9和Azure的AI技術(shù)與云計(jì)算潛力:更快、更智能、面向未來
.NET 9現(xiàn)已正式發(fā)布,它為.NET平臺(tái)的發(fā)展掀開了嶄新的一頁,突破了性能、云原生開發(fā)和AI技術(shù)集成的邊界。
Azure
微軟云
云服務(wù)
2024-12-162024-12-16
Azure網(wǎng)絡(luò)管理現(xiàn)已具備智能Microsoft Copilot副駕駛能力
Azure網(wǎng)絡(luò)管理現(xiàn)已具備智能Microsoft Copilot副駕駛能力
智能Microsoft Copilot副駕駛for Azure網(wǎng)絡(luò)服務(wù)現(xiàn)已推出公共預(yù)覽版。
Azure
微軟云
云服務(wù)
2024-12-102024-12-10
Microsoft Fabric功能更新,借助AI驅(qū)動(dòng)的數(shù)據(jù)平臺(tái)加速應(yīng)用創(chuàng)新
Microsoft Fabric功能更新,借助AI驅(qū)動(dòng)的數(shù)據(jù)平臺(tái)加速應(yīng)用創(chuàng)新
一年前,我們正式推出了一款端到端數(shù)據(jù)平臺(tái),旨在幫助組織推動(dòng)人工智能轉(zhuǎn)型,并重新定義數(shù)據(jù)的連接、管理和分析方式。
Azure
微軟云
云服務(wù)
2024-12-092024-12-09
個(gè)人VIP