微軟全新發(fā)布的多風(fēng)格、多語(yǔ)言的神經(jīng)網(wǎng)絡(luò)版聲音定制功能(Custom Neural Voice,以下簡(jiǎn)稱CNV)是Azure AI Speech文本轉(zhuǎn)語(yǔ)音(Text to Speech)服務(wù)的一項(xiàng)特色功能。用戶可基于此項(xiàng)服務(wù)創(chuàng)建一種高度逼真、自然的AI語(yǔ)音,聽感和真人配音演員完全一致。隨著最新功能的發(fā)布,這項(xiàng)語(yǔ)音服務(wù)支持多情感的表達(dá)并具有跨語(yǔ)言能力。
自推出以來(lái),CNV已經(jīng)助力AT&T、Progressive、Vodafone、Swisscom、海爾等眾多國(guó)內(nèi)外知名企業(yè)開發(fā)出具有品牌特色的語(yǔ)音解決方案,支持包括語(yǔ)音助手、客服機(jī)器人、有聲讀物、語(yǔ)言學(xué)習(xí)、新聞播報(bào)等不同場(chǎng)景,為千百萬(wàn)聽者帶來(lái)愉悅的聽感體驗(yàn)。
支持更多情感和風(fēng)格的語(yǔ)音服務(wù),將極大地提升終端用戶使用體驗(yàn)。通過(guò)多風(fēng)格CNV功能,用戶無(wú)需額外添加新的訓(xùn)練數(shù)據(jù),通過(guò)風(fēng)格轉(zhuǎn)換(Style Transfer)技術(shù)即可創(chuàng)建多風(fēng)格、多情緒的語(yǔ)音表達(dá)。
風(fēng)格轉(zhuǎn)換技術(shù),能將一個(gè)說(shuō)話者(源說(shuō)話者)的語(yǔ)調(diào)和韻律(即節(jié)奏、語(yǔ)調(diào)、節(jié)奏)應(yīng)用到另一個(gè)說(shuō)話者(目標(biāo)說(shuō)話者)身上。這將使目標(biāo)說(shuō)話者采用源說(shuō)話者的語(yǔ)調(diào)和韻律,同時(shí)保留自己的音色。
隨著多風(fēng)格CNV的正式推出,微軟發(fā)布了新的美式英語(yǔ)風(fēng)格轉(zhuǎn)換模型,并將該功能擴(kuò)展到了漢語(yǔ)和日語(yǔ)。
如何創(chuàng)建多風(fēng)格語(yǔ)音
首先,你需要準(zhǔn)備一個(gè)大約300多句話的語(yǔ)音樣本(不需要多風(fēng)格語(yǔ)音數(shù)據(jù))作為其默認(rèn)風(fēng)格。
再將準(zhǔn)備好的數(shù)據(jù)導(dǎo)入到Speech Studio門戶后,在訓(xùn)練方法中選擇Neural-multi style(神經(jīng)網(wǎng)絡(luò)-多風(fēng)格)。
從預(yù)設(shè)的風(fēng)格列表中選擇你想要啟用的目標(biāo)說(shuō)話風(fēng)格。如果你有其他風(fēng)格的錄音數(shù)據(jù),也可以在這一步選擇自己的風(fēng)格數(shù)據(jù)來(lái)創(chuàng)建自定義的說(shuō)話風(fēng)格。
多情感模型的訓(xùn)練時(shí)間取決于訓(xùn)練數(shù)據(jù)的大小、語(yǔ)言和所選擇的風(fēng)格,可能需要40小時(shí)或者更長(zhǎng)時(shí)間完成。模型創(chuàng)建成功之后,系統(tǒng)會(huì)自動(dòng)生成一批測(cè)試音頻,你可以通過(guò)這些試聽樣本來(lái)測(cè)試聲音效果。
效果測(cè)試完成之后,把聲音模型部署到云端,你就可以通過(guò)音頻內(nèi)容生成工具(Audio Content Creation)來(lái)創(chuàng)建新的音頻了,此過(guò)程無(wú)需任何編程。如果你是開發(fā)者,你也可以用語(yǔ)音開發(fā)工具包SDK,用代碼把這個(gè)聲音集成到自己的app里。通過(guò)語(yǔ)音合成標(biāo)記語(yǔ)言(SSML),你可以切換不同的說(shuō)話風(fēng)格,以更好地匹配你的應(yīng)用場(chǎng)景。
在當(dāng)今互聯(lián)互通的世界中,開發(fā)人員需要構(gòu)建能夠覆蓋全球用戶的語(yǔ)音應(yīng)用程序。借助跨語(yǔ)言遷移學(xué)習(xí)技術(shù),CNV可以讓你的定制聲音輕松獲得多語(yǔ)言能力,而無(wú)需額外添加特定語(yǔ)言的訓(xùn)練數(shù)據(jù)。該功能已支持?jǐn)?shù)十種語(yǔ)言。
跨語(yǔ)言模型是一個(gè)整體性的單一模型,它使用來(lái)自不同說(shuō)話人和不同語(yǔ)言的數(shù)據(jù)進(jìn)行訓(xùn)練??缯Z(yǔ)言模型的基礎(chǔ)是Conformer,它結(jié)合了卷積神經(jīng)網(wǎng)絡(luò)(convolution neural networks)和轉(zhuǎn)換器(transformers),以高效地在數(shù)據(jù)序列中對(duì)局部或全局的關(guān)聯(lián)性進(jìn)行建模。
為了解決不同語(yǔ)言數(shù)據(jù)不平衡的問(wèn)題,微軟采用了數(shù)據(jù)平衡訓(xùn)練策略,提高低資源語(yǔ)言的模型性能。此外,微軟結(jié)合說(shuō)話者分類器(speaker classifier)對(duì)模型進(jìn)行訓(xùn)練,最大限度地減少了跨語(yǔ)言說(shuō)話者之間的相似性損失,并改善跨語(yǔ)言場(chǎng)景中的說(shuō)話者相似性。新模型可以利用來(lái)自L1(母語(yǔ))說(shuō)話人的信息,進(jìn)一步提高跨語(yǔ)言語(yǔ)音的自然程度。
跨語(yǔ)言CNV功能已正式推出以下語(yǔ)言支持:中文(普通話),荷蘭語(yǔ)(荷蘭),英語(yǔ)(澳大利亞),英語(yǔ)(英國(guó)),英語(yǔ)(美國(guó)),法語(yǔ)(加拿大),法語(yǔ)(法國(guó)),德語(yǔ)(德國(guó)),印度尼西亞語(yǔ),意大利語(yǔ),日語(yǔ),韓語(yǔ),葡萄牙語(yǔ)(巴西),俄語(yǔ),西班牙語(yǔ)(墨西哥),西班牙語(yǔ)(西班牙)。你只需要提供以上某一個(gè)語(yǔ)言的錄音數(shù)據(jù),你的定制聲音就能獲得其他所有語(yǔ)言能力。
如何創(chuàng)建多語(yǔ)種語(yǔ)音
在訓(xùn)練方法中選擇Neural–cross lingual(神經(jīng)-跨語(yǔ)言)。
選擇你所需要的目標(biāo)語(yǔ)言。CNV平臺(tái)即可將你的AI聲音轉(zhuǎn)換成為你所選擇的目標(biāo)語(yǔ)言。
訓(xùn)練過(guò)程需要約20個(gè)小時(shí),具體取決于用戶訓(xùn)練數(shù)據(jù)大小和所選語(yǔ)言。類似地,你可以通過(guò)測(cè)試樣本來(lái)評(píng)估聲音效果。
模型部署后,使用目標(biāo)語(yǔ)言提供文本輸入,就可以合成該語(yǔ)言的語(yǔ)音內(nèi)容了。你可以同樣選擇通過(guò)音頻內(nèi)容生成工具(Audio Content Creation)或通過(guò)語(yǔ)音SDK進(jìn)行合成服務(wù)。
微軟多風(fēng)格和多語(yǔ)種的神經(jīng)語(yǔ)音聲音定制(CNV)功能現(xiàn)在Azure國(guó)際版推出,對(duì)于希望構(gòu)建與全球用戶無(wú)縫交流的語(yǔ)音應(yīng)用程序的開發(fā)人員來(lái)說(shuō),是一項(xiàng)具有革命性意義的進(jìn)步。
定制神經(jīng)語(yǔ)音是一項(xiàng)有限訪問(wèn)服務(wù),這是微軟對(duì)「負(fù)責(zé)任的AI」的承諾的一部分。如果你對(duì)這項(xiàng)功能感興趣,請(qǐng)掃描下方二維碼申請(qǐng)?jiān)L問(wèn)該技術(shù)的權(quán)限,并遵循「負(fù)責(zé)任的AI」部署準(zhǔn)則以確保負(fù)責(zé)任地使用這項(xiàng)功能。