微軟全新發(fā)布的多風(fēng)格、多語言的神經(jīng)網(wǎng)絡(luò)版聲音定制功能(Custom Neural Voice,以下簡(jiǎn)稱CNV)是Azure AI Speech文本轉(zhuǎn)語音(Text to Speech)服務(wù)的一項(xiàng)特色功能。用戶可基于此項(xiàng)服務(wù)創(chuàng)建一種高度逼真、自然的AI語音,聽感和真人配音演員完全一致。隨著最新功能的發(fā)布,這項(xiàng)語音服務(wù)支持多情感的表達(dá)并具有跨語言能力。
自推出以來,CNV已經(jīng)助力AT&T、Progressive、Vodafone、Swisscom、海爾等眾多國內(nèi)外知名企業(yè)開發(fā)出具有品牌特色的語音解決方案,支持包括語音助手、客服機(jī)器人、有聲讀物、語言學(xué)習(xí)、新聞播報(bào)等不同場(chǎng)景,為千百萬聽者帶來愉悅的聽感體驗(yàn)。
支持更多情感和風(fēng)格的語音服務(wù),將極大地提升終端用戶使用體驗(yàn)。通過多風(fēng)格CNV功能,用戶無需額外添加新的訓(xùn)練數(shù)據(jù),通過風(fēng)格轉(zhuǎn)換(Style Transfer)技術(shù)即可創(chuàng)建多風(fēng)格、多情緒的語音表達(dá)。
風(fēng)格轉(zhuǎn)換技術(shù),能將一個(gè)說話者(源說話者)的語調(diào)和韻律(即節(jié)奏、語調(diào)、節(jié)奏)應(yīng)用到另一個(gè)說話者(目標(biāo)說話者)身上。這將使目標(biāo)說話者采用源說話者的語調(diào)和韻律,同時(shí)保留自己的音色。
隨著多風(fēng)格CNV的正式推出,微軟發(fā)布了新的美式英語風(fēng)格轉(zhuǎn)換模型,并將該功能擴(kuò)展到了漢語和日語。
如何創(chuàng)建多風(fēng)格語音
首先,你需要準(zhǔn)備一個(gè)大約300多句話的語音樣本(不需要多風(fēng)格語音數(shù)據(jù))作為其默認(rèn)風(fēng)格。
再將準(zhǔn)備好的數(shù)據(jù)導(dǎo)入到Speech Studio門戶后,在訓(xùn)練方法中選擇Neural-multi style(神經(jīng)網(wǎng)絡(luò)-多風(fēng)格)。
從預(yù)設(shè)的風(fēng)格列表中選擇你想要啟用的目標(biāo)說話風(fēng)格。如果你有其他風(fēng)格的錄音數(shù)據(jù),也可以在這一步選擇自己的風(fēng)格數(shù)據(jù)來創(chuàng)建自定義的說話風(fēng)格。
多情感模型的訓(xùn)練時(shí)間取決于訓(xùn)練數(shù)據(jù)的大小、語言和所選擇的風(fēng)格,可能需要40小時(shí)或者更長(zhǎng)時(shí)間完成。模型創(chuàng)建成功之后,系統(tǒng)會(huì)自動(dòng)生成一批測(cè)試音頻,你可以通過這些試聽樣本來測(cè)試聲音效果。
效果測(cè)試完成之后,把聲音模型部署到云端,你就可以通過音頻內(nèi)容生成工具(Audio Content Creation)來創(chuàng)建新的音頻了,此過程無需任何編程。如果你是開發(fā)者,你也可以用語音開發(fā)工具包SDK,用代碼把這個(gè)聲音集成到自己的app里。通過語音合成標(biāo)記語言(SSML),你可以切換不同的說話風(fēng)格,以更好地匹配你的應(yīng)用場(chǎng)景。
在當(dāng)今互聯(lián)互通的世界中,開發(fā)人員需要構(gòu)建能夠覆蓋全球用戶的語音應(yīng)用程序。借助跨語言遷移學(xué)習(xí)技術(shù),CNV可以讓你的定制聲音輕松獲得多語言能力,而無需額外添加特定語言的訓(xùn)練數(shù)據(jù)。該功能已支持?jǐn)?shù)十種語言。
跨語言模型是一個(gè)整體性的單一模型,它使用來自不同說話人和不同語言的數(shù)據(jù)進(jìn)行訓(xùn)練??缯Z言模型的基礎(chǔ)是Conformer,它結(jié)合了卷積神經(jīng)網(wǎng)絡(luò)(convolution neural networks)和轉(zhuǎn)換器(transformers),以高效地在數(shù)據(jù)序列中對(duì)局部或全局的關(guān)聯(lián)性進(jìn)行建模。
為了解決不同語言數(shù)據(jù)不平衡的問題,微軟采用了數(shù)據(jù)平衡訓(xùn)練策略,提高低資源語言的模型性能。此外,微軟結(jié)合說話者分類器(speaker classifier)對(duì)模型進(jìn)行訓(xùn)練,最大限度地減少了跨語言說話者之間的相似性損失,并改善跨語言場(chǎng)景中的說話者相似性。新模型可以利用來自L1(母語)說話人的信息,進(jìn)一步提高跨語言語音的自然程度。
跨語言CNV功能已正式推出以下語言支持:中文(普通話),荷蘭語(荷蘭),英語(澳大利亞),英語(英國),英語(美國),法語(加拿大),法語(法國),德語(德國),印度尼西亞語,意大利語,日語,韓語,葡萄牙語(巴西),俄語,西班牙語(墨西哥),西班牙語(西班牙)。你只需要提供以上某一個(gè)語言的錄音數(shù)據(jù),你的定制聲音就能獲得其他所有語言能力。
如何創(chuàng)建多語種語音
在訓(xùn)練方法中選擇Neural–cross lingual(神經(jīng)-跨語言)。
選擇你所需要的目標(biāo)語言。CNV平臺(tái)即可將你的AI聲音轉(zhuǎn)換成為你所選擇的目標(biāo)語言。
訓(xùn)練過程需要約20個(gè)小時(shí),具體取決于用戶訓(xùn)練數(shù)據(jù)大小和所選語言。類似地,你可以通過測(cè)試樣本來評(píng)估聲音效果。
模型部署后,使用目標(biāo)語言提供文本輸入,就可以合成該語言的語音內(nèi)容了。你可以同樣選擇通過音頻內(nèi)容生成工具(Audio Content Creation)或通過語音SDK進(jìn)行合成服務(wù)。
微軟多風(fēng)格和多語種的神經(jīng)語音聲音定制(CNV)功能現(xiàn)在Azure國際版推出,對(duì)于希望構(gòu)建與全球用戶無縫交流的語音應(yīng)用程序的開發(fā)人員來說,是一項(xiàng)具有革命性意義的進(jìn)步。
定制神經(jīng)語音是一項(xiàng)有限訪問服務(wù),這是微軟對(duì)「負(fù)責(zé)任的AI」的承諾的一部分。如果你對(duì)這項(xiàng)功能感興趣,請(qǐng)掃描下方二維碼申請(qǐng)?jiān)L問該技術(shù)的權(quán)限,并遵循「負(fù)責(zé)任的AI」部署準(zhǔn)則以確保負(fù)責(zé)任地使用這項(xiàng)功能。