了解神經(jīng)網(wǎng)絡(luò)版聲音定制功能，實現(xiàn)多情緒、多語言演繹

來源：Azure云科技

作者：Azure云科技

時間：2023-08-24

微軟全新發(fā)布的多風(fēng)格、多語言的神經(jīng)網(wǎng)絡(luò)版聲音定制功能（Custom Neural Voice，以下簡稱CNV）是Azure AI Speech文本轉(zhuǎn)語音（Text to Speech）服務(wù)的一項特色功能。

微軟全新發(fā)布的多風(fēng)格、多語言的神經(jīng)網(wǎng)絡(luò)版聲音定制功能（Custom Neural Voice，以下簡稱CNV）是Azure AI Speech文本轉(zhuǎn)語音（Text to Speech）服務(wù)的一項特色功能。用戶可基于此項服務(wù)創(chuàng)建一種高度逼真、自然的AI語音，聽感和真人配音演員完全一致。隨著最新功能的發(fā)布，這項語音服務(wù)支持多情感的表達(dá)并具有跨語言能力。

自推出以來，CNV已經(jīng)助力AT&T、Progressive、Vodafone、Swisscom、海爾等眾多國內(nèi)外知名企業(yè)開發(fā)出具有品牌特色的語音解決方案，支持包括語音助手、客服機(jī)器人、有聲讀物、語言學(xué)習(xí)、新聞播報等不同場景，為千百萬聽者帶來愉悅的聽感體驗。

支持更多情感和風(fēng)格的語音服務(wù)，將極大地提升終端用戶使用體驗。通過多風(fēng)格CNV功能，用戶無需額外添加新的訓(xùn)練數(shù)據(jù)，通過風(fēng)格轉(zhuǎn)換（Style Transfer）技術(shù)即可創(chuàng)建多風(fēng)格、多情緒的語音表達(dá)。

風(fēng)格轉(zhuǎn)換技術(shù)，能將一個說話者（源說話者）的語調(diào)和韻律（即節(jié)奏、語調(diào)、節(jié)奏）應(yīng)用到另一個說話者（目標(biāo)說話者）身上。這將使目標(biāo)說話者采用源說話者的語調(diào)和韻律，同時保留自己的音色。

隨著多風(fēng)格CNV的正式推出，微軟發(fā)布了新的美式英語風(fēng)格轉(zhuǎn)換模型，并將該功能擴(kuò)展到了漢語和日語。

如何創(chuàng)建多風(fēng)格語音

首先，你需要準(zhǔn)備一個大約300多句話的語音樣本（不需要多風(fēng)格語音數(shù)據(jù)）作為其默認(rèn)風(fēng)格。

再將準(zhǔn)備好的數(shù)據(jù)導(dǎo)入到Speech Studio門戶后，在訓(xùn)練方法中選擇Neural-multi style（神經(jīng)網(wǎng)絡(luò)-多風(fēng)格）。

640 （1）.png

從預(yù)設(shè)的風(fēng)格列表中選擇你想要啟用的目標(biāo)說話風(fēng)格。如果你有其他風(fēng)格的錄音數(shù)據(jù)，也可以在這一步選擇自己的風(fēng)格數(shù)據(jù)來創(chuàng)建自定義的說話風(fēng)格。

多情感模型的訓(xùn)練時間取決于訓(xùn)練數(shù)據(jù)的大小、語言和所選擇的風(fēng)格，可能需要40小時或者更長時間完成。模型創(chuàng)建成功之后，系統(tǒng)會自動生成一批測試音頻，你可以通過這些試聽樣本來測試聲音效果。

效果測試完成之后，把聲音模型部署到云端，你就可以通過音頻內(nèi)容生成工具（Audio Content Creation）來創(chuàng)建新的音頻了，此過程無需任何編程。如果你是開發(fā)者，你也可以用語音開發(fā)工具包SDK，用代碼把這個聲音集成到自己的app里。通過語音合成標(biāo)記語言（SSML），你可以切換不同的說話風(fēng)格，以更好地匹配你的應(yīng)用場景。

640 （2）.png

在當(dāng)今互聯(lián)互通的世界中，開發(fā)人員需要構(gòu)建能夠覆蓋全球用戶的語音應(yīng)用程序。借助跨語言遷移學(xué)習(xí)技術(shù)，CNV可以讓你的定制聲音輕松獲得多語言能力，而無需額外添加特定語言的訓(xùn)練數(shù)據(jù)。該功能已支持?jǐn)?shù)十種語言。

跨語言模型是一個整體性的單一模型，它使用來自不同說話人和不同語言的數(shù)據(jù)進(jìn)行訓(xùn)練?？缯Z言模型的基礎(chǔ)是Conformer，它結(jié)合了卷積神經(jīng)網(wǎng)絡(luò)（convolution neural networks）和轉(zhuǎn)換器（transformers），以高效地在數(shù)據(jù)序列中對局部或全局的關(guān)聯(lián)性進(jìn)行建模。

為了解決不同語言數(shù)據(jù)不平衡的問題，微軟采用了數(shù)據(jù)平衡訓(xùn)練策略，提高低資源語言的模型性能。此外，微軟結(jié)合說話者分類器（speaker classifier）對模型進(jìn)行訓(xùn)練，最大限度地減少了跨語言說話者之間的相似性損失，并改善跨語言場景中的說話者相似性。新模型可以利用來自L1（母語）說話人的信息，進(jìn)一步提高跨語言語音的自然程度。

跨語言CNV功能已正式推出以下語言支持：中文（普通話），荷蘭語（荷蘭），英語（澳大利亞），英語（英國），英語（美國），法語（加拿大），法語（法國），德語（德國），印度尼西亞語，意大利語，日語，韓語，葡萄牙語（巴西），俄語，西班牙語（墨西哥），西班牙語（西班牙）。你只需要提供以上某一個語言的錄音數(shù)據(jù)，你的定制聲音就能獲得其他所有語言能力。

如何創(chuàng)建多語種語音

在訓(xùn)練方法中選擇Neural–cross lingual（神經(jīng)-跨語言）。

640 （3）.png