你是否曾經(jīng)希望自己可以跳進(jìn)最喜歡的動(dòng)畫片里,與兔八哥這樣的銀幕角色互動(dòng)?
歡迎光臨AT&T達(dá)拉斯體驗(yàn)店,在這里,真人大小、高清分辨率的兔八哥會(huì)親切地叫出您的名字,和您打招呼,告訴您他需要您幫他找出藏在店內(nèi)的幾根金胡蘿卜。兔八哥能夠按照您的指示在店內(nèi)尋找胡蘿卜,并與您實(shí)時(shí)聊天[1],而這一切都要得益于5G、增強(qiáng)現(xiàn)實(shí)(AR)、人工智能和基于微軟Azure AI技術(shù)創(chuàng)建的神經(jīng)網(wǎng)絡(luò)版定制聲音(Custom Neural Voice)。
兔八哥之所以能夠自然流暢地與人對(duì)話,要得益于Azure認(rèn)知服務(wù)中語(yǔ)音服務(wù)[2]的神經(jīng)網(wǎng)絡(luò)文本轉(zhuǎn)語(yǔ)音功能,目前,這項(xiàng)功能已推出正式版本。
微軟Azure AI平臺(tái)[3]公司副總裁Eric Boyd表示:“我們從客戶那里了解到,他們喜歡與用戶進(jìn)行語(yǔ)音溝通這個(gè)想法。多年來(lái),語(yǔ)音服務(wù)發(fā)出的聲音一直給人非常機(jī)械的感覺(jué)。而神經(jīng)語(yǔ)音技術(shù)的應(yīng)用將帶來(lái)巨大飛躍,讓聲音聽(tīng)起來(lái)更加逼真自然?!?/p>
對(duì)于AT&T而言,沉浸式的兔八哥對(duì)話體驗(yàn)不僅可以愉悅顧客,而且可以借此機(jī)會(huì)展示其先進(jìn)的5G蜂窩網(wǎng)絡(luò)功能。在AT&T 5G蜂窩網(wǎng)絡(luò)的助力下,兔八哥得以快速出現(xiàn)在高清畫面中,并在店內(nèi)無(wú)縫移動(dòng)。
AT&T 5G產(chǎn)品和移動(dòng)創(chuàng)新副總裁Jay Cary表示:“我們正在努力向消費(fèi)者證明,5G網(wǎng)絡(luò)有其與眾不同之處,擁有著優(yōu)于4G網(wǎng)絡(luò)的性能。5G網(wǎng)絡(luò)擁有巨大的計(jì)算能力、更快的傳輸速率和更低的時(shí)延。與兔八哥對(duì)話的體驗(yàn),以一種令人驚嘆的方式,將5G網(wǎng)絡(luò)和技術(shù)的潛力發(fā)揮到了極致?!?/p>
兔八哥是AT&T使用神經(jīng)網(wǎng)絡(luò)版定制聲音(Custom Neural Voice)賦予生命的第一個(gè)動(dòng)畫形象,但顯然這不會(huì)是最后一個(gè)。在談及未來(lái)各種可能性時(shí),Cary不掩興奮之情:未來(lái),卡通形象可能會(huì)從麥片盒子中走出來(lái),他們可以給你講故事、陪你看動(dòng)畫片,甚至還可以和你一起在家附近轉(zhuǎn)轉(zhuǎn)。
他表示:“我們太喜歡這個(gè)將物理環(huán)境與虛擬環(huán)境相融合的創(chuàng)意了!”
Cary稱,為了打造自定義語(yǔ)音,AT&T特別邀請(qǐng)兔八哥授權(quán)配音演員來(lái)到工作室,在微軟團(tuán)隊(duì)的指導(dǎo)下,錄制了約2000條短語(yǔ)和臺(tái)詞。
隨后,華納兄弟團(tuán)隊(duì)(Cary稱他們?yōu)椤巴冒烁鐚<摇保┡c微軟團(tuán)隊(duì)合作,對(duì)這些聲音進(jìn)行反復(fù)研究和加工,確保這些聲音能夠準(zhǔn)確反映出兔八哥的個(gè)性和語(yǔ)言特點(diǎn)。
Cary介紹道:“我們希望能夠真實(shí)地復(fù)刻出兔八哥在現(xiàn)實(shí)世界中給人的感覺(jué)。兔八哥與顧客間的對(duì)話應(yīng)該像是與朋友進(jìn)行的一場(chǎng)自然、真實(shí)的對(duì)話,給人以非常逼真的感受?!?/p>
1 虛擬透明度
雖然與兔八哥的對(duì)話能夠給人以真實(shí)的感受,但大家都知道這不是真的——因?yàn)橥冒烁绫旧砭褪且粋€(gè)虛構(gòu)的形象。這是一個(gè)很重要的區(qū)別,也是微軟在技術(shù)應(yīng)用過(guò)程中謹(jǐn)慎對(duì)待的一個(gè)方面。這同時(shí)也是神經(jīng)網(wǎng)絡(luò)版定制聲音支持有限使用的一個(gè)關(guān)鍵原因——感興趣的客戶必須首先遞交申請(qǐng),在獲得微軟批準(zhǔn)后方可使用該技術(shù)?!罢桨姹尽敝高@項(xiàng)技術(shù)已經(jīng)準(zhǔn)備好商業(yè)化使用,可用于更多的Azure云區(qū)域,但并不對(duì)公眾開(kāi)放。
神經(jīng)網(wǎng)絡(luò)版定制聲音大多使用虛構(gòu)形象的聲音,但有時(shí),客戶可能想要使用真實(shí)人物的聲音,例如使用某位作家的聲音來(lái)閱讀他/她自己的書。即使在這種情況下,也必須提醒人們這里使用的聲音是合成的聲音,正是基于這樣的考慮,微軟在合同中加入了披露要求。
Azure AI認(rèn)知服務(wù)負(fù)責(zé)任的AI負(fù)責(zé)人Sarah Bird表示:“我們要求客戶明確披露這是一種合成語(yǔ)音,或者如果上下文表述不明時(shí),要求客戶必須以用戶可感知的方式明確披露這是一種合成聲音,不得將相關(guān)披露內(nèi)容隱藏于條款之中?!?/p>
Progressive Insurance公司一直以來(lái)使用的品牌形象代言人Flo,是借助神經(jīng)網(wǎng)絡(luò)文本轉(zhuǎn)語(yǔ)音技術(shù)獲得生命的另一個(gè)虛構(gòu)聲音。
為了讓Flo對(duì)話機(jī)器人能夠進(jìn)行語(yǔ)音對(duì)話,Progressive Insurance公司使用神經(jīng)網(wǎng)絡(luò)版定制聲音創(chuàng)建了一個(gè)合成語(yǔ)音。圖片來(lái)源:Progressive Insurance公司
幾年前,Progressive Insurance公司在Facebook Messenger推出了一款Flo對(duì)話機(jī)器人[4],這款機(jī)器人個(gè)性樂(lè)觀開(kāi)朗、俏皮可愛(ài),而這個(gè)角色的原型正是2008年以來(lái)女演員Stephanie Courtney在電視廣告中塑造的、深受人們喜愛(ài)的銷售人員Flo。前進(jìn)保險(xiǎn)公司在開(kāi)始探索使用語(yǔ)音對(duì)話方式與客戶互動(dòng)時(shí),F(xiàn)lo自然而然成為首選。
Progressive Insurance公司并購(gòu)體驗(yàn)部門技術(shù)和創(chuàng)新經(jīng)理Matt White[5]表示:“我們希望自己的品牌和產(chǎn)品能夠隨時(shí)隨地為人們所用,這也是我們非常感興趣的一個(gè)領(lǐng)域。基于此,我們?cè)贔acebook Messenger推出了Flo對(duì)話機(jī)器人,并由此不斷探索語(yǔ)音和智能對(duì)話機(jī)器人的各種可能性。”
White表示,Progressive Insurance公司已經(jīng)在對(duì)話機(jī)器人中應(yīng)用了Azure AI技術(shù),在此基礎(chǔ)上進(jìn)一步應(yīng)用神經(jīng)網(wǎng)絡(luò)文本轉(zhuǎn)語(yǔ)音服務(wù)也是順理成章的選擇。
神經(jīng)網(wǎng)絡(luò)版定制聲音的正式版本中包含技術(shù)控件,旨在防止該服務(wù)遭到濫用??蛻粼谔峤粍?chuàng)建自定義語(yǔ)音使用的錄音腳本時(shí),必須隨附配音人員的聲明,聲明其已知曉該技術(shù),了解客戶正在制作神經(jīng)網(wǎng)絡(luò)版定制聲音。在客戶開(kāi)始訓(xùn)練語(yǔ)音之前,必須首先使用聲紋識(shí)別技術(shù)對(duì)錄音腳本和訓(xùn)練數(shù)據(jù)進(jìn)行比較,以確保語(yǔ)音的匹配度。微軟還在合同中規(guī)定,客戶必須獲得發(fā)音人的許可。
Boyd表示:“我們開(kāi)展了大量研究,并與配音行業(yè)及領(lǐng)域內(nèi)倫理學(xué)家進(jìn)行了深入交流,最終形成了一套準(zhǔn)則和方法,以確保該技術(shù)能夠得到合規(guī)應(yīng)用?!?/p>
2 負(fù)責(zé)人承諾
為防止這項(xiàng)技術(shù)被濫用,微軟推出了三項(xiàng)舉措,分別是:嚴(yán)格定義合同條款、授權(quán)客戶有限使用、使用音頻文件聲紋識(shí)別。Sarah Bird在微軟負(fù)責(zé)協(xié)助制定相關(guān)準(zhǔn)則,并支持團(tuán)隊(duì)以負(fù)責(zé)任的方式研發(fā)Azure認(rèn)知服務(wù)[6]相關(guān)功能和產(chǎn)品,并推動(dòng)客戶以負(fù)責(zé)任的方式使用這些功能和產(chǎn)品。
Bird表示:“我們非常地希望能夠在展示這些技術(shù)帶來(lái)的積極影響的同時(shí),確保其不會(huì)給世界造成任何不良影響。”
為確定潛在風(fēng)險(xiǎn),微軟進(jìn)行了多次影響評(píng)估。對(duì)于評(píng)估過(guò)程中確定的風(fēng)險(xiǎn),微軟會(huì)開(kāi)發(fā)相應(yīng)的功能和流程來(lái)解決這些問(wèn)題。對(duì)于神經(jīng)網(wǎng)絡(luò)版定制聲音,微軟采取了如下保障措施:對(duì)每個(gè)潛在用例進(jìn)行審查;制定《行為準(zhǔn)則》;將發(fā)音人確認(rèn)文件與訓(xùn)練音頻文件進(jìn)行比較識(shí)別等。
Bird表示,團(tuán)隊(duì)還在研究一種在合成語(yǔ)音中嵌入數(shù)字水印的方法,以表明該內(nèi)容采用Azure神經(jīng)網(wǎng)絡(luò)版定制聲音創(chuàng)建。
這些技術(shù)和政策性功能與微軟負(fù)責(zé)任的AI承諾[7]相契合。承諾中包含透明度須知,其中清晰地闡明了AI系統(tǒng)的目的、功能和限制等。
Boyd表示:“作為創(chuàng)造者,我們有責(zé)任確保這項(xiàng)技術(shù)的負(fù)責(zé)任使用。我們非常重視負(fù)責(zé)任的AI;這是我們的一項(xiàng)核心原則。此外,我們也在非常謹(jǐn)慎地對(duì)待合作伙伴,以確保他們能夠嚴(yán)格遵守各項(xiàng)指導(dǎo)方針?!?/p>
3 構(gòu)建自定義語(yǔ)音
那么,一系列錄制好的短語(yǔ)是如何成為一個(gè)高度自然的聲音的呢?
首先,使用錄音腳本來(lái)創(chuàng)建音色,或稱音素。它有點(diǎn)類似于電腦上的字體,包含字母和字符,你可以將它們組合成不同的單詞和句子。
但是,神經(jīng)文本到語(yǔ)音的功能遠(yuǎn)遠(yuǎn)超出了將聲音拼湊成單詞的范圍。
微軟技術(shù)研究員、Azure AI認(rèn)知服務(wù)首席技術(shù)官黃學(xué)東表示:“真正的技術(shù)突破在于高效利用深度學(xué)習(xí)技術(shù)來(lái)處理文本,以確保音韻和發(fā)音的準(zhǔn)確性。其中,音韻指每個(gè)音素的音調(diào)和時(shí)長(zhǎng)。我們將這些元素?zé)o縫地結(jié)合在一起,就能夠重現(xiàn)發(fā)音人的聲音。”
聆聽(tīng)由黃學(xué)東及其率領(lǐng)的微軟團(tuán)隊(duì)創(chuàng)建的神經(jīng)網(wǎng)絡(luò)版定制聲音演示。圖片來(lái)源:Scott Eklund/Red Box Pictures
深度學(xué)習(xí)是機(jī)器學(xué)習(xí)[8]的一個(gè)技術(shù)分支。在機(jī)器學(xué)習(xí)中,機(jī)器被教導(dǎo)以類似于人類的方式進(jìn)行學(xué)習(xí)和數(shù)據(jù)分析?!吧疃取敝干窠?jīng)網(wǎng)絡(luò)層的深度,靈感源自我們對(duì)大腦工作原理的了解。神經(jīng)網(wǎng)絡(luò)各層協(xié)同工作,可快速執(zhí)行復(fù)雜的任務(wù),將數(shù)據(jù)序列映射在一起,并從每項(xiàng)任務(wù)中進(jìn)行學(xué)習(xí)。神經(jīng)網(wǎng)絡(luò)的層數(shù)越多,效果也越好。
在神經(jīng)網(wǎng)絡(luò)文本轉(zhuǎn)語(yǔ)音技術(shù)中,一個(gè)神經(jīng)網(wǎng)絡(luò)負(fù)責(zé)將輸入文本轉(zhuǎn)換為聲學(xué)序列,編碼、解碼和預(yù)測(cè)音韻,而另一個(gè)神經(jīng)網(wǎng)絡(luò)則負(fù)責(zé)將該聲學(xué)序列轉(zhuǎn)換為語(yǔ)音。兩個(gè)神經(jīng)網(wǎng)絡(luò)之間大約有50層。
這兩個(gè)神經(jīng)網(wǎng)絡(luò)可以同時(shí)預(yù)測(cè)正確的音韻并合成聲音,因此,合成后的聲音聽(tīng)起來(lái)更加自然。
當(dāng)然,并不是所有人都需要專門為其打造自定義語(yǔ)音。為此,微軟推出了400多種預(yù)置神經(jīng)語(yǔ)音,支持140多種語(yǔ)言選擇[9],可滿足客戶快速添加朗讀功能或使對(duì)話機(jī)器人發(fā)聲的需求。
4 釋放人們的創(chuàng)造潛能
Bird表示,神經(jīng)網(wǎng)絡(luò)版定制聲音從根本上而言是一項(xiàng)創(chuàng)造性的技術(shù)。這項(xiàng)技術(shù)最令她感到振奮的是其在教育領(lǐng)域開(kāi)創(chuàng)的各項(xiàng)可能,例如閱讀書籍、教授一門新的語(yǔ)言等。
微軟與中國(guó)北京一家非營(yíng)利性組織合作,使用神經(jīng)網(wǎng)絡(luò)版定制聲音和志愿者團(tuán)隊(duì)提供的聲音樣本,生成了AI音頻內(nèi)容,并將其捐贈(zèng)給北京紅丹丹視障文化服務(wù)中心[10],該中心致力于為盲人和視障群體提供資源。
語(yǔ)言學(xué)習(xí)公司Duolingo正在使用神經(jīng)網(wǎng)絡(luò)版定制聲音,在其學(xué)習(xí)平臺(tái)中引入一組卡通角色,打造個(gè)性化語(yǔ)言學(xué)習(xí)服務(wù)。這9個(gè)各具特色的卡通角色包括Lily——一個(gè)情緒多變的冷面少年,以及Junior——一個(gè)聰明過(guò)頭的早熟少年。
Duolingo公司對(duì)這些卡通角色進(jìn)行了數(shù)百次迭代,希望這些角色能夠在延續(xù)App主角Duo的視覺(jué)風(fēng)格的同時(shí),充分反映全球各地用戶群的文化特色。
Duolingo首席技術(shù)官Severin Hacker表示:“Duolingo在全球范圍內(nèi)得到了廣泛的應(yīng)用,我們希望能夠更好地增進(jìn)用戶與App間的聯(lián)系和互動(dòng)?!?/p>
Duolingo使用神經(jīng)網(wǎng)絡(luò)版定制聲音為語(yǔ)言學(xué)習(xí)平臺(tái)上的9個(gè)新卡通角色注入活力。圖片來(lái)源:Duolingo
在形態(tài)和其他設(shè)計(jì)方面,每個(gè)卡通角色都有其獨(dú)立的個(gè)性,并且都或多或少地?fù)碛信cDuolingo吉祥物貓頭鷹Duo相同的設(shè)計(jì)元素:獨(dú)特的體型、分立的雙腳、大眼睛和簡(jiǎn)單的形象設(shè)計(jì)。在大量的角色創(chuàng)造過(guò)程[11]中,賦予角色聲音是最后一環(huán)。
Hacker表示:“在學(xué)習(xí)一門語(yǔ)言時(shí),語(yǔ)音具有非常重要的作用。Duolingo作為一款語(yǔ)言學(xué)習(xí)App,必須能夠?yàn)閷W(xué)習(xí)者提供真實(shí)的聲音和口音氛圍,而在微軟神經(jīng)網(wǎng)絡(luò)版定制聲音的幫助下,我們做到了這一點(diǎn)?!?/p>
Duolingo一直在與配音演員合作,為每個(gè)卡通角色創(chuàng)建自定義語(yǔ)音庫(kù)。去年,其推出了Lily的英語(yǔ)和西班牙語(yǔ)配音版本,以及Junior的英語(yǔ)配音版本。后續(xù),所有九個(gè)卡通角色都將推出英語(yǔ)、西班牙語(yǔ)、法語(yǔ)、德語(yǔ)和日語(yǔ)配音版本。今年晚些時(shí)候,語(yǔ)言學(xué)習(xí)者們還將聽(tīng)到新角色的聲音,其中包括Bea——一位A型人格的世界旅行者,以及Vikram——一位盡責(zé)的丈夫、糕點(diǎn)師。
神經(jīng)網(wǎng)絡(luò)版定制聲音還可以用來(lái)創(chuàng)建不直接模仿現(xiàn)有人物或角色的自定義音色。
Bird表示:“我們能夠創(chuàng)造各種復(fù)合語(yǔ)音,并可以將各種最佳背景樣本融合在一起,嘗試創(chuàng)造出以往從未真實(shí)存在的聲音。這是一項(xiàng)能夠釋放人們創(chuàng)造潛能的技術(shù)?!?/p>
Bird和Boyd認(rèn)為,神經(jīng)網(wǎng)絡(luò)版定制聲音將有助于促進(jìn)娛樂(lè)、信息、教育等領(lǐng)域更深層次的互動(dòng)。
Boyd表示:“AI最令人振奮的一點(diǎn)在于,人們永遠(yuǎn)可以開(kāi)辟新的方式來(lái)應(yīng)用這項(xiàng)技術(shù),而令人驚嘆的是,這些方式已遠(yuǎn)遠(yuǎn)超出我們對(duì)AI技術(shù)最初的設(shè)想??吹紸I技術(shù)碩果累累的應(yīng)用實(shí)踐,我們感到無(wú)比地激動(dòng)?!?/p>
頂部圖片:在AT&T達(dá)拉斯體驗(yàn)店,顧客可以通過(guò)增強(qiáng)現(xiàn)實(shí)技術(shù)與兔八哥和其他色互動(dòng)。兔八哥使用神經(jīng)網(wǎng)絡(luò)版定制聲音創(chuàng)建的合成語(yǔ)音與客戶對(duì)話,神經(jīng)網(wǎng)絡(luò)版定制聲音是Azure認(rèn)知服務(wù)的一項(xiàng)功能。樂(lè)一通(LOONEY TUNES)及所有相關(guān)角色和元素&華納兄弟娛樂(lè)公司(s21)。
[1]https://www.youtube.com/watch?v=MkeI7Aaf7hk
[2]https://azure.microsoft.com/en-us/services/cognitive-services/text-to-speech/
[3]https://azure.microsoft.com/zh-cn/solutions/ai/
[4]https://news.microsoft.com/transform/flo-rise-ai-chatbots-progressive-sabre-ups/
[5]https://news.microsoft.com/transform/progressive-gives-voice-to-flos-chatbot-and-its-as-no-nonsense-and-reassuring-as-she-is/
[6]https://azure.microsoft.com/en-us/services/cognitive-services/
[7]https://blogs.microsoft.com/on-the-issues/2021/01/19/microsoft-responsible-ai-program/
[8]https://azure.microsoft.com/en-us/resources/cloud-computing-dictionary/what-is-machine-learning-platform/
[9]https://azure.microsoft.com/en-us/services/cognitive-services/text-to-speech/
[10]https://azure.microsoft.com/en-in/blog/creating-a-more-accessible-world-with-azure-ai/
[11]https://www.youtube.com/watch?v=m-3-D7S0piw&feature=youtu.be