你是否曾經(jīng)希望自己可以跳進最喜歡的動畫片里,與兔八哥這樣的銀幕角色互動?
歡迎光臨AT&T達拉斯體驗店,在這里,真人大小、高清分辨率的兔八哥會親切地叫出您的名字,和您打招呼,告訴您他需要您幫他找出藏在店內(nèi)的幾根金胡蘿卜。兔八哥能夠按照您的指示在店內(nèi)尋找胡蘿卜,并與您實時聊天[1],而這一切都要得益于5G、增強現(xiàn)實(AR)、人工智能和基于微軟Azure AI技術(shù)創(chuàng)建的神經(jīng)網(wǎng)絡(luò)版定制聲音(Custom Neural Voice)。
兔八哥之所以能夠自然流暢地與人對話,要得益于Azure認知服務中語音服務[2]的神經(jīng)網(wǎng)絡(luò)文本轉(zhuǎn)語音功能,目前,這項功能已推出正式版本。
微軟Azure AI平臺[3]公司副總裁Eric Boyd表示:“我們從客戶那里了解到,他們喜歡與用戶進行語音溝通這個想法。多年來,語音服務發(fā)出的聲音一直給人非常機械的感覺。而神經(jīng)語音技術(shù)的應用將帶來巨大飛躍,讓聲音聽起來更加逼真自然。”
對于AT&T而言,沉浸式的兔八哥對話體驗不僅可以愉悅顧客,而且可以借此機會展示其先進的5G蜂窩網(wǎng)絡(luò)功能。在AT&T 5G蜂窩網(wǎng)絡(luò)的助力下,兔八哥得以快速出現(xiàn)在高清畫面中,并在店內(nèi)無縫移動。
AT&T 5G產(chǎn)品和移動創(chuàng)新副總裁Jay Cary表示:“我們正在努力向消費者證明,5G網(wǎng)絡(luò)有其與眾不同之處,擁有著優(yōu)于4G網(wǎng)絡(luò)的性能。5G網(wǎng)絡(luò)擁有巨大的計算能力、更快的傳輸速率和更低的時延。與兔八哥對話的體驗,以一種令人驚嘆的方式,將5G網(wǎng)絡(luò)和技術(shù)的潛力發(fā)揮到了極致?!?/p>
兔八哥是AT&T使用神經(jīng)網(wǎng)絡(luò)版定制聲音(Custom Neural Voice)賦予生命的第一個動畫形象,但顯然這不會是最后一個。在談及未來各種可能性時,Cary不掩興奮之情:未來,卡通形象可能會從麥片盒子中走出來,他們可以給你講故事、陪你看動畫片,甚至還可以和你一起在家附近轉(zhuǎn)轉(zhuǎn)。
他表示:“我們太喜歡這個將物理環(huán)境與虛擬環(huán)境相融合的創(chuàng)意了!”
Cary稱,為了打造自定義語音,AT&T特別邀請兔八哥授權(quán)配音演員來到工作室,在微軟團隊的指導下,錄制了約2000條短語和臺詞。
隨后,華納兄弟團隊(Cary稱他們?yōu)椤巴冒烁鐚<摇保┡c微軟團隊合作,對這些聲音進行反復研究和加工,確保這些聲音能夠準確反映出兔八哥的個性和語言特點。
Cary介紹道:“我們希望能夠真實地復刻出兔八哥在現(xiàn)實世界中給人的感覺。兔八哥與顧客間的對話應該像是與朋友進行的一場自然、真實的對話,給人以非常逼真的感受。”
1 虛擬透明度
雖然與兔八哥的對話能夠給人以真實的感受,但大家都知道這不是真的——因為兔八哥本身就是一個虛構(gòu)的形象。這是一個很重要的區(qū)別,也是微軟在技術(shù)應用過程中謹慎對待的一個方面。這同時也是神經(jīng)網(wǎng)絡(luò)版定制聲音支持有限使用的一個關(guān)鍵原因——感興趣的客戶必須首先遞交申請,在獲得微軟批準后方可使用該技術(shù)。“正式版本”指這項技術(shù)已經(jīng)準備好商業(yè)化使用,可用于更多的Azure云區(qū)域,但并不對公眾開放。
神經(jīng)網(wǎng)絡(luò)版定制聲音大多使用虛構(gòu)形象的聲音,但有時,客戶可能想要使用真實人物的聲音,例如使用某位作家的聲音來閱讀他/她自己的書。即使在這種情況下,也必須提醒人們這里使用的聲音是合成的聲音,正是基于這樣的考慮,微軟在合同中加入了披露要求。
Azure AI認知服務負責任的AI負責人Sarah Bird表示:“我們要求客戶明確披露這是一種合成語音,或者如果上下文表述不明時,要求客戶必須以用戶可感知的方式明確披露這是一種合成聲音,不得將相關(guān)披露內(nèi)容隱藏于條款之中?!?/p>
Progressive Insurance公司一直以來使用的品牌形象代言人Flo,是借助神經(jīng)網(wǎng)絡(luò)文本轉(zhuǎn)語音技術(shù)獲得生命的另一個虛構(gòu)聲音。
為了讓Flo對話機器人能夠進行語音對話,Progressive Insurance公司使用神經(jīng)網(wǎng)絡(luò)版定制聲音創(chuàng)建了一個合成語音。圖片來源:Progressive Insurance公司
幾年前,Progressive Insurance公司在Facebook Messenger推出了一款Flo對話機器人[4],這款機器人個性樂觀開朗、俏皮可愛,而這個角色的原型正是2008年以來女演員Stephanie Courtney在電視廣告中塑造的、深受人們喜愛的銷售人員Flo。前進保險公司在開始探索使用語音對話方式與客戶互動時,F(xiàn)lo自然而然成為首選。
Progressive Insurance公司并購體驗部門技術(shù)和創(chuàng)新經(jīng)理Matt White[5]表示:“我們希望自己的品牌和產(chǎn)品能夠隨時隨地為人們所用,這也是我們非常感興趣的一個領(lǐng)域?;诖?,我們在Facebook Messenger推出了Flo對話機器人,并由此不斷探索語音和智能對話機器人的各種可能性?!?/p>
White表示,Progressive Insurance公司已經(jīng)在對話機器人中應用了Azure AI技術(shù),在此基礎(chǔ)上進一步應用神經(jīng)網(wǎng)絡(luò)文本轉(zhuǎn)語音服務也是順理成章的選擇。
神經(jīng)網(wǎng)絡(luò)版定制聲音的正式版本中包含技術(shù)控件,旨在防止該服務遭到濫用。客戶在提交創(chuàng)建自定義語音使用的錄音腳本時,必須隨附配音人員的聲明,聲明其已知曉該技術(shù),了解客戶正在制作神經(jīng)網(wǎng)絡(luò)版定制聲音。在客戶開始訓練語音之前,必須首先使用聲紋識別技術(shù)對錄音腳本和訓練數(shù)據(jù)進行比較,以確保語音的匹配度。微軟還在合同中規(guī)定,客戶必須獲得發(fā)音人的許可。
Boyd表示:“我們開展了大量研究,并與配音行業(yè)及領(lǐng)域內(nèi)倫理學家進行了深入交流,最終形成了一套準則和方法,以確保該技術(shù)能夠得到合規(guī)應用?!?/p>
2 負責人承諾
為防止這項技術(shù)被濫用,微軟推出了三項舉措,分別是:嚴格定義合同條款、授權(quán)客戶有限使用、使用音頻文件聲紋識別。Sarah Bird在微軟負責協(xié)助制定相關(guān)準則,并支持團隊以負責任的方式研發(fā)Azure認知服務[6]相關(guān)功能和產(chǎn)品,并推動客戶以負責任的方式使用這些功能和產(chǎn)品。
Bird表示:“我們非常地希望能夠在展示這些技術(shù)帶來的積極影響的同時,確保其不會給世界造成任何不良影響?!?/p>
為確定潛在風險,微軟進行了多次影響評估。對于評估過程中確定的風險,微軟會開發(fā)相應的功能和流程來解決這些問題。對于神經(jīng)網(wǎng)絡(luò)版定制聲音,微軟采取了如下保障措施:對每個潛在用例進行審查;制定《行為準則》;將發(fā)音人確認文件與訓練音頻文件進行比較識別等。
Bird表示,團隊還在研究一種在合成語音中嵌入數(shù)字水印的方法,以表明該內(nèi)容采用Azure神經(jīng)網(wǎng)絡(luò)版定制聲音創(chuàng)建。
這些技術(shù)和政策性功能與微軟負責任的AI承諾[7]相契合。承諾中包含透明度須知,其中清晰地闡明了AI系統(tǒng)的目的、功能和限制等。
Boyd表示:“作為創(chuàng)造者,我們有責任確保這項技術(shù)的負責任使用。我們非常重視負責任的AI;這是我們的一項核心原則。此外,我們也在非常謹慎地對待合作伙伴,以確保他們能夠嚴格遵守各項指導方針?!?/p>
3 構(gòu)建自定義語音
那么,一系列錄制好的短語是如何成為一個高度自然的聲音的呢?
首先,使用錄音腳本來創(chuàng)建音色,或稱音素。它有點類似于電腦上的字體,包含字母和字符,你可以將它們組合成不同的單詞和句子。
但是,神經(jīng)文本到語音的功能遠遠超出了將聲音拼湊成單詞的范圍。
微軟技術(shù)研究員、Azure AI認知服務首席技術(shù)官黃學東表示:“真正的技術(shù)突破在于高效利用深度學習技術(shù)來處理文本,以確保音韻和發(fā)音的準確性。其中,音韻指每個音素的音調(diào)和時長。我們將這些元素無縫地結(jié)合在一起,就能夠重現(xiàn)發(fā)音人的聲音。”
聆聽由黃學東及其率領(lǐng)的微軟團隊創(chuàng)建的神經(jīng)網(wǎng)絡(luò)版定制聲音演示。圖片來源:Scott Eklund/Red Box Pictures
深度學習是機器學習[8]的一個技術(shù)分支。在機器學習中,機器被教導以類似于人類的方式進行學習和數(shù)據(jù)分析。“深度”指神經(jīng)網(wǎng)絡(luò)層的深度,靈感源自我們對大腦工作原理的了解。神經(jīng)網(wǎng)絡(luò)各層協(xié)同工作,可快速執(zhí)行復雜的任務,將數(shù)據(jù)序列映射在一起,并從每項任務中進行學習。神經(jīng)網(wǎng)絡(luò)的層數(shù)越多,效果也越好。
在神經(jīng)網(wǎng)絡(luò)文本轉(zhuǎn)語音技術(shù)中,一個神經(jīng)網(wǎng)絡(luò)負責將輸入文本轉(zhuǎn)換為聲學序列,編碼、解碼和預測音韻,而另一個神經(jīng)網(wǎng)絡(luò)則負責將該聲學序列轉(zhuǎn)換為語音。兩個神經(jīng)網(wǎng)絡(luò)之間大約有50層。
這兩個神經(jīng)網(wǎng)絡(luò)可以同時預測正確的音韻并合成聲音,因此,合成后的聲音聽起來更加自然。
當然,并不是所有人都需要專門為其打造自定義語音。為此,微軟推出了400多種預置神經(jīng)語音,支持140多種語言選擇[9],可滿足客戶快速添加朗讀功能或使對話機器人發(fā)聲的需求。
4 釋放人們的創(chuàng)造潛能
Bird表示,神經(jīng)網(wǎng)絡(luò)版定制聲音從根本上而言是一項創(chuàng)造性的技術(shù)。這項技術(shù)最令她感到振奮的是其在教育領(lǐng)域開創(chuàng)的各項可能,例如閱讀書籍、教授一門新的語言等。
微軟與中國北京一家非營利性組織合作,使用神經(jīng)網(wǎng)絡(luò)版定制聲音和志愿者團隊提供的聲音樣本,生成了AI音頻內(nèi)容,并將其捐贈給北京紅丹丹視障文化服務中心[10],該中心致力于為盲人和視障群體提供資源。
語言學習公司Duolingo正在使用神經(jīng)網(wǎng)絡(luò)版定制聲音,在其學習平臺中引入一組卡通角色,打造個性化語言學習服務。這9個各具特色的卡通角色包括Lily——一個情緒多變的冷面少年,以及Junior——一個聰明過頭的早熟少年。
Duolingo公司對這些卡通角色進行了數(shù)百次迭代,希望這些角色能夠在延續(xù)App主角Duo的視覺風格的同時,充分反映全球各地用戶群的文化特色。
Duolingo首席技術(shù)官Severin Hacker表示:“Duolingo在全球范圍內(nèi)得到了廣泛的應用,我們希望能夠更好地增進用戶與App間的聯(lián)系和互動?!?/p>
Duolingo使用神經(jīng)網(wǎng)絡(luò)版定制聲音為語言學習平臺上的9個新卡通角色注入活力。圖片來源:Duolingo
在形態(tài)和其他設(shè)計方面,每個卡通角色都有其獨立的個性,并且都或多或少地擁有與Duolingo吉祥物貓頭鷹Duo相同的設(shè)計元素:獨特的體型、分立的雙腳、大眼睛和簡單的形象設(shè)計。在大量的角色創(chuàng)造過程[11]中,賦予角色聲音是最后一環(huán)。
Hacker表示:“在學習一門語言時,語音具有非常重要的作用。Duolingo作為一款語言學習App,必須能夠為學習者提供真實的聲音和口音氛圍,而在微軟神經(jīng)網(wǎng)絡(luò)版定制聲音的幫助下,我們做到了這一點?!?/p>
Duolingo一直在與配音演員合作,為每個卡通角色創(chuàng)建自定義語音庫。去年,其推出了Lily的英語和西班牙語配音版本,以及Junior的英語配音版本。后續(xù),所有九個卡通角色都將推出英語、西班牙語、法語、德語和日語配音版本。今年晚些時候,語言學習者們還將聽到新角色的聲音,其中包括Bea——一位A型人格的世界旅行者,以及Vikram——一位盡責的丈夫、糕點師。
神經(jīng)網(wǎng)絡(luò)版定制聲音還可以用來創(chuàng)建不直接模仿現(xiàn)有人物或角色的自定義音色。
Bird表示:“我們能夠創(chuàng)造各種復合語音,并可以將各種最佳背景樣本融合在一起,嘗試創(chuàng)造出以往從未真實存在的聲音。這是一項能夠釋放人們創(chuàng)造潛能的技術(shù)?!?/p>
Bird和Boyd認為,神經(jīng)網(wǎng)絡(luò)版定制聲音將有助于促進娛樂、信息、教育等領(lǐng)域更深層次的互動。
Boyd表示:“AI最令人振奮的一點在于,人們永遠可以開辟新的方式來應用這項技術(shù),而令人驚嘆的是,這些方式已遠遠超出我們對AI技術(shù)最初的設(shè)想??吹紸I技術(shù)碩果累累的應用實踐,我們感到無比地激動?!?/p>
頂部圖片:在AT&T達拉斯體驗店,顧客可以通過增強現(xiàn)實技術(shù)與兔八哥和其他色互動。兔八哥使用神經(jīng)網(wǎng)絡(luò)版定制聲音創(chuàng)建的合成語音與客戶對話,神經(jīng)網(wǎng)絡(luò)版定制聲音是Azure認知服務的一項功能。樂一通(LOONEY TUNES)及所有相關(guān)角色和元素&華納兄弟娛樂公司(s21)。
[1]https://www.youtube.com/watch?v=MkeI7Aaf7hk
[2]https://azure.microsoft.com/en-us/services/cognitive-services/text-to-speech/
[3]https://azure.microsoft.com/zh-cn/solutions/ai/
[4]https://news.microsoft.com/transform/flo-rise-ai-chatbots-progressive-sabre-ups/
[5]https://news.microsoft.com/transform/progressive-gives-voice-to-flos-chatbot-and-its-as-no-nonsense-and-reassuring-as-she-is/
[6]https://azure.microsoft.com/en-us/services/cognitive-services/
[7]https://blogs.microsoft.com/on-the-issues/2021/01/19/microsoft-responsible-ai-program/
[8]https://azure.microsoft.com/en-us/resources/cloud-computing-dictionary/what-is-machine-learning-platform/
[9]https://azure.microsoft.com/en-us/services/cognitive-services/text-to-speech/
[10]https://azure.microsoft.com/en-in/blog/creating-a-more-accessible-world-with-azure-ai/
[11]https://www.youtube.com/watch?v=m-3-D7S0piw&feature=youtu.be