Google宣布在其文本轉(zhuǎn)人聲(Text-to-Speech,TTS)API推出自定義語(yǔ)音功能,該新功能讓用戶可以使用自己的錄音,訓(xùn)練自定義語(yǔ)音模型,以創(chuàng)造出獨(dú)特的語(yǔ)音體驗(yàn)。官方提到,對(duì)于想要?jiǎng)?chuàng)建品牌形象的企業(yè)而言,使用獨(dú)特的聲音,有助于在交互式語(yǔ)音應(yīng)用中,創(chuàng)建具差異化的用戶體驗(yàn)。
自定義語(yǔ)音讓用戶只需要提交錄音,就可以直接在TTS API中訪問新語(yǔ)音,系統(tǒng)提供指南,指引用戶生成高品質(zhì)自定義TTS語(yǔ)音模型的方法,當(dāng)模型訓(xùn)練完成后,用戶只需要在調(diào)用TTS API時(shí),參照模型ID,就可以開始使用新訓(xùn)練的語(yǔ)音模型。
Google考量負(fù)責(zé)任的AI治理程序,評(píng)估了自定義語(yǔ)音TTS以及合成媒體的道德疑慮,為減輕可能造成的潛在危害,用戶在采用自定義TTS之前,需要經(jīng)過一個(gè)審查流程,確保每個(gè)用例皆符合Google的AI原則,并且要求驗(yàn)證配音員,提供Google云計(jì)算指定語(yǔ)句的音頻文件,以算是取得配音員的同意。
目前自定義TTS自定義語(yǔ)音功能正式支持包括英語(yǔ)、西班牙語(yǔ)、法語(yǔ)、意大利語(yǔ)、德語(yǔ)、葡萄牙語(yǔ)和日語(yǔ),其他語(yǔ)言則還需要再等等。