微軟Azure智能語音合成全面升級到48kHz高保真模型

來源:IT之家
作者:瀟公子
時間:2022-11-18
1973
微軟Azure神經(jīng)網(wǎng)絡(luò)文本轉(zhuǎn)語音服務(wù)(又稱“Neural TTS”,“智能語音合成”)能幫助用戶將文本轉(zhuǎn)換為逼真的人工智能聲音,它適用于多種應(yīng)用場景,包括智能語音助手、客服對話機器人、有聲內(nèi)容朗讀、游戲角色語音等。

IT之家 11月17日消息,微軟Azure神經(jīng)網(wǎng)絡(luò)文本轉(zhuǎn)語音服務(wù)(又稱“Neural TTS”,“智能語音合成”)能幫助用戶將文本轉(zhuǎn)換為逼真的人工智能聲音,它適用于多種應(yīng)用場景,包括智能語音助手、客服對話機器人、有聲內(nèi)容朗讀、游戲角色語音等。在過去的幾個月中,微軟Azure智能語音合成技術(shù)在語音自然度、聲音豐富度和多語言支持等方面取得了快速進展。

今天微軟官方為大家?guī)砹俗钚碌纳窠?jīng)網(wǎng)絡(luò)語音合成聲碼器HiFiNet2。

7c4aed02-14c4-42d7-a20d-475b3849edd6.webp.jpg

聲碼器是TTS中的關(guān)鍵組件之一,它基于輸入的文本或聲學特征來合成音頻樣本。目前,通過HiFiNet2聲碼器技術(shù),微軟已經(jīng)將微軟Azure智能語音合成產(chǎn)品全面升級到48kHz聲音模型,進一步為用戶帶來更高保真、高效率和可擴展的AI語音音質(zhì)體驗。這項更新包括400多個音色,覆蓋全球超過140個國家和地區(qū)的語言。

48kHz語音模型

在文本轉(zhuǎn)語音技術(shù)中,音頻的保真度是用來衡量音質(zhì)的一項重要標準。高保真聲音不但可以給用戶傳達更豐富、更細膩的音質(zhì),同時還可以將音色的失真和變形降至最低。隨著采樣率的提升,聽眾可以聽到更精準的細節(jié)和更真實的音色。在視頻配音、游戲和唱歌等需要更精細、更沉浸的聲音體驗的復雜場景中,更高保真度的輸出(如48kHz采樣率)將給用戶帶去前所未有的全新感官體驗。

現(xiàn)在,隨著Azure深度神經(jīng)網(wǎng)絡(luò)語音合成服務(wù)將全平臺AI聲音升級到48kHz采樣率,微軟率先在業(yè)界為AI聲音用戶帶來真正高保真度的聲音體驗。

d5e14d14-56ee-4df8-9fd9-387cb1442b48.webp.jpg

立即登錄,閱讀全文
原文鏈接:點擊前往 >
版權(quán)說明:本文內(nèi)容來自于IT之家,本站不擁有所有權(quán),不承擔相關(guān)法律責任。文章內(nèi)容系作者個人觀點,不代表快出海對觀點贊同或支持。如有侵權(quán),請聯(lián)系管理員(zzx@kchuhai.com)刪除!
優(yōu)質(zhì)服務(wù)商推薦
更多
掃碼登錄
打開掃一掃, 關(guān)注公眾號后即可登錄/注冊
加載中
二維碼已失效 請重試
刷新
賬號登錄/注冊
個人VIP
小程序
快出海小程序
公眾號
快出海公眾號
商務(wù)合作
商務(wù)合作
投稿采訪
投稿采訪
出海管家
出海管家