微軟Azure智能語音合成全面升級到48kHz高保真模型

來源：IT之家

作者：瀟公子

時間：2022-11-18

微軟Azure神經(jīng)網(wǎng)絡文本轉(zhuǎn)語音服務（又稱“Neural TTS”，“智能語音合成”）能幫助用戶將文本轉(zhuǎn)換為逼真的人工智能聲音，它適用于多種應用場景，包括智能語音助手、客服對話機器人、有聲內(nèi)容朗讀、游戲角色語音等。

IT之家 11月17日消息，微軟Azure神經(jīng)網(wǎng)絡文本轉(zhuǎn)語音服務（又稱“Neural TTS”，“智能語音合成”）能幫助用戶將文本轉(zhuǎn)換為逼真的人工智能聲音，它適用于多種應用場景，包括智能語音助手、客服對話機器人、有聲內(nèi)容朗讀、游戲角色語音等。在過去的幾個月中，微軟Azure智能語音合成技術(shù)在語音自然度、聲音豐富度和多語言支持等方面取得了快速進展。

今天微軟官方為大家?guī)砹俗钚碌纳窠?jīng)網(wǎng)絡語音合成聲碼器HiFiNet2。

7c4aed02-14c4-42d7-a20d-475b3849edd6.webp.jpg

聲碼器是TTS中的關(guān)鍵組件之一，它基于輸入的文本或聲學特征來合成音頻樣本。目前，通過HiFiNet2聲碼器技術(shù)，微軟已經(jīng)將微軟Azure智能語音合成產(chǎn)品全面升級到48kHz聲音模型，進一步為用戶帶來更高保真、高效率和可擴展的AI語音音質(zhì)體驗。這項更新包括400多個音色，覆蓋全球超過140個國家和地區(qū)的語言。

48kHz語音模型

在文本轉(zhuǎn)語音技術(shù)中，音頻的保真度是用來衡量音質(zhì)的一項重要標準。高保真聲音不但可以給用戶傳達更豐富、更細膩的音質(zhì)，同時還可以將音色的失真和變形降至最低。隨著采樣率的提升，聽眾可以聽到更精準的細節(jié)和更真實的音色。在視頻配音、游戲和唱歌等需要更精細、更沉浸的聲音體驗的復雜場景中，更高保真度的輸出（如48kHz采樣率）將給用戶帶去前所未有的全新感官體驗。

現(xiàn)在，隨著Azure深度神經(jīng)網(wǎng)絡語音合成服務將全平臺AI聲音升級到48kHz采樣率，微軟率先在業(yè)界為AI聲音用戶帶來真正高保真度的聲音體驗。

d5e14d14-56ee-4df8-9fd9-387cb1442b48.webp.jpg