微軟更新Azure認知服務的語音功能,通過定制化語音轉(zhuǎn)文本功能,進一步提高應用程序和產(chǎn)品的語音轉(zhuǎn)文本準確性。新的定制化語音模型,是以基礎模型加以訓練,用戶可以利用文本資料來訓練模型,強化特定領域字匯的識別能力,或是通過帶有轉(zhuǎn)錄的音頻資料,提高應用程序?qū)μ囟ㄒ纛l條件的識別能力。
Azure Cognitive Services for Speech讓用戶可以簡單地構建語音應用程序,該服務支持多達140種語言,使用戶能高精確度地將語音轉(zhuǎn)錄成文本,或是將文本轉(zhuǎn)成自然的語音,甚至進行翻譯。而新的定制化語音功能,可供用戶定制化語音轉(zhuǎn)文本引擎,根據(jù)應用程序的常用詞匯,定制化語音模型,并且自訂聲音模型適應用戶的說話風格。
用戶只要上傳自定義語音文本或是音頻資料,就能夠簡單創(chuàng)建定制化模型,這些模型會與微軟的語音模型結(jié)合后,部署到定制化語音轉(zhuǎn)文本端點,使終端用戶從各種設備上訪問。
微軟提供用戶以四種方式定制化語音模型,第一種是最簡單的方式,用戶能以詞匯列表添加諸如參與者姓名、產(chǎn)品和行話列表,提高模型對這些詞匯的識別能力,這是一種不需要模型訓練,就能即時強化準確度的方式。
第二種方法則是使用純文本,微軟提到,這也是簡單的定制化語音模型的方式,因為像是在各種體育賽事使用的詞匯差距很大,因此通過純文本就可針對特定運動構建定制化模型,提高賽事詞匯精確度。
第三種是以結(jié)構化文本的形式,適用于強化語音中句子模式的文本資料,針對特定單詞或是短語有所不同的話語。同時,用戶也可以使用音頻資料,訓練定制化語音模型,這將能改善模型對于特定口音、說話風格或是背景噪音的識別能力。