AWS開源支持51種語言的數(shù)字助理AI訓練資料集、程序代碼

來源:十輪網(wǎng)
作者:十輪網(wǎng)
時間:2022-04-24
2640
Amazon本周發(fā)布名為MASSIVE的資料集,供開發(fā)商訓練能理解多種語言的數(shù)字助理使用的AI模型。

0421-amazon_releases_51-language_dataset_for_language_understanding-960.jpg

Amazon本周發(fā)布名為MASSIVE的資料集,供開發(fā)商訓練能理解多種語言的數(shù)字助理使用的AI模型。

到2023年全球?qū)⒁蛑悄苁謾C的普及而有80多億個AI虛擬助理,還有超過1億臺智能音箱。然而大部分虛擬助理都僅能使用1種或僅數(shù)種主流語言。此外這些數(shù)字助理的訓練還面臨標注資料不足、去除資料訛誤、維護和更新模型的成本等問題,進一步限制了數(shù)字助理的口語翻譯的能力。

大量多語自然語言理解(massively multilingual natural-language understanding,MMNLU)模型即希望解決這個問題。Amazon Alexa AI自然語言理解部門科學家Jack FitzGerald指出,這愿景下,單一機器學習模型能分析和理解多種語言。通過學習跨語言的共享資料展現(xiàn)(data representation),這個模型可以從有很豐富訓練資料的主流語言學習到的知識,轉(zhuǎn)移到資料很稀少的語言上。

為推動MMNLU模型創(chuàng)建,Amazon宣布發(fā)布MASSIVE資料集。MASSIVE資料集包含跨51種語言加注過的100萬項話語或單詞(utterance)及開源程序代碼。資料集包括訓練、驗證和測試資料,后者則提供MMNLU模型的執(zhí)行范例,協(xié)助AI項目人員創(chuàng)建意圖分類(intent classification)或詞槽填充(Slot Filling)的結果基準線(baseline)。

MASSIVE為平行資料集,意味每個單詞都有51種語言版本,這可讓模型學習到同一意圖的共享表達方式,可加速自然語言理解(NLP)任務的跨語言訓練,也能用于其他NLP任務,如機器翻譯、多語復述(multilingual paraphrasing)等等。MASSIVE通過CC BY 4.0授權開源,以鼓勵學界及業(yè)界使用。

Amazon同時還宣布MMNLU-22競賽(Massively Multilingual NLU 2022),鼓勵開發(fā)人員利用MASSIVE資料集創(chuàng)建模型。

原文鏈接:點擊前往 >
版權說明:本文內(nèi)容來自于十輪網(wǎng),本站不擁有所有權,不承擔相關法律責任。文章內(nèi)容系作者個人觀點,不代表快出海對觀點贊同或支持。如有侵權,請聯(lián)系管理員(zzx@kchuhai.com)刪除!
個人VIP
小程序
快出海小程序
公眾號
快出海公眾號
商務合作
商務合作
投稿采訪
投稿采訪
出海管家
出海管家