AWS開(kāi)源支持51種語(yǔ)言的數(shù)字助理AI訓(xùn)練資料集、程序代碼

來(lái)源：十輪網(wǎng)

作者：十輪網(wǎng)

時(shí)間：2022-04-24

Amazon本周發(fā)布名為MASSIVE的資料集，供開(kāi)發(fā)商訓(xùn)練能理解多種語(yǔ)言的數(shù)字助理使用的AI模型。

0421-amazon_releases_51-language_dataset_for_language_understanding-960.jpg

Amazon本周發(fā)布名為MASSIVE的資料集，供開(kāi)發(fā)商訓(xùn)練能理解多種語(yǔ)言的數(shù)字助理使用的AI模型。

到2023年全球?qū)⒁蛑悄苁謾C(jī)的普及而有80多億個(gè)AI虛擬助理，還有超過(guò)1億臺(tái)智能音箱。然而大部分虛擬助理都僅能使用1種或僅數(shù)種主流語(yǔ)言。此外這些數(shù)字助理的訓(xùn)練還面臨標(biāo)注資料不足、去除資料訛誤、維護(hù)和更新模型的成本等問(wèn)題，進(jìn)一步限制了數(shù)字助理的口語(yǔ)翻譯的能力。

大量多語(yǔ)自然語(yǔ)言理解（massively multilingual natural-language understanding，MMNLU）模型即希望解決這個(gè)問(wèn)題。Amazon Alexa AI自然語(yǔ)言理解部門(mén)科學(xué)家Jack FitzGerald指出，這愿景下，單一機(jī)器學(xué)習(xí)模型能分析和理解多種語(yǔ)言。通過(guò)學(xué)習(xí)跨語(yǔ)言的共享資料展現(xiàn)（data representation），這個(gè)模型可以從有很豐富訓(xùn)練資料的主流語(yǔ)言學(xué)習(xí)到的知識(shí)，轉(zhuǎn)移到資料很稀少的語(yǔ)言上。

為推動(dòng)MMNLU模型創(chuàng)建，Amazon宣布發(fā)布MASSIVE資料集。MASSIVE資料集包含跨51種語(yǔ)言加注過(guò)的100萬(wàn)項(xiàng)話語(yǔ)或單詞（utterance）及開(kāi)源程序代碼。資料集包括訓(xùn)練、驗(yàn)證和測(cè)試資料，后者則提供MMNLU模型的執(zhí)行范例，協(xié)助AI項(xiàng)目人員創(chuàng)建意圖分類（intent classification）或詞槽填充（Slot Filling）的結(jié)果基準(zhǔn)線（baseline）。

MASSIVE為平行資料集，意味每個(gè)單詞都有51種語(yǔ)言版本，這可讓模型學(xué)習(xí)到同一意圖的共享表達(dá)方式，可加速自然語(yǔ)言理解（NLP）任務(wù)的跨語(yǔ)言訓(xùn)練，也能用于其他NLP任務(wù)，如機(jī)器翻譯、多語(yǔ)復(fù)述（multilingual paraphrasing）等等。MASSIVE通過(guò)CC BY 4.0授權(quán)開(kāi)源，以鼓勵(lì)學(xué)界及業(yè)界使用。

Amazon同時(shí)還宣布MMNLU-22競(jìng)賽（Massively Multilingual NLU 2022），鼓勵(lì)開(kāi)發(fā)人員利用MASSIVE資料集創(chuàng)建模型。

AWS 亞馬遜云科技

上一篇：亞馬遜全球增37個(gè)發(fā)電計(jì)劃，估提早5年實(shí)現(xiàn)100%使用再生能源

原文鏈接：點(diǎn)擊前往 >

版權(quán)說(shuō)明：本文內(nèi)容來(lái)自于十輪網(wǎng)，本站不擁有所有權(quán)，不承擔(dān)相關(guān)法律責(zé)任。文章內(nèi)容系作者個(gè)人觀點(diǎn)，不代表快出海對(duì)觀點(diǎn)贊同或支持。如有侵權(quán)，請(qǐng)聯(lián)系管理員（zzx@kchuhai.com）刪除！

相關(guān)文章