華為云獲得自然語言處理領(lǐng)域頂級賽事NLPCC開放任務(wù)第一名

來源: 華為云
作者:華為云
時間:2021-01-04
16913
近日,華為云AI團(tuán)隊獲得第9屆國際自然語言處理與中文計算會議NLPCC 2020輕量級預(yù)訓(xùn)練中文語言模型測評第一名。

近日,華為云AI團(tuán)隊獲得第9屆國際自然語言處理與中文計算會議NLPCC 2020輕量級預(yù)訓(xùn)練中文語言模型測評第一名。

image(82).png

NLPCC由中國計算機(jī)學(xué)會主辦,是自然語言處理(NLP)和中文計算(CC)領(lǐng)域的頂級國際前沿會議,每年會議都秉承國際化和一流化的嚴(yán)格標(biāo)準(zhǔn)來進(jìn)行自然語言處理任務(wù)的開放評測,推動相關(guān)任務(wù)的研究和發(fā)展。NLPCC 2020吸引了康奈爾大學(xué)、倫敦大學(xué)、普林斯頓大學(xué)等海內(nèi)外近600位自然語言處理領(lǐng)域的專家及學(xué)者參加大會,其中400余位專家學(xué)者在現(xiàn)場共同見證開放評測任務(wù)第一名的誕生。

當(dāng)下,預(yù)訓(xùn)練語言模型已經(jīng)成為NLP的主流方法,在多項NLP任務(wù)上都取得了明顯的效果提升。但是預(yù)訓(xùn)練語言模型往往比較大,限制了預(yù)訓(xùn)練語言模型的應(yīng)用場景。因此,如何構(gòu)建輕量級的預(yù)訓(xùn)練語言模型就成了一個關(guān)鍵問題。

image(83).png

預(yù)訓(xùn)練語言模型出現(xiàn)以來發(fā)展得非常迅速,目前已經(jīng)演化形成了一個家族

中文輕量級預(yù)訓(xùn)練語言模型能力評測任務(wù)的目的在于讓參賽團(tuán)隊減少語言模型大小的同時盡可能保證模型效果。本次比賽包含四個任務(wù),分別是指代消解,關(guān)鍵詞識別兩個句子級別分類任務(wù),實(shí)體識別序列標(biāo)注任務(wù),MRC閱讀理解任務(wù),從不同角度評測模型的語義表達(dá)能力。同時,比賽要求模型的參數(shù)量低于bert-base模型的1/9,模型推理速度達(dá)到bert-base模型的8倍,這就要求模型運(yùn)行快,體積小,效果好。

image(84).png

一般來說,可以通過量化、剪枝、蒸餾等方法來壓縮大預(yù)訓(xùn)練語言模型來獲得輕量級模型。華為云與諾亞方舟實(shí)驗室聯(lián)合團(tuán)隊基于自研的NEZHA中文預(yù)訓(xùn)練模型通過知識蒸餾得到tiny-NEZHA輕量級模型摘得桂冠。

image(85).png

相比其他模型,華為的模型在結(jié)構(gòu)上找到了一個較好的平衡點(diǎn),采用TinyBERT兩步蒸餾的方式讓模型更好地學(xué)到任務(wù)相關(guān)的知識,蒸餾過程中用語言模型預(yù)測并替換部分token的方式進(jìn)行數(shù)據(jù)增強(qiáng)可以使小模型擁有更強(qiáng)泛化性。

image(86).png

TinyBERT知識蒸餾的損失函數(shù)中一個重要環(huán)節(jié)是讓中間層去學(xué)習(xí)隱藏狀態(tài)和attention向量

同時,華為自研的NEZHA預(yù)訓(xùn)練語言模型采用相對位置編碼替換BERT的參數(shù)化絕對位置編碼,能更直接地建模token間的相對位置關(guān)系,從而提升語言模型的表達(dá)能力。

在即將過去的2020年里,華為云AI在人工智能領(lǐng)域的研發(fā)成績斐然,斬獲十二項包含WSDM、WebVision、CCKS篇章級事件抽取技術(shù)評測冠軍、人工智能金煉獎、德國紅點(diǎn)在內(nèi)的國際國內(nèi)榜單冠軍和獎項。華為云AI將繼續(xù)夯實(shí)技術(shù)優(yōu)勢,做智能世界的“黑土地”,持續(xù)踐行普惠AI,將AI服務(wù)觸及每一位開發(fā)者、每一個企業(yè),助力各行各業(yè)進(jìn)入人工智能新時代。

立即登錄,閱讀全文
版權(quán)說明:
本文內(nèi)容來自于華為云,本站不擁有所有權(quán),不承擔(dān)相關(guān)法律責(zé)任。文章內(nèi)容系作者個人觀點(diǎn),不代表快出海對觀點(diǎn)贊同或支持。如有侵權(quán),請聯(lián)系管理員(zzx@kchuhai.com)刪除!
相關(guān)文章
HDC 2025耀星·領(lǐng)航出海高峰論壇:以全域生態(tài)協(xié)同重構(gòu)出海增長曲線
HDC 2025耀星·領(lǐng)航出海高峰論壇:以全域生態(tài)協(xié)同重構(gòu)出海增長曲線
6月21日,HDC 2025耀星·領(lǐng)航出海高峰論壇在東莞三丫坡舉辦,吸引了全球開發(fā)者、企業(yè)及生態(tài)出海專家共同參與。論壇聚焦2025年重點(diǎn)區(qū)域行業(yè)生態(tài)趨勢,通過歐洲、歐亞、中東、亞太、拉美等差異化市場的掘金案例,提供從獲量到變現(xiàn)的可持續(xù)發(fā)展新思路。
華為云
開發(fā)者
企業(yè)出海
2025-06-212025-06-21
近6成金融機(jī)構(gòu)的選擇!華為云GaussDB加快金融核心系統(tǒng)轉(zhuǎn)型
近6成金融機(jī)構(gòu)的選擇!華為云GaussDB加快金融核心系統(tǒng)轉(zhuǎn)型
當(dāng)前,數(shù)據(jù)庫在金融機(jī)構(gòu)的應(yīng)用正在從辦公、一般系統(tǒng)逐步邁入核心系統(tǒng)應(yīng)用的深水區(qū)。如何構(gòu)建安全可靠、高效穩(wěn)定的核心系統(tǒng)數(shù)據(jù)庫,支持業(yè)務(wù)運(yùn)營和管理決策,成為了眾多金融機(jī)構(gòu)關(guān)注的焦點(diǎn)問題。
華為云
2024-07-042024-07-04
華為云以系統(tǒng)性創(chuàng)新加速千行萬業(yè)智能化升級
華為云以系統(tǒng)性創(chuàng)新加速千行萬業(yè)智能化升級
華為云全球銷售收入達(dá)553億元人民幣,是全球增長最快的主流云廠商之一。
華為云
2024-04-222024-04-22
華為云發(fā)布新型工業(yè)互聯(lián)網(wǎng)平臺參考架構(gòu)
華為云發(fā)布新型工業(yè)互聯(lián)網(wǎng)平臺參考架構(gòu)
近日,在華為分析師大會上,華為混合云副總裁胡玉海重磅發(fā)布《新型工業(yè)互聯(lián)網(wǎng)平臺參考架構(gòu)》白皮書,在傳統(tǒng)工業(yè)互聯(lián)網(wǎng)的基礎(chǔ)上,融入大模型的能力,讓智能化賦能新型工業(yè)化。
華為云
云服務(wù)
2024-04-222024-04-22
掃碼登錄
打開掃一掃, 關(guān)注公眾號后即可登錄/注冊
加載中
二維碼已失效 請重試
刷新
賬號登錄/注冊
個人VIP
小程序
快出海小程序
公眾號
快出海公眾號
商務(wù)合作
商務(wù)合作
投稿采訪
投稿采訪
出海管家
出海管家