“霸榜CLUE”，華為云剛剛發(fā)布全球最大中文語言預(yù)訓(xùn)練模型！

來源：網(wǎng)易

作者：來一壺瀧井

時(shí)間：2021-04-28

4月25日，華為云聯(lián)合循環(huán)智能、鵬城實(shí)驗(yàn)室發(fā)布了全球最大規(guī)模的中文語言預(yù)訓(xùn)練模型——盤古NLP大模型。盤古NLP大模型是業(yè)界首個(gè)千億參數(shù)中文語言預(yù)訓(xùn)練模型，由華為云、循環(huán)智能和鵬城實(shí)驗(yàn)室聯(lián)合開發(fā)，預(yù)訓(xùn)練階段學(xué)習(xí)了40TB中文文本數(shù)據(jù)，并通過行業(yè)數(shù)據(jù)的樣本調(diào)優(yōu)提升模型在不同場景中的應(yīng)用性能。

　　盤古NLP大模型具備領(lǐng)先的語言理解和模型生成能力：在權(quán)威的中文語言理解評測基準(zhǔn)CLUE榜單中，總成績及分類、閱讀理解單項(xiàng)均排名第一，刷新三項(xiàng)榜單歷史紀(jì)錄；總排行榜得分83.046，多項(xiàng)子任務(wù)評分業(yè)界領(lǐng)先。

　　盤古NLP大模型的中文理解和生成能力“現(xiàn)場考”

　　CLUE是中文社區(qū)權(quán)威的預(yù)訓(xùn)練語言模型評測的Benchmark，三項(xiàng)榜單第一的成績無疑顯示了盤古NLP大模型的超強(qiáng)性能。那么，盤古NLP在具體場景中的中文理解和生成能力如何？華為開發(fā)者大會（Cloud）現(xiàn)場，華為云人工智能首席科學(xué)家、IEEE Fellow田奇現(xiàn)場問了它幾個(gè)問題：

　　Q：Hi盤古，什么樣的車沒有油也可以跑？

　　盤古：新能源車和自行車沒有油都可以跑，當(dāng)然，還有玩具車。

點(diǎn)評：這個(gè)問答體現(xiàn)了盤古的常識推理能力。

　　Q：Hi盤古，什么是碳中和？碳排放主要來自于哪些行業(yè)？

　　盤古：碳中和就是把人為排放的二氧化碳，通過植樹造林、節(jié)能減排等形式抵消掉，從而使得釋放到大氣中的總碳量凈值為零。

　　盤古：目前發(fā)電和供熱行業(yè)、制造和建筑業(yè)是主要的碳排放行業(yè)，請見下圖:　

點(diǎn)評：這段對話背后，盤古模型閱讀和理解了大量相關(guān)文章，通過小樣本學(xué)習(xí)對意圖進(jìn)行識別，轉(zhuǎn)化為知識庫和數(shù)據(jù)庫查詢，并根據(jù)返回的結(jié)果生成最終的回答。這種方式與GPT-3等僅基于端到端生成的方式不同，可以更準(zhǔn)確地處理復(fù)雜場景，結(jié)合領(lǐng)域知識，具備更大的商業(yè)價(jià)值，這種方式未來會進(jìn)一步完善我們搜索和推薦系統(tǒng)的效果。

　　Q：Hi盤古，為什么要實(shí)現(xiàn)碳中和？目標(biāo)是什么？有哪些挑戰(zhàn)？

　　盤古：過度的碳排放會導(dǎo)致溫室效應(yīng)，它是冰川融化、森林火災(zāi)等一系列自然災(zāi)害背后的共同元兇。2015年在巴黎舉行的氣候變化大會上，協(xié)議在本世紀(jì)后半葉，實(shí)現(xiàn)全球碳中和。

　　盤古：各國家的目標(biāo)，請見下圖：

　　盤古：面臨的主要挑戰(zhàn)有：1. 能源需求還沒有達(dá)到峰值，人均用電量還在升高。2. 煤炭是電力供給的主要來源，煤炭燃燒產(chǎn)生大量的二氧化碳，轉(zhuǎn)型難度比較大。3. 綠色能源技術(shù)仍然不成熟。

點(diǎn)評：針對提問中的三個(gè)意圖，盤古都能準(zhǔn)確地識別出來，并逐一解答，這就是盤古所具備的多重意圖識別的能力，這也是阻礙智能客服等應(yīng)用大面積推廣的最大痛點(diǎn)。

　　Q：Hi盤古，我們個(gè)人在平常生活中做哪些事會有幫助？

　　盤古：推薦以下低碳生活方式：

點(diǎn)評：提問中并沒有提到“碳中和”三個(gè)字，但是盤古基于我們聊天的上下文，推斷出我想問的幫助對象是降低二氧化碳而不是其它問題。長文中指代理解能力的提升會讓人與機(jī)器在交流中更為自然、更為便捷。

　　Q：Hi盤古，AI技術(shù)能給碳中和帶來哪些貢獻(xiàn)？具體我們怎么實(shí)現(xiàn)碳中和？

　　盤古：AI賦能數(shù)據(jù)分析和行業(yè)數(shù)字化轉(zhuǎn)型，不僅可以幫助企業(yè)監(jiān)測和預(yù)測碳排放，還可以有效提高企業(yè)生產(chǎn)效率，并實(shí)現(xiàn)節(jié)約成本和節(jié)能減排。

　　盤古：第一、明確碳總量排放的逐年遞減目標(biāo)。第二、推動電力市場改革，大力扶持綠色能源產(chǎn)業(yè)。第三、企業(yè)要進(jìn)行碳核算，同時(shí)通過技術(shù)轉(zhuǎn)型加速行業(yè)節(jié)能減排目標(biāo)。

點(diǎn)評：盤古發(fā)表了它個(gè)人對于碳中和的看法，這就是“生成與理解能力領(lǐng)先”，給它一定的空間進(jìn)行自由發(fā)揮創(chuàng)造出自己的觀點(diǎn)。

　　盤古NLP大模型在三個(gè)方面實(shí)現(xiàn)突破性進(jìn)展

　　眾所周知人工智能已經(jīng)進(jìn)入千行百業(yè)，盤古大模型的目標(biāo)是沉淀行業(yè)知識，解決商業(yè)環(huán)境中低成本大規(guī)模復(fù)制的問題。具體而言，希望提升小樣本學(xué)習(xí)能力，為更廣泛的商業(yè)場景賦能。比如說，服務(wù)機(jī)器人多輪對話上下文理解能力，多重語義識別能力等。

　　為了實(shí)現(xiàn)這個(gè)目標(biāo)，盤古NLP大模型預(yù)訓(xùn)練階段學(xué)習(xí)了40TB中文文本數(shù)據(jù)，并通過行業(yè)數(shù)據(jù)的樣本調(diào)優(yōu)提升模型在場景中的應(yīng)用性能。

　　模型架構(gòu)方面，之前的預(yù)訓(xùn)練模型大多基于decoder結(jié)構(gòu)開發(fā)，比如Open-AI的GPT-3模型和智源的CPM模型，他們主要用來做生成類任務(wù)。盤古NLP大模型采用了deep encoder （深編碼）和 shallow decoder (淺解碼）結(jié)構(gòu)，目的是為了保證模型在生成和理解兩個(gè)方面的性能都表現(xiàn)優(yōu)異, 同時(shí)加速生成過程。

　　相對于業(yè)界其他NLP大模型，盤古NLP大模型在三個(gè)方面獲得了突破性進(jìn)展：

　　第一，大模型在預(yù)訓(xùn)練階段沉淀了大量的通用知識，同時(shí)既能做生成又能做理解的特性讓大模型有能力支持行業(yè)知識庫和數(shù)據(jù)庫的嵌入，進(jìn)而對接行業(yè)經(jīng)驗(yàn)。大模型可以靈活扮演系統(tǒng)的不同模塊，使能全場景的快速適配與擴(kuò)展。比如在循環(huán)智能與華為合作共建的金融客服場景中，大模型能更好的賦能銷售環(huán)節(jié)，提升200%的銷售轉(zhuǎn)化率。

　　第二，在encoder-decoder的架構(gòu)基礎(chǔ)上植入了特有的訓(xùn)練技巧和方法，性能上取得了優(yōu)異的效果。在中文權(quán)威CLUE榜單中分類任務(wù)、閱讀理解任務(wù)，和總成績都排名第一。CLUE主要檢測的是模型理解能力。NLPCC2018文本摘要任務(wù)可以全方位的檢測一個(gè)模型的生成能力，盤古同樣取得了Rouge Score平均分0.53的業(yè)界最佳成績，超越第二名百分之六十。

　　第三，過往發(fā)布的預(yù)訓(xùn)練大模型基本上不調(diào)優(yōu)，或者做non-gradient（非梯度下降）調(diào)優(yōu)，著眼于泛化能力而犧牲了一些場景的性能。為了改變這一缺陷，盤古NLP大模型選擇走大模型小樣本調(diào)優(yōu)的路線，基于提示（prompt-based）的調(diào)優(yōu)、動態(tài)冰化等一系列正則化技術(shù)，實(shí)現(xiàn)了小樣本學(xué)習(xí)任務(wù)上超越GPT系列。

　　華為云盤古大模型怎么做出來的？

　　盤古NLP大模型涉及千億參數(shù)、40TB中文文本訓(xùn)練數(shù)據(jù)，對算法、算力、海量數(shù)據(jù)處理、并行優(yōu)化都提出了很大挑戰(zhàn)。

　　在算法方面，華為云的算法團(tuán)隊(duì)和循環(huán)智能（Recurrent AI）的NLP團(tuán)隊(duì)經(jīng)過數(shù)月的聯(lián)合攻關(guān)，成功突破了大模型微調(diào)的難題。

　　鵬城實(shí)驗(yàn)室的國內(nèi)最大規(guī)模AI訓(xùn)練集群鵬城云腦II，在盤古NLP大模型訓(xùn)練中展示出強(qiáng)大的AI算力和數(shù)據(jù)吞吐能力，為盤古NLP大模型訓(xùn)練打下了堅(jiān)實(shí)的基礎(chǔ)。

　　另一方面，華為底層軟件、訓(xùn)練框架、ModelArts平臺協(xié)同優(yōu)化，充分釋放算力，達(dá)成全棧性能最優(yōu)。首先，針對底層算子性能，基于華為CANN采用了算子量化、算子融合優(yōu)化等技術(shù)，將單算子性能提升30%以上。其次，華為MindSpore創(chuàng)新性地采用了“流水線并行、模型并行和數(shù)據(jù)并行”的多維自動混合并行技術(shù)，大幅降低了手動編碼的工作量，并提升集群線性度20%。同時(shí)，華為云ModelArts平臺提供E級算力調(diào)度，同時(shí)結(jié)合物理網(wǎng)絡(luò)拓?fù)?，提供動態(tài)路由規(guī)劃能力，為大模型訓(xùn)練提供了最優(yōu)的網(wǎng)絡(luò)通信能力。此外，借助ModelArts平臺的高效處理海量數(shù)據(jù)能力，僅用7天就完成了40TB文本數(shù)據(jù)處理。

　　華為云傾力打造了一系列盤古大模型（NLP、CV、多模態(tài)、科學(xué)計(jì)算），同時(shí)配套了100+基礎(chǔ)算法，最終會落在華為云一站式AI開發(fā)平臺ModelArts上給客戶與廣大開發(fā)者使用。華為云盤古大模型，改變了過去作坊式的定制化AI開發(fā)模式，實(shí)現(xiàn)了模型的通用、泛化、和復(fù)制，極大地提升了AI開發(fā)效率，開啟了AI工業(yè)化開發(fā)新模式。

立即登錄，閱讀全文

華為云

上一篇：iPayLinks跨視界｜聚焦企業(yè)數(shù)字化之路 iPayLinks與你一起共探數(shù)字未來！

版權(quán)說明：

本文內(nèi)容來自于網(wǎng)易，本站不擁有所有權(quán)，不承擔(dān)相關(guān)法律責(zé)任。文章內(nèi)容系作者個(gè)人觀點(diǎn)，不代表快出海對觀點(diǎn)贊同或支持。如有侵權(quán)，請聯(lián)系管理員（zzx@kchuhai.com）刪除！

相關(guān)文章