機(jī)器之心編輯部
針對(duì) AI 工程化落地的實(shí)踐經(jīng)驗(yàn),阿里云給出了需要具備的三大基礎(chǔ)能力:平臺(tái)云原生化、模型超大規(guī)模化、AI 服務(wù)場(chǎng)景化。
2021 年,AI 工程化的未來令人充滿期待。
Gartner 將「AI 工程化」列為 2021 年度九大重要戰(zhàn)略科技趨勢(shì)之一。在 Gartner 看來,只有 53% 的項(xiàng)目能夠從 AI 原型轉(zhuǎn)化為生產(chǎn)。AI 要成為企業(yè)生產(chǎn)力,就必須以工程化的技術(shù)來解決模型開發(fā)、部署、管理、預(yù)測(cè)等全鏈路生命周期管理的問題。
也就是說,如果沒有 AI 工程,企業(yè)無法將 AI 項(xiàng)目從概念證明和原型轉(zhuǎn)移到全面生產(chǎn)。那么對(duì)需要用到 AI 的企業(yè)來說,該選擇什么樣的方式和服務(wù)商來獲得 AI 工程化能力?
權(quán)威市場(chǎng)報(bào)告是一份不錯(cuò)的參考。Gartner 最新發(fā)布了兩份 AI 魔力象限《Magic Quadrant for Data Science and Machine Learning Platforms(數(shù)據(jù)科學(xué)與機(jī)器學(xué)習(xí)平臺(tái))》(下稱 「DSML 報(bào)告」)和《Magic Quadrant for Cloud AI Developer Services(云 AI 開發(fā)者服務(wù))》(下稱「CAIDS」 報(bào)告),對(duì)全球廠商進(jìn)行了年度評(píng)估。這兩份報(bào)告可以看作是 AI 工程化領(lǐng)域的盤點(diǎn),給予希望選擇正確的 DSML 和 CAIDS 解決方案,并提升 AI 生產(chǎn)力的企業(yè)以權(quán)威的參考。
從廠商分布格局來看,阿里云成為 DSML 報(bào)告 4 年歷史以來首個(gè)入選的中國廠商;CAIDS 報(bào)告中,阿里云、百度云、騰訊云都進(jìn)入報(bào)告,其中阿里云成為唯一躋身遠(yuǎn)見者象限的中國廠商。
這意味著,阿里云憑借產(chǎn)品矩陣、技術(shù)實(shí)力、商業(yè)化能力以及開發(fā)者服務(wù)等優(yōu)勢(shì),在幫助企業(yè)建設(shè) AI 工程化這件事上取得了先機(jī)。
針對(duì) AI 工程化落地的實(shí)踐經(jīng)驗(yàn),阿里云給出的答案是具備三大基礎(chǔ)能力:平臺(tái)云原生化、模型超大規(guī)?;I 服務(wù)場(chǎng)景化。
平臺(tái)云原生化
AI 工程化落地的首個(gè)基礎(chǔ)能力就是平臺(tái)云原生化。其實(shí) AI 平臺(tái)的構(gòu)建有很多實(shí)現(xiàn)方法,但云原生是目前最普適的方法。因?yàn)樵圃T檻不高,沒有具體限制技術(shù)選型,尤其是它所倡導(dǎo)的開放、彈性和生態(tài)等原則可以迅速拉低 AI 平臺(tái)的實(shí)現(xiàn)門檻。
開放意味著需要把 OpenAPI 放到產(chǎn)品的第一優(yōu)先級(jí)來考慮,支持用戶和其他云產(chǎn)品通過 OpenAPI 訪問產(chǎn)品所有功能,可以被第二方和第三方廠商工具自由集成;同時(shí)能夠擅于調(diào)用其他云上產(chǎn)品來構(gòu)建自己的服務(wù),比如云上數(shù)據(jù)庫 RDS、云日志服務(wù) SLS 等。
彈性是在設(shè)計(jì)之初就要設(shè)想產(chǎn)品的規(guī)模大小,物理資源盡量不要自建,充分利用云的彈性。
生態(tài)有兩層含義,一是與業(yè)界開源社區(qū)保持合作,盡量不要重復(fù)造輪子和發(fā)明新規(guī)范,二是開放的內(nèi)容生態(tài),能夠吸引個(gè)人開發(fā)者和企業(yè)共同建設(shè) AI 平臺(tái),繁榮生態(tài)。
接著再來看機(jī)器學(xué)習(xí)領(lǐng)域,特別是現(xiàn)在熱門的深度學(xué)習(xí),平臺(tái)需要的大算力主要依靠異構(gòu)計(jì)算硬件來完成。典型例子就是 NVIDIA GPU 卡,但是自建 GPU 機(jī)房成本很高,并且配套的軟件環(huán)境也會(huì)非常復(fù)雜,不易運(yùn)維。
這個(gè)時(shí)候,云原生可以很好地解決這個(gè)問題:基于開放的容器化技術(shù),僅需開發(fā)一次,就可以批量復(fù)制軟件環(huán)境,靈活部署,有利于 DevOps 的實(shí)踐。同時(shí),機(jī)器學(xué)習(xí)中的 MLOps 強(qiáng)調(diào)模型效果的可復(fù)現(xiàn)性,容器技術(shù)一鍵打包所有配置和參數(shù),確保環(huán)境的一致性,大大提高了開發(fā)效率。
從應(yīng)用角度來看,機(jī)器學(xué)習(xí)模型構(gòu)建和訓(xùn)練只是業(yè)務(wù)系統(tǒng)中的一環(huán),需要與企業(yè)的其他系統(tǒng)集成,這就對(duì)機(jī)器學(xué)習(xí)平臺(tái)的 OpenAPI 服務(wù)部署提出了更高的要求。
也就是說,云原生強(qiáng)調(diào)的統(tǒng)一部署、標(biāo)準(zhǔn)化、OpenAPI、彈性等要素都非常契合當(dāng)下機(jī)器學(xué)習(xí)平臺(tái)的環(huán)境復(fù)雜、需要快速迭代等特點(diǎn),AI 平臺(tái)云原生化是技術(shù)發(fā)展和市場(chǎng)發(fā)展的需求。
阿里云機(jī)器學(xué)習(xí) PAI 已經(jīng)全面擁抱云原生,通過與阿里云 IaaS 的產(chǎn)品無縫對(duì)接,充分利用云資源的彈性能力,遵循阿里云 OpenAPI 規(guī)范,開放 API、SDK 和命令行,保證 GPU 卡的彈性調(diào)度,降低客戶自建 GPU 環(huán)境的復(fù)雜度和成本,為其提供靈活、易用和功能豐富的機(jī)器學(xué)習(xí)全棧產(chǎn)品。
依托云原生技術(shù),PAI 平臺(tái)陸續(xù)完善 EAS 云原生彈性推理服務(wù)平臺(tái)、DSW 云原生交互式建模平臺(tái)、DLC 云原生 AI 基礎(chǔ)平臺(tái)后,可實(shí)現(xiàn) 100% 兼容開源的輕量化、小型化靈活輸出。一個(gè)典型的例子是 PAI-DSW 的用戶可以輕松拿到一個(gè)完全配置好的機(jī)器學(xué)習(xí)環(huán)境,并且每次登錄環(huán)境都保持一致。
模型超大規(guī)?;?/span>
機(jī)器學(xué)習(xí)平臺(tái)對(duì)超大規(guī)模模型的支持能力一定程度反應(yīng)了其自身的成熟程度,是其支持 AI 業(yè)務(wù)模型和能力升級(jí)的體現(xiàn)。這也是模型超大規(guī)?;蔀?AI 工程化落地第二個(gè)基礎(chǔ)能力的主要因素。
2021 年初,阿里云機(jī)器學(xué)習(xí) PAI、達(dá)摩院智能計(jì)算實(shí)驗(yàn)室聯(lián)合清華大學(xué)共同開發(fā)了業(yè)界最大規(guī)模的中文多模態(tài)預(yù)訓(xùn)練模型 M6。該模型參數(shù)規(guī)模超千億,具備超越傳統(tǒng) AI 的文本、圖像的理解和生成能力,圖像設(shè)計(jì)效率超越人類,可應(yīng)用于產(chǎn)品設(shè)計(jì)、信息檢索、機(jī)器人對(duì)話、文學(xué)創(chuàng)作等領(lǐng)域。以圖像生成為例,模型可設(shè)計(jì)包括服飾、鞋類、家具等 30 多個(gè)物品類別的圖像,最短可以在一分鐘內(nèi)完成作品創(chuàng)作。
千億多模態(tài)預(yù)訓(xùn)練模型對(duì)當(dāng)前深度學(xué)習(xí)框架提出來很多挑戰(zhàn),包括模型計(jì)算效率、模型分布式訓(xùn)練性能、數(shù)據(jù) IO、模型訓(xùn)練收斂性等。針對(duì)這些挑戰(zhàn),PAI 團(tuán)隊(duì)自研了 Whale 分布式訓(xùn)練框架,在計(jì)算效率、通信效率、顯存消耗等多個(gè)方面進(jìn)行了深度優(yōu)化,從而幫助千億多模態(tài)預(yù)訓(xùn)練模型快速迭代訓(xùn)練。
這背后的技術(shù)實(shí)現(xiàn)是:Whale 分布式訓(xùn)練框架基于 Graph IR,針對(duì)數(shù)據(jù)并行、模型并行、流水并行、混合并行等多種并行模型進(jìn)行了統(tǒng)一架構(gòu)設(shè)計(jì),并對(duì)用戶提供并行策略原語,用戶在僅僅添加幾行 API 調(diào)用的情況下就可以實(shí)現(xiàn)豐富的分布式并行策略。同時(shí),Whale 實(shí)現(xiàn)了包括自動(dòng) Gradient Checkpointing、Optimizer 峰值顯存優(yōu)化、通信分組和線程池技術(shù)、混合精度、編譯優(yōu)化等優(yōu)化技術(shù)。算法同學(xué)不需要修改模型代碼,只需添加簡(jiǎn)單幾行的 API 調(diào)用就可以快速構(gòu)建高效的分布式訓(xùn)練任務(wù)。
在千億多模態(tài)預(yù)訓(xùn)練模型這個(gè)任務(wù)上,PAI 團(tuán)隊(duì)和算法建模同學(xué)進(jìn)行了緊密的合作。模型結(jié)構(gòu)上,借鑒近期 Gshard 和 switch transformer 等工作,M6 模型實(shí)現(xiàn)中加入了 Gshard 的 Mixture-of-Experts 設(shè)計(jì)。
借助 Whale 分布式訓(xùn)練框架,M6 首次在 2 天以內(nèi)完成 1 億樣本的預(yù)訓(xùn)練,相比于 OpenAI 整個(gè)任務(wù)訓(xùn)練成本大幅下降;在語言模型實(shí)驗(yàn)上,M6 對(duì)比同等 flops 的非 MoE 模型能夠?qū)崿F(xiàn)語言模型困惑度(PPL)的顯著降低;在中文圖文描述的下游任務(wù)實(shí)驗(yàn)上,M6 生成的準(zhǔn)確率對(duì)比 baseline 取得 19.2% 的提升,對(duì)比百億 M6 還能取得約 12.1% 的提升。
稠密模型的復(fù)雜度急劇提升,直觀的表現(xiàn)是模參數(shù)越來越多,規(guī)模越來越大,需要的硬件資源(內(nèi)存、GPU)越來越多,不利于模型的部署和應(yīng)用推廣,因此需要更小、更精煉的模型。
模型蒸餾是一種優(yōu)化的思路,能將訓(xùn)練好的復(fù)雜模型遷移到結(jié)構(gòu)更為簡(jiǎn)單的網(wǎng)絡(luò)中。PAI-EasyTexMiner 知識(shí)蒸餾具備了將大規(guī)模預(yù)訓(xùn)練模型蒸餾到小模型上的能力,且在阿里不同的場(chǎng)景業(yè)務(wù)中取得了不錯(cuò)的效果。例如,大家每天都使用的淘寶客服機(jī)器人“阿里小蜜“,在熱線意圖識(shí)別方面,通過知識(shí)蒸餾,在效果基本一致的前提下,模型大幅簡(jiǎn)化,推理效率提升了 8.5 倍。
和稠密模型蒸餾出小模型不同,超大規(guī)模稀疏模型備受關(guān)注是訓(xùn)練能力。PAI-TensorFlow 超大規(guī)模分布式訓(xùn)練能力,支持萬億樣本、千億特征規(guī)模的模型訓(xùn)練。針對(duì)稀疏模型場(chǎng)景,PAI 團(tuán)隊(duì)在通信、圖優(yōu)化、算子、Runtime 等方面進(jìn)行了深度性能優(yōu)化,提供稀疏場(chǎng)景下的動(dòng)態(tài)彈性特征、特征淘汰及準(zhǔn)入、增量模型加載及更新等能力,支撐阿里巴巴核心的搜索、推薦、廣告業(yè)務(wù)場(chǎng)景的同時(shí),支持了大量公共云稀疏場(chǎng)景下的模型訓(xùn)練及預(yù)測(cè)。在某公共云業(yè)務(wù)場(chǎng)景中,PAI-TensorFlow 對(duì)比開源 TensorFlow 訓(xùn)練性能提升 10 倍以上,并基于動(dòng)態(tài)彈性特征及增量模型更新的能力,實(shí)現(xiàn)了稀疏場(chǎng)景下 Online DeepLearning 秒級(jí)模型更新的能力。
可以看到,無論是業(yè)界最大規(guī)模的中文多模態(tài)預(yù)訓(xùn)練模型 M6 還是超大規(guī)模稀疏模型領(lǐng)先于業(yè)界數(shù)倍的訓(xùn)練能力,阿里云通過不同方式將稠密模型和稀疏模型的工程化能力輸出給用戶。
AI 服務(wù)場(chǎng)景化
AI 工程化如何把 AI 轉(zhuǎn)化為生產(chǎn)力?行業(yè) AI 落地是第三條必不可少的能力。也就是說,AI 服務(wù)要與場(chǎng)景結(jié)合,你不僅要懂 AI、更要懂行業(yè)。
只是,行業(yè) AI 想要做好落地,并沒有那么簡(jiǎn)單。
企業(yè)一般有定制 AI 模型和通用 AI 模型兩種選擇,前者購買后無法實(shí)現(xiàn)自我迭代,行業(yè)數(shù)據(jù)復(fù)雜度高、專家知識(shí)難以有效傳承等因素導(dǎo)致相似項(xiàng)目難以簡(jiǎn)單復(fù)用;后者具有局限性,不支持行業(yè)特定業(yè)務(wù)需求。
針對(duì)這些問題,依托阿里巴巴內(nèi)部電商、金融、游戲、直播等多個(gè)業(yè)務(wù)場(chǎng)景,PAI 在推薦、廣告、用戶增長、金融風(fēng)控、音視頻文本多模態(tài)等個(gè)性化場(chǎng)積累了豐富的實(shí)戰(zhàn)經(jīng)驗(yàn)及企業(yè)級(jí) AI 解決方案。同時(shí),也沉淀了大量成熟算法、框架及工程化組件。在阿里云,這些能力稱之為原子能力。PAI 平臺(tái)提供的這些原子能力,可以幫助用戶更快地孵化和構(gòu)建新場(chǎng)景業(yè)務(wù)。
如今,PAI 的行業(yè)場(chǎng)景化服務(wù)通過阿里云開放給所有企業(yè)。通過場(chǎng)景化插件,企業(yè)只需要按標(biāo)準(zhǔn)的數(shù)據(jù)接口接入就可以輕松完成整個(gè)建模鏈路,帶來業(yè)務(wù)效率的快速提升。
例如在眾多互聯(lián)網(wǎng)客戶中被廣泛應(yīng)用的 PAI 智能推薦解決方案,可以幫助企業(yè)開發(fā)者 10 天左右快速搭建企業(yè)級(jí)智能推薦系統(tǒng)。平臺(tái)提供了 GraphSage、DeepFM、DIN 等業(yè)內(nèi)經(jīng)典推薦類算法,企業(yè)客戶可以獲得從召回到排序的全鏈路白盒化推薦能力,自主可控的掌握推薦業(yè)務(wù)的全部核心技術(shù)環(huán)節(jié)。
除了互聯(lián)網(wǎng)行業(yè)之外,PAI 還支持金融、教育、城市管理等行業(yè)場(chǎng)景,提供專家服務(wù),貼身結(jié)合企業(yè)業(yè)務(wù)場(chǎng)景和痛點(diǎn)提供定制 AI 方案。通過 PAI 模型的持續(xù)迭代優(yōu)化,某城市大腦成功地完成了企業(yè)變更風(fēng)險(xiǎn)預(yù)測(cè)、食品抽檢風(fēng)險(xiǎn)預(yù)測(cè)、執(zhí)法人員畫像、職業(yè)打假預(yù)警等市場(chǎng)監(jiān)管模型,提升了市場(chǎng)監(jiān)管的效率,有效降低各個(gè)場(chǎng)景的風(fēng)險(xiǎn)。
總結(jié)來說,平臺(tái)云原生化、模型超大規(guī)?;I 服務(wù)場(chǎng)景化是 AI 工程化落地具備的三大基礎(chǔ)能力,阿里云依托云原生能力,提供靈活組合的機(jī)器學(xué)習(xí)平臺(tái),提升 AI 工程效率的同時(shí),幫助企業(yè)將 AI 轉(zhuǎn)化為生產(chǎn)力。