入選Gartner全球報告,阿里云解讀AI工程化三大基礎(chǔ)能力

來源: 百家號
作者:機器之心Pro
時間:2021-03-23
16852
阿里云機器學(xué)習(xí) PAI 已經(jīng)全面擁抱云原生,通過與阿里云 IaaS 的產(chǎn)品無縫對接,充分利用云資源的彈性能力,遵循阿里云 OpenAPI 規(guī)范,開放 API、SDK 和命令行,保證 GPU 卡的彈性調(diào)度,降低客戶自建 GPU 環(huán)境的復(fù)雜度和成本,為其提供靈活、易用和功能豐富的機器學(xué)習(xí)全棧產(chǎn)品。

機器之心編輯部

針對 AI 工程化落地的實踐經(jīng)驗,阿里云給出了需要具備的三大基礎(chǔ)能力:平臺云原生化、模型超大規(guī)?;?、AI 服務(wù)場景化。

2021 年,AI 工程化的未來令人充滿期待。

Gartner 將「AI 工程化」列為 2021 年度九大重要戰(zhàn)略科技趨勢之一。在 Gartner 看來,只有 53% 的項目能夠從 AI 原型轉(zhuǎn)化為生產(chǎn)。AI 要成為企業(yè)生產(chǎn)力,就必須以工程化的技術(shù)來解決模型開發(fā)、部署、管理、預(yù)測等全鏈路生命周期管理的問題。

也就是說,如果沒有 AI 工程,企業(yè)無法將 AI 項目從概念證明和原型轉(zhuǎn)移到全面生產(chǎn)。那么對需要用到 AI 的企業(yè)來說,該選擇什么樣的方式和服務(wù)商來獲得 AI 工程化能力?

權(quán)威市場報告是一份不錯的參考。Gartner 最新發(fā)布了兩份 AI 魔力象限《Magic Quadrant for Data Science and Machine Learning Platforms(數(shù)據(jù)科學(xué)與機器學(xué)習(xí)平臺)》(下稱 「DSML 報告」)和《Magic Quadrant for Cloud AI Developer Services(云 AI 開發(fā)者服務(wù))》(下稱「CAIDS」 報告),對全球廠商進行了年度評估。這兩份報告可以看作是 AI 工程化領(lǐng)域的盤點,給予希望選擇正確的 DSML 和 CAIDS 解決方案,并提升 AI 生產(chǎn)力的企業(yè)以權(quán)威的參考。

從廠商分布格局來看,阿里云成為 DSML 報告 4 年歷史以來首個入選的中國廠商;CAIDS 報告中,阿里云、百度云、騰訊云都進入報告,其中阿里云成為唯一躋身遠見者象限的中國廠商。

這意味著,阿里云憑借產(chǎn)品矩陣、技術(shù)實力、商業(yè)化能力以及開發(fā)者服務(wù)等優(yōu)勢,在幫助企業(yè)建設(shè) AI 工程化這件事上取得了先機。

針對 AI 工程化落地的實踐經(jīng)驗,阿里云給出的答案是具備三大基礎(chǔ)能力:平臺云原生化、模型超大規(guī)模化、AI 服務(wù)場景化。

平臺云原生化

AI 工程化落地的首個基礎(chǔ)能力就是平臺云原生化。其實 AI 平臺的構(gòu)建有很多實現(xiàn)方法,但云原生是目前最普適的方法。因為云原生門檻不高,沒有具體限制技術(shù)選型,尤其是它所倡導(dǎo)的開放、彈性和生態(tài)等原則可以迅速拉低 AI 平臺的實現(xiàn)門檻。

開放意味著需要把 OpenAPI 放到產(chǎn)品的第一優(yōu)先級來考慮,支持用戶和其他云產(chǎn)品通過 OpenAPI 訪問產(chǎn)品所有功能,可以被第二方和第三方廠商工具自由集成;同時能夠擅于調(diào)用其他云上產(chǎn)品來構(gòu)建自己的服務(wù),比如云上數(shù)據(jù)庫 RDS、云日志服務(wù) SLS 等。

彈性是在設(shè)計之初就要設(shè)想產(chǎn)品的規(guī)模大小,物理資源盡量不要自建,充分利用云的彈性。

生態(tài)有兩層含義,一是與業(yè)界開源社區(qū)保持合作,盡量不要重復(fù)造輪子和發(fā)明新規(guī)范,二是開放的內(nèi)容生態(tài),能夠吸引個人開發(fā)者和企業(yè)共同建設(shè) AI 平臺,繁榮生態(tài)。

ia_1800000002.jpeg

接著再來看機器學(xué)習(xí)領(lǐng)域,特別是現(xiàn)在熱門的深度學(xué)習(xí),平臺需要的大算力主要依靠異構(gòu)計算硬件來完成。典型例子就是 NVIDIA GPU 卡,但是自建 GPU 機房成本很高,并且配套的軟件環(huán)境也會非常復(fù)雜,不易運維。

這個時候,云原生可以很好地解決這個問題:基于開放的容器化技術(shù),僅需開發(fā)一次,就可以批量復(fù)制軟件環(huán)境,靈活部署,有利于 DevOps 的實踐。同時,機器學(xué)習(xí)中的 MLOps 強調(diào)模型效果的可復(fù)現(xiàn)性,容器技術(shù)一鍵打包所有配置和參數(shù),確保環(huán)境的一致性,大大提高了開發(fā)效率。

從應(yīng)用角度來看,機器學(xué)習(xí)模型構(gòu)建和訓(xùn)練只是業(yè)務(wù)系統(tǒng)中的一環(huán),需要與企業(yè)的其他系統(tǒng)集成,這就對機器學(xué)習(xí)平臺的 OpenAPI 服務(wù)部署提出了更高的要求。

也就是說,云原生強調(diào)的統(tǒng)一部署、標(biāo)準(zhǔn)化、OpenAPI、彈性等要素都非常契合當(dāng)下機器學(xué)習(xí)平臺的環(huán)境復(fù)雜、需要快速迭代等特點,AI 平臺云原生化是技術(shù)發(fā)展和市場發(fā)展的需求。

阿里云機器學(xué)習(xí) PAI 已經(jīng)全面擁抱云原生,通過與阿里云 IaaS 的產(chǎn)品無縫對接,充分利用云資源的彈性能力,遵循阿里云 OpenAPI 規(guī)范,開放 API、SDK 和命令行,保證 GPU 卡的彈性調(diào)度,降低客戶自建 GPU 環(huán)境的復(fù)雜度和成本,為其提供靈活、易用和功能豐富的機器學(xué)習(xí)全棧產(chǎn)品。

依托云原生技術(shù),PAI 平臺陸續(xù)完善 EAS 云原生彈性推理服務(wù)平臺、DSW 云原生交互式建模平臺、DLC 云原生 AI 基礎(chǔ)平臺后,可實現(xiàn) 100% 兼容開源的輕量化、小型化靈活輸出。一個典型的例子是 PAI-DSW 的用戶可以輕松拿到一個完全配置好的機器學(xué)習(xí)環(huán)境,并且每次登錄環(huán)境都保持一致。

模型超大規(guī)模化

機器學(xué)習(xí)平臺對超大規(guī)模模型的支持能力一定程度反應(yīng)了其自身的成熟程度,是其支持 AI 業(yè)務(wù)模型和能力升級的體現(xiàn)。這也是模型超大規(guī)模化成為 AI 工程化落地第二個基礎(chǔ)能力的主要因素。

2021 年初,阿里云機器學(xué)習(xí) PAI、達摩院智能計算實驗室聯(lián)合清華大學(xué)共同開發(fā)了業(yè)界最大規(guī)模的中文多模態(tài)預(yù)訓(xùn)練模型 M6。該模型參數(shù)規(guī)模超千億,具備超越傳統(tǒng) AI 的文本、圖像的理解和生成能力,圖像設(shè)計效率超越人類,可應(yīng)用于產(chǎn)品設(shè)計、信息檢索、機器人對話、文學(xué)創(chuàng)作等領(lǐng)域。以圖像生成為例,模型可設(shè)計包括服飾、鞋類、家具等 30 多個物品類別的圖像,最短可以在一分鐘內(nèi)完成作品創(chuàng)作。

千億多模態(tài)預(yù)訓(xùn)練模型對當(dāng)前深度學(xué)習(xí)框架提出來很多挑戰(zhàn),包括模型計算效率、模型分布式訓(xùn)練性能、數(shù)據(jù) IO、模型訓(xùn)練收斂性等。針對這些挑戰(zhàn),PAI 團隊自研了 Whale 分布式訓(xùn)練框架,在計算效率、通信效率、顯存消耗等多個方面進行了深度優(yōu)化,從而幫助千億多模態(tài)預(yù)訓(xùn)練模型快速迭代訓(xùn)練。

這背后的技術(shù)實現(xiàn)是:Whale 分布式訓(xùn)練框架基于 Graph IR,針對數(shù)據(jù)并行、模型并行、流水并行、混合并行等多種并行模型進行了統(tǒng)一架構(gòu)設(shè)計,并對用戶提供并行策略原語,用戶在僅僅添加幾行 API 調(diào)用的情況下就可以實現(xiàn)豐富的分布式并行策略。同時,Whale 實現(xiàn)了包括自動 Gradient Checkpointing、Optimizer 峰值顯存優(yōu)化、通信分組和線程池技術(shù)、混合精度、編譯優(yōu)化等優(yōu)化技術(shù)。算法同學(xué)不需要修改模型代碼,只需添加簡單幾行的 API 調(diào)用就可以快速構(gòu)建高效的分布式訓(xùn)練任務(wù)。

在千億多模態(tài)預(yù)訓(xùn)練模型這個任務(wù)上,PAI 團隊和算法建模同學(xué)進行了緊密的合作。模型結(jié)構(gòu)上,借鑒近期 Gshard 和 switch transformer 等工作,M6 模型實現(xiàn)中加入了 Gshard 的 Mixture-of-Experts 設(shè)計。

ia_1800000003.jpeg

借助 Whale 分布式訓(xùn)練框架,M6 首次在 2 天以內(nèi)完成 1 億樣本的預(yù)訓(xùn)練,相比于 OpenAI 整個任務(wù)訓(xùn)練成本大幅下降;在語言模型實驗上,M6 對比同等 flops 的非 MoE 模型能夠?qū)崿F(xiàn)語言模型困惑度(PPL)的顯著降低;在中文圖文描述的下游任務(wù)實驗上,M6 生成的準(zhǔn)確率對比 baseline 取得 19.2% 的提升,對比百億 M6 還能取得約 12.1% 的提升。

稠密模型的復(fù)雜度急劇提升,直觀的表現(xiàn)是模參數(shù)越來越多,規(guī)模越來越大,需要的硬件資源(內(nèi)存、GPU)越來越多,不利于模型的部署和應(yīng)用推廣,因此需要更小、更精煉的模型。

模型蒸餾是一種優(yōu)化的思路,能將訓(xùn)練好的復(fù)雜模型遷移到結(jié)構(gòu)更為簡單的網(wǎng)絡(luò)中。PAI-EasyTexMiner 知識蒸餾具備了將大規(guī)模預(yù)訓(xùn)練模型蒸餾到小模型上的能力,且在阿里不同的場景業(yè)務(wù)中取得了不錯的效果。例如,大家每天都使用的淘寶客服機器人“阿里小蜜“,在熱線意圖識別方面,通過知識蒸餾,在效果基本一致的前提下,模型大幅簡化,推理效率提升了 8.5 倍。

和稠密模型蒸餾出小模型不同,超大規(guī)模稀疏模型備受關(guān)注是訓(xùn)練能力。PAI-TensorFlow 超大規(guī)模分布式訓(xùn)練能力,支持萬億樣本、千億特征規(guī)模的模型訓(xùn)練。針對稀疏模型場景,PAI 團隊在通信、圖優(yōu)化、算子、Runtime 等方面進行了深度性能優(yōu)化,提供稀疏場景下的動態(tài)彈性特征、特征淘汰及準(zhǔn)入、增量模型加載及更新等能力,支撐阿里巴巴核心的搜索、推薦、廣告業(yè)務(wù)場景的同時,支持了大量公共云稀疏場景下的模型訓(xùn)練及預(yù)測。在某公共云業(yè)務(wù)場景中,PAI-TensorFlow 對比開源 TensorFlow 訓(xùn)練性能提升 10 倍以上,并基于動態(tài)彈性特征及增量模型更新的能力,實現(xiàn)了稀疏場景下 Online DeepLearning 秒級模型更新的能力。

可以看到,無論是業(yè)界最大規(guī)模的中文多模態(tài)預(yù)訓(xùn)練模型 M6 還是超大規(guī)模稀疏模型領(lǐng)先于業(yè)界數(shù)倍的訓(xùn)練能力,阿里云通過不同方式將稠密模型和稀疏模型的工程化能力輸出給用戶。

AI 服務(wù)場景化

AI 工程化如何把 AI 轉(zhuǎn)化為生產(chǎn)力?行業(yè) AI 落地是第三條必不可少的能力。也就是說,AI 服務(wù)要與場景結(jié)合,你不僅要懂 AI、更要懂行業(yè)。

只是,行業(yè) AI 想要做好落地,并沒有那么簡單。

企業(yè)一般有定制 AI 模型和通用 AI 模型兩種選擇,前者購買后無法實現(xiàn)自我迭代,行業(yè)數(shù)據(jù)復(fù)雜度高、專家知識難以有效傳承等因素導(dǎo)致相似項目難以簡單復(fù)用;后者具有局限性,不支持行業(yè)特定業(yè)務(wù)需求。

針對這些問題,依托阿里巴巴內(nèi)部電商、金融、游戲、直播等多個業(yè)務(wù)場景,PAI 在推薦、廣告、用戶增長、金融風(fēng)控、音視頻文本多模態(tài)等個性化場積累了豐富的實戰(zhàn)經(jīng)驗及企業(yè)級 AI 解決方案。同時,也沉淀了大量成熟算法、框架及工程化組件。在阿里云,這些能力稱之為原子能力。PAI 平臺提供的這些原子能力,可以幫助用戶更快地孵化和構(gòu)建新場景業(yè)務(wù)。

如今,PAI 的行業(yè)場景化服務(wù)通過阿里云開放給所有企業(yè)。通過場景化插件,企業(yè)只需要按標(biāo)準(zhǔn)的數(shù)據(jù)接口接入就可以輕松完成整個建模鏈路,帶來業(yè)務(wù)效率的快速提升。

例如在眾多互聯(lián)網(wǎng)客戶中被廣泛應(yīng)用的 PAI 智能推薦解決方案,可以幫助企業(yè)開發(fā)者 10 天左右快速搭建企業(yè)級智能推薦系統(tǒng)。平臺提供了 GraphSage、DeepFM、DIN 等業(yè)內(nèi)經(jīng)典推薦類算法,企業(yè)客戶可以獲得從召回到排序的全鏈路白盒化推薦能力,自主可控的掌握推薦業(yè)務(wù)的全部核心技術(shù)環(huán)節(jié)。

除了互聯(lián)網(wǎng)行業(yè)之外,PAI 還支持金融、教育、城市管理等行業(yè)場景,提供專家服務(wù),貼身結(jié)合企業(yè)業(yè)務(wù)場景和痛點提供定制 AI 方案。通過 PAI 模型的持續(xù)迭代優(yōu)化,某城市大腦成功地完成了企業(yè)變更風(fēng)險預(yù)測、食品抽檢風(fēng)險預(yù)測、執(zhí)法人員畫像、職業(yè)打假預(yù)警等市場監(jiān)管模型,提升了市場監(jiān)管的效率,有效降低各個場景的風(fēng)險。

總結(jié)來說,平臺云原生化、模型超大規(guī)?;?、AI 服務(wù)場景化是 AI 工程化落地具備的三大基礎(chǔ)能力,阿里云依托云原生能力,提供靈活組合的機器學(xué)習(xí)平臺,提升 AI 工程效率的同時,幫助企業(yè)將 AI 轉(zhuǎn)化為生產(chǎn)力。

立即登錄,閱讀全文
版權(quán)說明:
本文內(nèi)容來自于百家號,本站不擁有所有權(quán),不承擔(dān)相關(guān)法律責(zé)任。文章內(nèi)容系作者個人觀點,不代表快出海對觀點贊同或支持。如有侵權(quán),請聯(lián)系管理員(zzx@kchuhai.com)刪除!
相關(guān)文章
阿里云助力《誅仙世界》端游正式開服!
阿里云助力《誅仙世界》端游正式開服!
近?,完美世界游戲歷時多年打造的新國?仙俠MMORPG端游《誅仙世界》在阿?云上正式開服。
阿里云
云服務(wù)
2024-12-292024-12-29
一文詳解阿里云AI大基建
一文詳解阿里云AI大基建
面向AI時代,阿里云基礎(chǔ)設(shè)施是如何創(chuàng)新與發(fā)展的?計算、網(wǎng)絡(luò)、存儲、服務(wù)器、集群、可觀測等,阿里云全新升級的AI Infra到底有哪些重磅更新?
阿里云
云服務(wù)
2024-11-022024-11-02
AI時代云安全新范式,阿里云安全能力全線升級!
AI時代云安全新范式,阿里云安全能力全線升級!
AI時代,云安全面臨著新的挑戰(zhàn),不僅要持續(xù)面對以往的傳統(tǒng)問題,更需要全新理念落地于產(chǎn)品設(shè)計、技術(shù)演進、架構(gòu)設(shè)計,才能實現(xiàn)效果、性能、和成本的最優(yōu)解。
AI
阿里云
云服務(wù)
2024-09-272024-09-27
連續(xù)四年!阿里云領(lǐng)跑中國公有云大數(shù)據(jù)平臺
連續(xù)四年!阿里云領(lǐng)跑中國公有云大數(shù)據(jù)平臺
近日,國際數(shù)據(jù)公司(IDC)發(fā)布《中國大數(shù)據(jù)平臺市場份額,2023:數(shù)智融合時代的真正到來》報告——2023年中國大數(shù)據(jù)平臺公有云服務(wù)市場規(guī)模達72.2億元人民幣,其中阿里巴巴市場份額保持領(lǐng)先,占比達40.2%,連續(xù)四年排名第一。
阿里云
云服務(wù)
2024-09-182024-09-18
掃碼登錄
打開掃一掃, 關(guān)注公眾號后即可登錄/注冊
加載中
二維碼已失效 請重試
刷新
賬號登錄/注冊
個人VIP
小程序
快出海小程序
公眾號
快出海公眾號
商務(wù)合作
商務(wù)合作
投稿采訪
投稿采訪
出海管家
出海管家