Azure簡化深度學(xué)習(xí)函數(shù)庫DeepSpeed軟硬件堆棧配置,超大規(guī)模模型訓(xùn)練變簡單

來源:十輪網(wǎng)
作者:十輪網(wǎng)
時(shí)間:2022-08-02
2270
微軟強(qiáng)化Azure對(duì)超大型機(jī)器學(xué)習(xí)模型訓(xùn)練的支持度,現(xiàn)在用戶可以使用深度學(xué)習(xí)函數(shù)庫DeepSpeed和1024個(gè)A100 GPU,來執(zhí)行兆級(jí)參數(shù)模型的訓(xùn)練。

azure_empowers_easy-to-use_high-performance_and_hyperscale_model.jpg

微軟強(qiáng)化Azure對(duì)超大型機(jī)器學(xué)習(xí)模型訓(xùn)練的支持度,現(xiàn)在用戶可以使用深度學(xué)習(xí)函數(shù)庫DeepSpeed和1024個(gè)A100 GPU,來執(zhí)行兆級(jí)參數(shù)模型的訓(xùn)練。

近年基于Transformer的大規(guī)模深度學(xué)習(xí)技術(shù),有了長足的進(jìn)展,在5年之間,從最初只有數(shù)百萬參數(shù)的Transformer模型,到現(xiàn)在Megatron-Turing已具有5,300億個(gè)參數(shù),這之間模型參數(shù)量增長了數(shù)個(gè)量級(jí),而企業(yè)對(duì)于訓(xùn)練和調(diào)校這些大型模型的需求也逐漸增長。

過去用戶要訓(xùn)練這類大規(guī)模模型,需要配置和維護(hù)一個(gè)復(fù)雜的分布式訓(xùn)練基礎(chǔ)設(shè)施,微軟提到,這些工作通常有一些手動(dòng)步驟且容易出錯(cuò),因此在可用性和性能表現(xiàn)上并不佳。

而現(xiàn)在微軟用戶可以使用Azure上的DeepSpeed,來應(yīng)對(duì)大規(guī)模人工智能訓(xùn)練。用戶可以使用推薦的Azure機(jī)器學(xué)習(xí)配置,或是利用Bash腳本以虛擬機(jī)擴(kuò)展集為基礎(chǔ)的環(huán)境執(zhí)行。DeepSpeed是微軟在2020年發(fā)布的開源深度學(xué)習(xí)訓(xùn)練優(yōu)化函數(shù)庫,該函示庫使用內(nèi)存優(yōu)化技術(shù)ZeRO,改善大型模型訓(xùn)練的規(guī)模、速度、成本和可用性。

微軟采用全端優(yōu)化的方式,將所有訓(xùn)練必要的硬件、操作系統(tǒng)、虛擬機(jī)鏡像文件,還有包含PyTorch、DeepSpeed、ONNX Runtime,與各種Python組件的Docker鏡像文件,以及Azure機(jī)器學(xué)習(xí)API,經(jīng)過優(yōu)化、集成和測試,使其具有良好的性能和可擴(kuò)展性,并且讓用戶不需要處理其復(fù)雜性。

6213ff53-aeda-4961-954e-81692ce0b768.jpg

在經(jīng)優(yōu)化的Azure DeepSpeed堆棧上,用戶可以訓(xùn)練1兆甚至是2兆參數(shù)的超大型模型,而且無論是模型的大小和GPU數(shù)量的增加,都提供了幾乎線性的可擴(kuò)展性,微軟提到,Azure和DeepSpeed打破GPU內(nèi)存的限制,使得用戶可以更簡單地訓(xùn)練兆級(jí)參數(shù)模型。

立即登錄,閱讀全文
原文鏈接:點(diǎn)擊前往 >
文章來源:十輪網(wǎng)
版權(quán)說明:本文內(nèi)容來自于十輪網(wǎng),本站不擁有所有權(quán),不承擔(dān)相關(guān)法律責(zé)任。文章內(nèi)容系作者個(gè)人觀點(diǎn),不代表快出海對(duì)觀點(diǎn)贊同或支持。如有侵權(quán),請(qǐng)聯(lián)系管理員(zzx@kchuhai.com)刪除!
優(yōu)質(zhì)服務(wù)商推薦
更多
掃碼登錄
打開掃一掃, 關(guān)注公眾號(hào)后即可登錄/注冊(cè)
加載中
二維碼已失效 請(qǐng)重試
刷新
賬號(hào)登錄/注冊(cè)
小程序
快出海小程序
公眾號(hào)
快出海公眾號(hào)
商務(wù)合作
商務(wù)合作
投稿采訪
投稿采訪
出海管家
出海管家