IBM聯(lián)合PyTorch大幅改進(jìn)在云計(jì)算訓(xùn)練大型AI模型的效率

來(lái)源：十輪網(wǎng)

作者：十輪網(wǎng)

時(shí)間：2022-11-22

IBM研究院與PyTorch合作，發(fā)展一個(gè)稱作rate_limiter的控件，能夠通過(guò)配置訓(xùn)練時(shí)的內(nèi)存，使得具有數(shù)十億參數(shù)的模型，也能夠在標(biāo)準(zhǔn)云計(jì)算網(wǎng)絡(luò)基礎(chǔ)設(shè)施，像是以太網(wǎng)絡(luò)上運(yùn)行。

當(dāng)前的人工智能模型，只要使用簡(jiǎn)單的文本題事，就能創(chuàng)造出圖像、歌曲甚至是網(wǎng)站，而這種具有數(shù)十億參數(shù)的模型，被稱為基礎(chǔ)模型，不需要大量時(shí)長(zhǎng)的訓(xùn)練與標(biāo)記，基礎(chǔ)模型就可以被簡(jiǎn)單地重新用于另一項(xiàng)任務(wù)。

基礎(chǔ)模型主要在高端的高性能計(jì)算（HPC）基礎(chǔ)設(shè)施上運(yùn)行，雖然這些系統(tǒng)很可靠，但I(xiàn)BM提到，對(duì)于許多想要自己訓(xùn)練基礎(chǔ)模型，并且僅供自己使用的人來(lái)說(shuō)，HPC設(shè)備是一個(gè)極高的門(mén)檻，包括高端GPU搭配低延遲InfiniBand網(wǎng)絡(luò)系統(tǒng)，以及各種專門(mén)的操作流程等。

而IBM研究人員與PyTorch分布式團(tuán)隊(duì)合作，尋找出可在網(wǎng)絡(luò)硬件上，訓(xùn)練大型人工智能模型的方法，而這個(gè)聯(lián)合小組也已經(jīng)驗(yàn)證，可以在Red Hat的OpenShift平臺(tái)上，使用基于以太網(wǎng)絡(luò)的常規(guī)網(wǎng)絡(luò)，來(lái)擴(kuò)展和訓(xùn)練大型模型。

使用PyTorch的完全分片資料平行技術(shù)（FSDP），該團(tuán)隊(duì)可以在IBM Cloud上的標(biāo)準(zhǔn)以太網(wǎng)絡(luò)，訓(xùn)練具有110億參數(shù)的模型，實(shí)現(xiàn)與HPC網(wǎng)絡(luò)系統(tǒng)同等規(guī)模的高效率訓(xùn)練。研究人員提到，過(guò)去嘗試使用以太網(wǎng)絡(luò)，在PyTorch上訓(xùn)練數(shù)十億參數(shù)的模型，但是效果不佳，遠(yuǎn)低于訓(xùn)練基礎(chǔ)模型所需要的性能，隨著模型規(guī)模增長(zhǎng)，只有當(dāng)GPU能夠完整包存模型副本和訓(xùn)練狀態(tài)時(shí)，資料平行訓(xùn)練的標(biāo)準(zhǔn)方法才能發(fā)揮作用。

雖然FSDP或DeepSpeed等新方法可以在訓(xùn)練期間，有效地將模型和資料分散到多個(gè)GPU上，但也只限于HPC系統(tǒng)，而無(wú)法在由以太網(wǎng)絡(luò)連接的系統(tǒng)上運(yùn)行。為此，聯(lián)合研究團(tuán)隊(duì)開(kāi)發(fā)了一個(gè)FSDP API，并構(gòu)建rate_limiter控件，該組件可以控制用于發(fā)送和接收張量所使用的內(nèi)存，進(jìn)而緩解系統(tǒng)的內(nèi)存壓力，使效率較之前提高達(dá)4.5倍。

這項(xiàng)研究使用的基礎(chǔ)設(shè)施為現(xiàn)成的硬件，該系統(tǒng)在IBM Cloud上運(yùn)行，由200個(gè)節(jié)點(diǎn)組成，每個(gè)節(jié)點(diǎn)有8張Nvidia A100 80GB顯卡，與96 vCPU、1.2TB CPU內(nèi)存，節(jié)點(diǎn)內(nèi)的顯卡以NVLink連接，顯卡之間帶寬為600 GBps，而節(jié)點(diǎn)之間通過(guò)兩條100 Gbps以太網(wǎng)絡(luò)連接，提供120 GBps可用帶寬。

該GPU系統(tǒng)自5月來(lái)持續(xù)運(yùn)行，研究人員配置Red Hat OpenShift容器平臺(tái)執(zhí)行人工智能負(fù)載，用于大型人工智能模型的端到端訓(xùn)練、微調(diào)和推理。研究人員提到，這是目前該產(chǎn)業(yè)中，第一個(gè)使用Kubernetes、PyTorch FSDP API和標(biāo)準(zhǔn)以太網(wǎng)絡(luò)，高效率實(shí)現(xiàn)高達(dá)110億個(gè)參數(shù)模型的用例，而這將有助于其他組織以更具成本效益的方式，在云計(jì)算訓(xùn)練大型模型。

AI IBM Cloud 云計(jì)算

上一篇：經(jīng)歷挫折的Playtika，如何重返增長(zhǎng)渠道？

原文鏈接：點(diǎn)擊前往 >

版權(quán)說(shuō)明：本文內(nèi)容來(lái)自于十輪網(wǎng)，本站不擁有所有權(quán)，不承擔(dān)相關(guān)法律責(zé)任。文章內(nèi)容系作者個(gè)人觀點(diǎn)，不代表快出海對(duì)觀點(diǎn)贊同或支持。如有侵權(quán)，請(qǐng)聯(lián)系管理員（zzx@kchuhai.com）刪除！

相關(guān)文章

IBM Security+Storage，為企業(yè)打造新質(zhì)、安全的IT彈性

“五一“假期將至，不論人們選擇出門(mén)旅行還是走親訪友，都不免會(huì)產(chǎn)生各種開(kāi)銷(xiāo)，而且大多是網(wǎng)上購(gòu)物和電子支付”。

IBM

IBM Cloud

2024-05-02

IBM斥資1.87億加元擴(kuò)建加拿大工廠，滿足北美半導(dǎo)體封測(cè)需求

IBM近日宣布同加拿大聯(lián)邦政府和魁北克省政府達(dá)成協(xié)議，計(jì)劃在加拿大投資1.87億加元（IT之家備注：當(dāng)前約9.93億元人民幣），提升其布羅蒙（Bromont）封測(cè)工廠的產(chǎn)能和技術(shù)水平。

IBM

IBM Cloud

2024-04-28

企業(yè)級(jí)AI應(yīng)用迎來(lái)“黃金時(shí)代”，專業(yè)咨詢助力是實(shí)現(xiàn)價(jià)值飛躍的關(guān)鍵

隨著生成式AI技術(shù)的到來(lái)，企業(yè)對(duì)AI的應(yīng)用開(kāi)啟了一個(gè)新的篇章，也將迎來(lái)新的“黃金時(shí)代”。

IBM

IBM Cloud

2024-01-04

數(shù)據(jù)安全是剎車(chē)？還是加速？

一位資深的賽車(chē)手曾經(jīng)說(shuō)過(guò)，“剎車(chē)不僅僅是用來(lái)減速的，相反，剎車(chē)可以幫助經(jīng)驗(yàn)豐富的賽車(chē)手開(kāi)得更快?！?/div>

IBM云計(jì)算提供可信的解決方案，可以在任何地方安全地管理所有應(yīng)用程序和數(shù)據(jù)，了解行業(yè)專家為何與IBM?云計(jì)算合作，讓企業(yè)更智慧。

329

文章數(shù)

297.3W+

瀏覽量

116

粉絲

+ 關(guān)注

熱門(mén)文章

PhotonPay光子易&Discover Network

2025-08-14

2025年7月成功出海的中國(guó)手游 - 《Whiteout Survival》與《Kingshot》成功會(huì)師收入榜TOP2

2025-08-13

東南亞還是蝦皮說(shuō)了算，7月東南亞跨境電商Shopee、Lazada、TikTok Shop平臺(tái)訪問(wèn)量數(shù)據(jù)公布

2025-08-13

美的非洲布局背后，家電企業(yè)的新出海路徑

2025-08-13

優(yōu)質(zhì)服務(wù)商推薦

dLocal LLP

dLocal 在新興市場(chǎng)提供本地支付服務(wù)，連接全球企業(yè)商家與亞太地區(qū)、中東、拉丁美洲和非洲數(shù)十億新興市場(chǎng)消費(fèi)者。通過(guò)“一站式 dLocal”理念（一個(gè)直接 API、一個(gè)平臺(tái)和一個(gè)合同），全球公司無(wú)需管理多個(gè)本地實(shí)體和集成，即可接受支付、發(fā)送付款并在全球范圍內(nèi)結(jié)算資金。

本地支付

CCPayment

CCPayment 創(chuàng)立于2015年，是一家全球領(lǐng)先的加密支付服務(wù)商，支持900多種代幣，服務(wù)覆蓋加密代收、加密代付、多幣種結(jié)算與匯兌管理等，致力于為企業(yè)提供高效、安全、低成本的加密支付解決方案，平臺(tái)支持多種支付模式，集成便捷，并通過(guò)加密與風(fēng)控技術(shù)全面保障資金安全，助力企業(yè)快速出海。

收款

PhotonPay光子易

光子易（PhotonPay）是一家領(lǐng)先的全球支付平臺(tái)及數(shù)字金融基礎(chǔ)設(shè)施提供商，服務(wù)覆蓋全球賬戶、全球發(fā)卡、全球收單、全球分發(fā)、匯兌管理和嵌入式金融等領(lǐng)域，致力于為全球企業(yè)提供安全、高效的數(shù)字化支付解決方案。

本地支付

收款

公司簡(jiǎn)介

快出海是國(guó)內(nèi)領(lǐng)先的互聯(lián)網(wǎng)出海合作平臺(tái)，通過(guò)整合行業(yè)優(yōu)質(zhì)資源，為出海企業(yè)提供產(chǎn)品展示和資源對(duì)接平臺(tái)，助力中國(guó)互聯(lián)網(wǎng)企業(yè)走向全球。查看更多>

公司簡(jiǎn)介

聯(lián)系我們免責(zé)申明合作伙伴

關(guān)注我們

微信訂閱號(hào)>