IBM在自家云上打造相當(dāng)全球第15快的AI超級(jí)計(jì)算機(jī)

來(lái)源:十輪網(wǎng)
作者:十輪網(wǎng)
時(shí)間:2023-02-27
1491
IBM已經(jīng)有2座全球前10大的超級(jí)計(jì)算機(jī)系統(tǒng),如Summit和Sierra,但隨著企業(yè)轉(zhuǎn)向以云計(jì)算為主的IT基礎(chǔ)架構(gòu),藍(lán)色巨人也亟欲展示其云計(jì)算服務(wù)的能力。

IBM已經(jīng)有2座全球前10大的超級(jí)計(jì)算機(jī)系統(tǒng),如Summit和Sierra,但隨著企業(yè)轉(zhuǎn)向以云計(jì)算為主的IT基礎(chǔ)架構(gòu),藍(lán)色巨人也亟欲展示其云計(jì)算服務(wù)的能力。IBM研究院本周公布去年在自家IBM Cloud上創(chuàng)建專(zhuān)為執(zhí)行人工智能(AI)應(yīng)用的云計(jì)算超級(jí)計(jì)算機(jī)Vela,其速度相當(dāng)于全球第15大的超級(jí)計(jì)算機(jī)。

IBM指出,超級(jí)計(jì)算機(jī)和AI本來(lái)屬于兩種不同領(lǐng)域;超級(jí)計(jì)算機(jī)多半是創(chuàng)建在裸機(jī)節(jié)點(diǎn)、高性能網(wǎng)絡(luò)硬件(如InfiniBand、Omnipath和Slingshot)、平行文件系統(tǒng)及其他高性能計(jì)算(HPC)組件。但超級(jí)計(jì)算機(jī)并非為AI設(shè)計(jì),而是為了建?;蚰M任務(wù),如執(zhí)行大氣變化模擬、材料開(kāi)發(fā)或蛋白質(zhì)折疊等醫(yī)療研究。如果要用于執(zhí)行AI模型創(chuàng)建,傳統(tǒng)設(shè)計(jì)會(huì)使這類(lèi)“AI超級(jí)計(jì)算機(jī)”的建造成本大為增加,且限制部署彈性。IBM研究院去年就在IBM Cloud上打造了第一臺(tái)云計(jì)算原生、為AI優(yōu)化的“AI超級(jí)計(jì)算機(jī)”Vela,專(zhuān)門(mén)用于大量部署AI應(yīng)用任務(wù),而且已在2022年5月上線運(yùn)行。

Cloud_blog_Final_01_61eb91d091.jpg

圖片來(lái)源/IBM

IBM說(shuō)明,Vela解決了性能及部署彈性的兩難。在選擇AI超級(jí)計(jì)算機(jī)基礎(chǔ)架構(gòu)上,IBM選擇將節(jié)點(diǎn)配置為VM(virtual machine),而非配置為裸機(jī),理由是前者更有彈性,可利用OpenShift在幾分鐘內(nèi)動(dòng)態(tài)擴(kuò)大或縮減AI集群或?qū)⒂?jì)算資源在不同工作負(fù)載之間轉(zhuǎn)移。但團(tuán)隊(duì)面臨的挑戰(zhàn)是在VM環(huán)境下配置出裸機(jī)般的性能。

Vela每個(gè)節(jié)點(diǎn)具備80GB A100 GPU,2顆第2代Intel Xeon Scalable處理器(Cascade Lake)、1.5TB DRAM及4個(gè)3.2 TB NVMe磁盤(pán),IBM表示,超大內(nèi)存及存儲(chǔ)空間是為了能訓(xùn)練大型模型。為支持分布式訓(xùn)練,運(yùn)算節(jié)點(diǎn)之間以多道100G網(wǎng)絡(luò)適配器相連,且使用IBM Cloud的VPN網(wǎng)絡(luò)功能,確保連接安全性。

IBM表示,在IBM研究院和PyTorch的合作項(xiàng)目中,使用80GB內(nèi)存使團(tuán)隊(duì)得以使用更大批次資料,以及Meta的FSDP(Fully Shared Date Parallel)訓(xùn)練策略,進(jìn)行分布式訓(xùn)練任務(wù),效率提升到高達(dá)90%以上,總參數(shù)超過(guò)100億個(gè)。

此外,由于支持VM擴(kuò)展(Virtual Machine Extensions,VMX)、Single-root IO virtualization(SR-IOV)及大量頁(yè)面的裸機(jī)配置,使Vela的VM整體性能耗損減到低于5%。IBM說(shuō)這是他們已知最低的耗損率,也讓其AI超級(jí)計(jì)算機(jī)性能逼近裸機(jī)。IBM研究院希望展現(xiàn),在標(biāo)準(zhǔn)的以太網(wǎng)絡(luò)云計(jì)算基礎(chǔ)架構(gòu)上,也能輕易執(zhí)行數(shù)十億參數(shù)的AI模型。

The Next Platform估計(jì),以Vela現(xiàn)有規(guī)格,其基準(zhǔn)測(cè)試的性能可達(dá)每秒27.9 petaflops,若按2022年11月最新的全球五百大計(jì)算機(jī)排行,約等同于全球第15大。

立即登錄,閱讀全文
原文鏈接:點(diǎn)擊前往 >
版權(quán)說(shuō)明:本文內(nèi)容來(lái)自于十輪網(wǎng),本站不擁有所有權(quán),不承擔(dān)相關(guān)法律責(zé)任。文章內(nèi)容系作者個(gè)人觀點(diǎn),不代表快出海對(duì)觀點(diǎn)贊同或支持。如有侵權(quán),請(qǐng)聯(lián)系管理員(zzx@kchuhai.com)刪除!
優(yōu)質(zhì)服務(wù)商推薦
更多
個(gè)人VIP