一文詳解阿里云AI大基建

來源:阿里云
作者:阿里云
時間:2024-11-02
2703
面向AI時代,阿里云基礎設施是如何創(chuàng)新與發(fā)展的?計算、網(wǎng)絡、存儲、服務器、集群、可觀測等,阿里云全新升級的AI Infra到底有哪些重磅更新?

編者按:面向AI時代,阿里云基礎設施是如何創(chuàng)新與發(fā)展的?計算、網(wǎng)絡、存儲、服務器、集群、可觀測等,阿里云全新升級的AI Infra到底有哪些重磅更新?基于阿里云副總裁、彈性計算和存儲產(chǎn)品線負責人吳結(jié)生在2024云棲大會上的演講,本文詳解阿里云在AI時代的數(shù)字基礎設施大布局和新進展。

01

AI時代需要什么樣的云基礎設施?

云計算一直在踐行Scaling Law,為千行百業(yè)的數(shù)字化升級提供大規(guī)模可擴展的算力、存力及網(wǎng)絡等資源,滿足客戶業(yè)務規(guī)模的擴展、AI模型的擴展等需求。云計算讓AI變得更普惠,幫助客戶在云上更加容易使用AI技術。

目前,中國有超過50%的大模型公司跑在阿里云上,80%的科技企業(yè)運行在阿里云上。AI發(fā)展對云基礎設施提出了新要求:

首先,AI負載對計算提出了更大需求。一些前沿的大模型訓練,每一年對算力需求的增長大概有4-5倍。比如Llama-3.1-405B,對算力的需求較Llama2.0提升了50倍。IDC數(shù)據(jù)也顯示,最近幾年中國智算的算力復合增長率為33.9%。

其次,AI負載對存儲也提出了更高的需求。隨著模型參數(shù)每年10倍增長,模型的數(shù)據(jù)集每年達到50倍增長,都需要更高性能的存力。

在模型訓練過程里面,需要不停去打一些Checkpoint,大小從幾GB到幾十GB,再到今天的幾十TB,頻率從小時或者幾十分鐘,到現(xiàn)在可能每一分鐘就要打一個Checkpoint。同時,大模型文件不斷更新,怎么樣在一個大規(guī)模的環(huán)境里面去分發(fā)和同步這些模型文件,對整個存儲提出了更高的要求。

所以,隨著AI技術的發(fā)展,云計算跟AI更緊密地融合,對阿里云基礎設施提出了更高的要求。作為一個新形態(tài)的阿里云的基礎設施,要具備三個特征:

第一,大規(guī)模、高性價比的AI基礎設施,滿足訓練和推理需求。

第二,高性能、高可用的基礎設施,實現(xiàn)業(yè)務的發(fā)展,保障業(yè)務的連續(xù)性。

第三,更易用、更智能的基礎設施,提高開發(fā)效率和運維效率。

02

AI Infra要大規(guī)模、高性價比

阿里云構(gòu)建了完整的AI基礎設施,來滿足訓練和推理的規(guī)模化發(fā)展需求:

計算、存儲、網(wǎng)絡和安全等產(chǎn)品和服務,是堅實的基礎;在此之上,通過先進的容器化技術進行算力的編排和管理;進而,通過AI智算平臺PAI來進行任務調(diào)度、編譯優(yōu)化,實現(xiàn)彈性擴展、容錯以及遷移等能力,打造完整的阿里云AI技術服務棧。

1AC1088F-7DF4-4E48-8AB2-D8B554F7B778.jpeg

在這個服務棧里面,阿里云進行了全棧優(yōu)化,以提升系統(tǒng)穩(wěn)定性和計算效率,整體AI基礎設施的連續(xù)訓練有效時長達到99%,處于業(yè)界領先水平。

同時,通過通信、編譯、顯存使用等方面的優(yōu)化來提升GPU使用的效率,整個GPU的使用效率MFU(Model FLOPs Utilization)提升了20%以上。

為支撐大規(guī)模的模型訓練和推理,阿里云打造了靈駿超級智算集群,主要包含四個重要組件:靈駿計算集群、HPN高性能網(wǎng)絡、磐久AI計算服務器,以及CPFS高性能存儲集群。

靈駿計算集群提供可擴容到10萬張GPU卡規(guī)模的能力,同時在萬卡的規(guī)模下性能線性增長率達到了96%,性能網(wǎng)絡吞吐的有效使用率也達到了99%?;贑PFS,靈駿可提供20TB/S的超高吞吐并行存儲能力。

C2CE9235-4E0C-47E5-B963-38F521ADBF89.jpeg

靈駿集群采用了HPN7.0網(wǎng)絡架構(gòu)。HPN7.0架構(gòu)是一個多軌和多平面的網(wǎng)絡設計,可以支持單集群擴展到10萬張卡的規(guī)模,并提升GPU計算效率。每臺機器通過3.2Tb/s的高性能RDMA網(wǎng)絡連接,保障了在大規(guī)模GPU集群聯(lián)合的計算效率的提升。

同時,阿里云做了一系列網(wǎng)絡方面的創(chuàng)新和優(yōu)化,比如自研的Solar RDMA協(xié)議,提供了自適應的多路徑的選擇;自研HPCC的流控算法;網(wǎng)卡的自研和通信庫的優(yōu)化等等。通過這一系列網(wǎng)絡的優(yōu)化,實現(xiàn)在訓練過程中最關鍵的集群通訊能力1倍的提升、對端到端的訓練整體的性能提升10%以上的效果。

D3FB90C8-6226-4306-914C-A3AF006F0E24.jpeg

新升級磐久AI計算服務器。最新的磐久AI計算服務器支持8張或者16張GPU卡,每個服務器里面也配備了3.2Tb/s的RDMA網(wǎng)絡能力,提供高性能網(wǎng)絡,來形成一個超大規(guī)模的緊耦合的計算,提升GPU計算效率。

并且,每一臺服務器還配有另外一張400Gb/s的網(wǎng)卡,來保障高效的訪問存儲以及通過VPC訪問其他的云產(chǎn)品。

能效方面,磐久服務器使用了超鈦金電源,能效比達到了97%。同時,還研發(fā)一系列AI算法去預測GPU故障,故障預測準確率達到了92%。通過這些努力,可實現(xiàn)主動性運維或者遷移,從而達到連續(xù)訓練有效時長超過99%的高水平。

0C8FC9FB-D90A-4255-9DC3-F01660D81654.jpeg

CPFS端到端全鏈路性能提升。借助400Gb/s網(wǎng)卡以及RDMA通信的能力,CPFS可提供單個客戶端25GB/s吞吐,支持更大及更加頻繁的Checkpoint的寫,這可以更好地防止數(shù)據(jù)丟失,并提升訓練的穩(wěn)定性和可靠性。

同時,CPFS在計算側(cè)構(gòu)建了一個分布式緩存系統(tǒng)進行加速。在后端則提供了400MB/s/TiB并行擴展能力,性能隨著容量的擴展而線性擴展,在一個超大集群里可整體提供20TB/s的吞吐能力,這樣使得在大模型訓練里面可以更快打Checkpoint,或者更快讀Checkpoint,以降低意外中斷對模型訓練的整體影響。

3111FCC1-187A-46DC-A930-84A2D1332561.jpeg

另外,在今天多模態(tài)的訓練里面,可能有大量的訓練和推理數(shù)據(jù)在OSS里面,比如說客戶的圖片、視頻。CPFS既提供了相應的文件接口,同時也提供與OSS之間高效的數(shù)據(jù)流動能力,通過冷熱數(shù)據(jù)分層進一步為客戶節(jié)省成本。

03

云計算要高性能、高可用

對企業(yè)而言,云基礎設施更是保障業(yè)務連續(xù)性的關鍵。阿里云以高性能、高可用為目標,持續(xù)夯實基礎設施。

CIPU2.0全新升級

CIPU(Cloud Infrastructure Processing Unit)云基礎設施處理器,是云的產(chǎn)物,是一個云技術發(fā)展的創(chuàng)舉。從2017年開始阿里云就進行了探索,CIPU成為阿里云基礎設施的基石,也是差異化競爭力的一個來源。

最新發(fā)布的CIPU2.0,在安全、穩(wěn)定性、性能等方面全面提升。

0E5438EC-C41D-4A6F-A3D4-8146ED411891.jpeg

首先,CIPU2.0整機穩(wěn)定性提升20%,讓服務器更加穩(wěn)定;其次,CIPU2.0的帶寬從1.0的200Gb/s上升到2.0的400Gb/s,大幅提升VPC和eRDMA的能力,使得應用在云上更加高效運行;同時,EBS存儲達到了360萬IOPS,從1.0的100萬上升到360萬,整體的吞吐也從原來的20GB/s上升到50GB/s,處在業(yè)界領先水平。

并且,CIPU2.0也全方位提升彈性計算的安全能力。CIPU2.0支持了多種可信任根,同時提供數(shù)據(jù)硬件加密能力,比如VPC通信可以通過CIPU2.0加密,在整個數(shù)據(jù)中心里面數(shù)據(jù)都是加密的,而訪問EBS的數(shù)據(jù)也是通過CIPU2.0進行了加密。在這之上,CIPU2.0提供了整個可信的信任鏈以及可信的運行環(huán)境。

此外,CIPU2.0應用在GPU服務器里可提升推理效率,通過網(wǎng)絡和存儲等能力的增強,跨機推理效率也會相應提升。

ECS九代企業(yè)級實例發(fā)布

在通用計算領域,阿里云與英特爾、AMD緊密合作,基于最新芯片,融合CIPU2.0的架構(gòu),即將發(fā)布第九代ECS企業(yè)實例。與第八代英特爾實例相比,第九代g9i實例在Web應用領域性能提升了20%,在數(shù)據(jù)庫領域性能提升了17%;與第八代AMD實例相比,第九代g9a實例在大數(shù)據(jù)場景領域里面提升了20%,在搜索和推薦里面場景里面提升30%。

611DC18A-23E0-4070-94A4-98C6B70E4697.jpeg

除了X86、英特爾和AMD實例以外,阿里云也不斷在發(fā)展ARM實例,基于ARM的平頭哥倚天710服務器芯片進行全棧優(yōu)化,使得倚天在若干個典型場景里面獲得性能優(yōu)勢。比如在大數(shù)據(jù)處理Spark場景下,倚天實例與第八代X86性能相比有14%的性能優(yōu)勢;在視頻轉(zhuǎn)碼領域,有30%的性能優(yōu)勢。

容器計算為AI加速

容器改變了整個軟件開發(fā)和部署的方式,成為一個新的開發(fā)范式。阿里云提供ACS容器計算服務以及ACK容器服務,幫助客戶構(gòu)建、部署和管理容器化的應用。

容器計算服務ACS是阿里云的一個創(chuàng)新,以K8s為用戶界面,提供了一個Serverless的容器服務。

ACS提供更加彈性的和柔性的計算的實例規(guī)格,比如可以從0.25個vCPU這樣一個小規(guī)模開始,以一個比較小的步長遞進,從而更加貼近應用負載需求、降低成本;其次,創(chuàng)新支持CPU原地的熱變配,比如說當你的應用負載下降的時候,相應的資源可動態(tài)下降達到既保障性能又降低成本的效果。

ACS的彈性能力也進行了進一步的擴展,每分鐘可以進行1萬個Pod擴展。除了按量付費以外,阿里云還提供了按天的節(jié)省計劃,費用最多可節(jié)省50%以上。除此之外,今年年底,阿里云將提供基于GPU的ACS容器計算服務,進一步提升GPU的使用效率,降低成本,提高開發(fā)和運維的效率。

6E0AC80C-ECC1-413D-ADA4-ADFDECE4F604.jpeg

ACK容器服務能力全面升級。首先結(jié)合分布式緩存Fluid,以及ACR容器鏡像服務P2P分發(fā)能力,大規(guī)模訓練冷啟動時間降低85%以上。容器服務也深度集成了ECS的彈性RDMA的能力,總體上容器網(wǎng)絡的吞吐提升了30%。通過ACK擴展節(jié)點進行了一系列優(yōu)化,彈性擴容的效率提升了25%。同時,優(yōu)化K8s管控鏈,整體上ACK可以去管控15,000個計算節(jié)點的規(guī)模。

5A2F51A2-E671-4B11-8EB5-6F45A666C648.jpeg

存儲面向AI深度優(yōu)化

在存儲領域,阿里云對象存儲OSS面向不同計算引擎、面向多種AI框架進行了深度的集成,形成了統(tǒng)一的存儲。

OSS對象存儲上跑有2萬多個數(shù)據(jù)湖,可支持十余個不同的計算引擎及AI框架。OSS提供不同類型的冷、熱、歸檔存儲,并提供自動的Lifecycle(生命周期的管理)實現(xiàn)數(shù)據(jù)流轉(zhuǎn),實現(xiàn)成本優(yōu)化。除此之外,OSS針對AI及機器學習進行大量優(yōu)化,并與大量開源分析引擎、阿里云分析產(chǎn)品等進行集成,實現(xiàn)了高性能和簡單方便的集成。

D4212EAD-2F1C-47F9-AED6-478F638322DD.jpeg

面向AI/ML負載,OSS進一步優(yōu)化,并推出4個不同的能力:

第一,升級了整體上SDK的能力,特別對Python和Go語言的SDK,性能提高30倍以上;

第二,OSS通過OSSFS提供了一個文件接口的訪問,直讀模式性能提升了3~6倍,給中小模型文件的訓練或者推理提供一個很好的選擇;

第三,在OSS服務端提供OSS加速器,能夠把一些熱的數(shù)據(jù)放到OSS加速器里面,可以分發(fā)到更多的機器上面去;

第四,OSS也做了很多AI框架的連接器,能夠讓更多數(shù)據(jù)的預處理、數(shù)據(jù)的打標、小模型的訓練和推理變高效。

59DDE71E-C026-4BF3-9F66-02B0D9419BF5.jpeg

隨著AI技術和應用的發(fā)展,使用OSS的模式發(fā)生了改變,OSS全新推出資源池QoS能力。一個常見的場景是客戶有多種不同的數(shù)據(jù),分布在不同的存儲桶(Bucket)里面,被多個業(yè)務方共享。這里需要提供多個桶之間性能的共享,但同時又保障不同業(yè)務的性能的隔離。

OSS提供了資源池QoS功能,一方面多個存儲桶形成一個資源池,共享疊加的性能;另一方面,靈活配置QoS策略,降低各個業(yè)務之間的相互影響。

高性能網(wǎng)絡持續(xù)演進

在云網(wǎng)絡方面,穩(wěn)定的高性能至關重要,阿里云是如何破解高性能的穩(wěn)定性難題的?這里重點介紹一個跨區(qū)域的主動式重路由的技術。

當網(wǎng)絡通信有擾動產(chǎn)生時,系統(tǒng)會主動監(jiān)測出來,然后去把它重新路由到另外一條路徑上去。去年阿里云發(fā)布了跨區(qū)域的主動式重路由技術。現(xiàn)在,這一技術已運用到跨數(shù)據(jù)中心的通信里面來,從而在跨數(shù)據(jù)中心通信上,實現(xiàn)秒級內(nèi)重新路由,提供一個更加穩(wěn)定的網(wǎng)絡通信延遲。

A938B355-3BC7-4054-B974-97B1A650A4C5.jpeg

04

讓基礎設施更易用、更智能

云計算既為企業(yè)提供服務,同時也為開發(fā)者設計,用戶的開發(fā)體驗、開發(fā)效率、運維效率至關重要。阿里云不斷演進基礎設施、產(chǎn)品和服務,使其更易用、更智能。

控制臺是用戶上云第一入口。近年來,阿里云在控制臺操作的簡易性、效率等方面作了大量優(yōu)化,讓用戶在使用控制臺的時候有更好的體驗。同時,推出多種AI助手,進行智能推薦和智能問答。此外,還提供了Infrastructure as Code等能力,通過構(gòu)建更多的CloudOps工具,來幫助客戶提升部署、管理和運維的效率。

對企業(yè)和開發(fā)者而言,會非常關心兩件事情:第一件事情是自己的應用跑得怎么樣?第二件事是使用阿里云的產(chǎn)品和服務,性能、容量、規(guī)模到底怎么樣?這是可觀測性的關注重點。通過一系列的CloudLens的服務,阿里云幫助客戶分析可用性、性能、成本、容量、安全等,從而提升運維效率、提高業(yè)務系統(tǒng)穩(wěn)定性、降低成本。

C5946190-9007-4DBB-8D62-4BC25053DBE1.jpeg

立即登錄,閱讀全文
原文鏈接:點擊前往 >
版權說明:本文內(nèi)容來自于阿里云,本站不擁有所有權,不承擔相關法律責任。文章內(nèi)容系作者個人觀點,不代表快出海對觀點贊同或支持。如有侵權,請聯(lián)系管理員(zzx@kchuhai.com)刪除!
優(yōu)質(zhì)服務商推薦
更多
個人VIP