新版GKE可管理最多6.5萬集群節(jié)點,超越AWS、Azure 10倍

來源:十輪網
作者:十輪網
時間:2024-11-15
2686
Google Cloud公布最新Google Kubernetes Engine版本,號稱可支持最高達65,000個節(jié)點的服務器集群,以執(zhí)行超大型AI模型。

ED6A601F-76F8-419C-9439-A6B3DD12EE0C.jpeg

Google Cloud公布最新Google Kubernetes Engine版本,號稱可支持最高達65,000個節(jié)點的服務器集群,以執(zhí)行超大型AI模型。

生成式AI技術演進及應用普及,推升了大型語言模型(LLM)規(guī)模及參數(shù)量也越來越大,目前許多已突破千億參數(shù),甚至有些來到2兆。而訓練這些大型模型的加速器,需要超過1萬個節(jié)點的運算基礎架構。

Google Kubernetes Engine(GKE)向來可支持多節(jié)點集群,以執(zhí)行AI模型訓練任務。先前版本GKE可支持1.5萬個集群節(jié)點,隨著新版推出,現(xiàn)在GKE可支持高達6.5萬個節(jié)點的集群。Google認為最新GKE支持的節(jié)點規(guī)模,是Amazon和微軟的10倍以上。

以Google Cloud而言,現(xiàn)在單一節(jié)點提供了多個加速器,像是搭載4顆芯片的Cloud TPU v5e節(jié)點,因此單一集群使用最新版GKE后,最多可管理超過25萬顆加速器。

Google說明新版GKE較前代的創(chuàng)新。首先,該公司將Key-Value數(shù)據庫由etcd換成了以Google Spanner為基礎的key-value數(shù)據庫,后者幾乎規(guī)模無上限,可改善集群運行(如啟動和更新)延遲性,及無狀態(tài)集群控制層(control plane)。Google并實例etcd API以提供回溯兼容性,使核心Kubernetes無需變更。

其次,Google改善了管理Kubernetes控制層的GKE基礎架構,使GKE現(xiàn)在擴展速度更快,改善的控制層有多重效益,包括能執(zhí)行高一致性的大容量運算??刂茖蝇F(xiàn)在能自動應對運算調節(jié),并使延遲性維持在可預測范圍。這點對執(zhí)行大移動態(tài)應用如SaaS、災難恢復和備援、批次部署以及測試環(huán)境來說尤其重要。

有了新版GKE,Google Cloud強調更能支持AI模型任務。訓練AI模型時企業(yè)需要分配計算資源給多個工作負載,因此將任務集中在少量集群可提供最大調度彈性,執(zhí)行推論、研究和訓練的作業(yè)。Google說,由于支持6.5萬個節(jié)點,現(xiàn)在GKE允許單一集群執(zhí)行5種任務,每種任務的執(zhí)行性能,都足以媲美2023年Google Cloud以5萬余顆TPU v5e,締造的10 exa-FLOPs的LLM訓練速度世界紀錄。

立即登錄,閱讀全文
原文鏈接:點擊前往 >
版權說明:本文內容來自于十輪網,本站不擁有所有權,不承擔相關法律責任。文章內容系作者個人觀點,不代表快出海對觀點贊同或支持。如有侵權,請聯(lián)系管理員(zzx@kchuhai.com)刪除!
優(yōu)質服務商推薦
更多
掃碼登錄
打開掃一掃, 關注公眾號后即可登錄/注冊
加載中
二維碼已失效 請重試
刷新
賬號登錄/注冊
個人VIP
小程序
快出海小程序
公眾號
快出海公眾號
商務合作
商務合作
投稿采訪
投稿采訪
出海管家
出海管家