新版GKE可管理最多6.5萬集群節(jié)點(diǎn),超越AWS、Azure 10倍

來源:十輪網(wǎng)
作者:十輪網(wǎng)
時(shí)間:2024-11-15
2459
Google Cloud公布最新Google Kubernetes Engine版本,號(hào)稱可支持最高達(dá)65,000個(gè)節(jié)點(diǎn)的服務(wù)器集群,以執(zhí)行超大型AI模型。

ED6A601F-76F8-419C-9439-A6B3DD12EE0C.jpeg

Google Cloud公布最新Google Kubernetes Engine版本,號(hào)稱可支持最高達(dá)65,000個(gè)節(jié)點(diǎn)的服務(wù)器集群,以執(zhí)行超大型AI模型。

生成式AI技術(shù)演進(jìn)及應(yīng)用普及,推升了大型語言模型(LLM)規(guī)模及參數(shù)量也越來越大,目前許多已突破千億參數(shù),甚至有些來到2兆。而訓(xùn)練這些大型模型的加速器,需要超過1萬個(gè)節(jié)點(diǎn)的運(yùn)算基礎(chǔ)架構(gòu)。

Google Kubernetes Engine(GKE)向來可支持多節(jié)點(diǎn)集群,以執(zhí)行AI模型訓(xùn)練任務(wù)。先前版本GKE可支持1.5萬個(gè)集群節(jié)點(diǎn),隨著新版推出,現(xiàn)在GKE可支持高達(dá)6.5萬個(gè)節(jié)點(diǎn)的集群。Google認(rèn)為最新GKE支持的節(jié)點(diǎn)規(guī)模,是Amazon和微軟的10倍以上。

以Google Cloud而言,現(xiàn)在單一節(jié)點(diǎn)提供了多個(gè)加速器,像是搭載4顆芯片的Cloud TPU v5e節(jié)點(diǎn),因此單一集群使用最新版GKE后,最多可管理超過25萬顆加速器。

Google說明新版GKE較前代的創(chuàng)新。首先,該公司將Key-Value數(shù)據(jù)庫由etcd換成了以Google Spanner為基礎(chǔ)的key-value數(shù)據(jù)庫,后者幾乎規(guī)模無上限,可改善集群運(yùn)行(如啟動(dòng)和更新)延遲性,及無狀態(tài)集群控制層(control plane)。Google并實(shí)例etcd API以提供回溯兼容性,使核心Kubernetes無需變更。

其次,Google改善了管理Kubernetes控制層的GKE基礎(chǔ)架構(gòu),使GKE現(xiàn)在擴(kuò)展速度更快,改善的控制層有多重效益,包括能執(zhí)行高一致性的大容量運(yùn)算??刂茖蝇F(xiàn)在能自動(dòng)應(yīng)對(duì)運(yùn)算調(diào)節(jié),并使延遲性維持在可預(yù)測(cè)范圍。這點(diǎn)對(duì)執(zhí)行大移動(dòng)態(tài)應(yīng)用如SaaS、災(zāi)難恢復(fù)和備援、批次部署以及測(cè)試環(huán)境來說尤其重要。

有了新版GKE,Google Cloud強(qiáng)調(diào)更能支持AI模型任務(wù)。訓(xùn)練AI模型時(shí)企業(yè)需要分配計(jì)算資源給多個(gè)工作負(fù)載,因此將任務(wù)集中在少量集群可提供最大調(diào)度彈性,執(zhí)行推論、研究和訓(xùn)練的作業(yè)。Google說,由于支持6.5萬個(gè)節(jié)點(diǎn),現(xiàn)在GKE允許單一集群執(zhí)行5種任務(wù),每種任務(wù)的執(zhí)行性能,都足以媲美2023年Google Cloud以5萬余顆TPU v5e,締造的10 exa-FLOPs的LLM訓(xùn)練速度世界紀(jì)錄。

立即登錄,閱讀全文
原文鏈接:點(diǎn)擊前往 >
文章來源:十輪網(wǎng)
版權(quán)說明:本文內(nèi)容來自于十輪網(wǎng),本站不擁有所有權(quán),不承擔(dān)相關(guān)法律責(zé)任。文章內(nèi)容系作者個(gè)人觀點(diǎn),不代表快出海對(duì)觀點(diǎn)贊同或支持。如有侵權(quán),請(qǐng)聯(lián)系管理員(zzx@kchuhai.com)刪除!
相關(guān)文章
新版GKE可管理最多6.5萬集群節(jié)點(diǎn),超越AWS、Azure 10倍
新版GKE可管理最多6.5萬集群節(jié)點(diǎn),超越AWS、Azure 10倍
Google Cloud公布最新Google Kubernetes Engine版本,號(hào)稱可支持最高達(dá)65,000個(gè)節(jié)點(diǎn)的服務(wù)器集群,以執(zhí)行超大型AI模型。
Google Cloud
云服務(wù)
云計(jì)算
2024-11-15
Google Cloud細(xì)說AI變現(xiàn)途徑:用戶一年暴增10倍
Google Cloud細(xì)說AI變現(xiàn)途徑:用戶一年暴增10倍
Google云計(jì)算平臺(tái)(Google Cloud)首席執(zhí)行官Thomas Kurian在高盛舉行的會(huì)議上,說明了該公司究竟是通過哪些途徑將AI變現(xiàn)。
Google Cloud
谷歌云
云計(jì)算
2024-09-13
云計(jì)算平臺(tái)GCP的服務(wù)存在權(quán)限提升漏洞,未經(jīng)授權(quán)的攻擊者可借此訪問敏感數(shù)據(jù)
云計(jì)算平臺(tái)GCP的服務(wù)存在權(quán)限提升漏洞,未經(jīng)授權(quán)的攻擊者可借此訪問敏感數(shù)據(jù)
7月24日安全企業(yè)Tenable披露影響Google Cloud Platform(GCP)的權(quán)限提升漏洞ConfusedFunction,這項(xiàng)弱點(diǎn)發(fā)生在名為Cloud Functions的無服務(wù)器運(yùn)算服務(wù),以及稱作Cloud Build的CICD渠道服務(wù)。
Google Cloud
谷歌云
云計(jì)算
2024-07-27
Gemini為核心,Google云計(jì)算AI戰(zhàn)略聚焦云服務(wù)和生產(chǎn)力GAI
Gemini為核心,Google云計(jì)算AI戰(zhàn)略聚焦云服務(wù)和生產(chǎn)力GAI
過去一年,企業(yè)GAI應(yīng)用的風(fēng)潮席卷全球,成了三大公有云積極搶攻的新戰(zhàn)場(chǎng),微軟靠著OpenAI助攻,去年在這場(chǎng)云計(jì)算GAI大戰(zhàn)中取得先機(jī),而Google后來居上,靠著自家PaLM模型和GAI生產(chǎn)力工具來迎戰(zhàn),AWS則是到去年底年會(huì)上,對(duì)于企業(yè)GAI應(yīng)用布局才有比較完整的布局與披露。
Google Cloud
谷歌云
云計(jì)算
2024-05-04
優(yōu)質(zhì)服務(wù)商推薦
更多
掃碼登錄
打開掃一掃, 關(guān)注公眾號(hào)后即可登錄/注冊(cè)
加載中
二維碼已失效 請(qǐng)重試
刷新
賬號(hào)登錄/注冊(cè)
小程序
快出海小程序
公眾號(hào)
快出海公眾號(hào)
商務(wù)合作
商務(wù)合作
投稿采訪
投稿采訪
出海管家
出海管家