Google周四(12/7)發(fā)布了新的張量處理器(Tensor Processing Unit)Cloud TPU v5p、超級(jí)計(jì)算機(jī)架構(gòu)AI Hypercomputer,以及資源管理工具Dynamic Workload Scheduler,以協(xié)助組織執(zhí)行與處理AI任務(wù)。
Google始于今年11月推出Cloud TPU v5e,再于本周發(fā)布Cloud TPU v5p,前者強(qiáng)調(diào)的是成本效益,后者號(hào)稱是迄今最強(qiáng)大的TPU。每個(gè)TPU v5p pod具備8,960個(gè)芯片,芯片間的互聯(lián)速度達(dá)4,800 Gbps,相較于上一代的TPU v4,Cloud TPU v5p提供了2倍的FLOPS與3倍的高帶寬內(nèi)存(HBM)。
由于Cloud TPU v5p是性能取向,因此在訓(xùn)練大型LLM模型時(shí)的速度,比TPU v4快了2.8倍,在第二代SparseCores的幫助下,TPU v5p訓(xùn)練嵌入式密集模型的速度,也比TPU v4快了1.9倍。
至于AI Hypercomputer則是個(gè)超級(jí)計(jì)算機(jī)架構(gòu),它集成了優(yōu)化性能的硬件、開源軟件、主要的各種機(jī)器學(xué)習(xí)框架,以及靈活的消費(fèi)模式。Google解釋,傳統(tǒng)上通常借由強(qiáng)化分散的組件來(lái)處理嚴(yán)苛要求的AI任務(wù),然而,AI Hypercomputer則是利用系統(tǒng)上的協(xié)同設(shè)計(jì)來(lái)提高AI在訓(xùn)練、微調(diào)與服務(wù)上的效率及生產(chǎn)力。
在硬件性能的優(yōu)化上,AI Hypercomputer具備基于超大規(guī)模數(shù)據(jù)中心基礎(chǔ)設(shè)施在運(yùn)算、存儲(chǔ)與網(wǎng)絡(luò)設(shè)備的優(yōu)化設(shè)計(jì);也允許開發(fā)者通過(guò)開源軟件來(lái)訪問相關(guān)硬件,以微調(diào)與管理AI任務(wù),包括支持JAX、TensorFlow與PyTorch等機(jī)器學(xué)習(xí)框架,以及Multislice Training與Multihost Inferencing等軟件,并深度集成了Google Kubernetes Engine(GKE)與Google Compute Engine。
AI Hypercomputer提供了更靈活的消費(fèi)模式,除了特定用量的折扣(Committed Use Discounts,CUD),以及隨選(On-Demand)與競(jìng)價(jià)(Spot)之外,AI Hypercomputer也借由全新的Dynamic Workload Scheduler,來(lái)提供專為AI任務(wù)設(shè)計(jì)的兩種消費(fèi)模式,F(xiàn)lex Start與Calendar。
Dynamic Workload Scheduler為一資源管理及任務(wù)調(diào)度平臺(tái),它支持Cloud TPU與Nvidia GPU,可同時(shí)調(diào)度所需的所有加速器來(lái)協(xié)助用戶優(yōu)化支出。其中的Flex Start主要用來(lái)微調(diào)模型、實(shí)驗(yàn)、較短的訓(xùn)練任務(wù)、蒸餾、脫機(jī)推理及批次任務(wù),并在準(zhǔn)備執(zhí)行請(qǐng)求GPU與TPU容量,是一種相對(duì)經(jīng)濟(jì)的選擇。
而Calendar模式則可替AI任務(wù)預(yù)留開始時(shí)間,適用于需要精確開始時(shí)間,與特定持續(xù)期間的訓(xùn)練及實(shí)驗(yàn)性任務(wù),可于該固定時(shí)間的區(qū)域中請(qǐng)求GPU容量,所持續(xù)的期間可以是7天或14天,最早可提前8周購(gòu)買。
圖片來(lái)源/Google Cloud