Google云計算更新HPC工具包,加速AI和機器學(xué)習(xí)計算資源配置

來源:十輪網(wǎng)
作者:十輪網(wǎng)
時間:2023-11-15
2994
Google云計算更新去年所推出的HPC工具包,不僅能夠支持HPC使用案例,現(xiàn)在也可更好地支持人工智能和機器學(xué)習(xí)的工作負載,供用戶簡單部署人工智能運算環(huán)境。

cloud_hpc_toolkit_google_cloud.jpg

Google云計算更新去年所推出的HPC工具包,不僅能夠支持HPC使用案例,現(xiàn)在也可更好地支持人工智能和機器學(xué)習(xí)的工作負載,供用戶簡單部署人工智能運算環(huán)境。HPC工具包是一組開源工具和資源,簡化重復(fù)創(chuàng)建HPC運算環(huán)境的任務(wù),用戶可以通過現(xiàn)有HPC藍圖,或是在YAML文件新建藍圖,在數(shù)分鐘內(nèi)迅速啟動并執(zhí)行HPC集群。

Google發(fā)現(xiàn)客戶會在傳統(tǒng)的HPC集群上,使用像是Nvidia NeMo人工智能和機器學(xué)習(xí)框架,大規(guī)模定制化和部署模型。因此Google現(xiàn)在改進HPC工具包,應(yīng)對HPC系統(tǒng)與人工智能/機器學(xué)習(xí)工作負載融合帶來的部署挑戰(zhàn),讓用戶只要使用HPC工具包,就可以通過鼠標點擊迅速設(shè)置HPC環(huán)境,開始在Nvidia GPU上訓(xùn)練大型語言模型。

HPC工具包擁有幾個關(guān)鍵組件,包括HPC藍圖(Blueprint)、HPC模塊、ghpc引擎和HPC部署文件夾。HPC藍圖是一種用YAML文件格式定義的配置文件,其詳細指定了所要使用的HPC模塊,以及定制化這些模塊的方法。而HPC模塊則由Terraform和Packer配置文件組成,是構(gòu)建部署文件夾的基本組成。ghpc引擎則是Google的開源工具,會使用HPC藍圖以及不同的HPC模塊,產(chǎn)生HPC部署文件夾,該文件夾為自包含,具有部署完整HPC集群需要的所有元素。

在本次更新中,Google強化HPC工具包對人工智能工作負載的支持,官方指出,他們與Nvidia一起開發(fā)了人工智能和機器學(xué)習(xí)藍圖,藍圖提供預(yù)配置分割區(qū),支持包括G2、A2和A3三種不同的Nvidia GPU虛擬機類型。

此外,該系統(tǒng)以Google的Ubuntu深度學(xué)習(xí)虛擬機鏡像文件為基礎(chǔ),并且包含了NCCL(Nvidia Collective Communications Library)Fast Socket優(yōu)化,可以提升分布式運算環(huán)境中的網(wǎng)絡(luò)通信效率。而且Google通過在藍圖中捆綁enroot容器工具,和適用于Slurm工作負載調(diào)度程序的Pyxis擴展組件,讓用戶能夠無縫集成非特權(quán)容器,并在Slurm任務(wù)中指定使用該容器。

通過運用Google云計算的HPC工具包,開發(fā)者可以快速創(chuàng)建和部署遵循最佳實踐的云計算環(huán)境,并集成Cloud Monitoring,進行監(jiān)控與獲得性能可見性。而且HPC工具包也與Google的合作伙伴解決方案與技術(shù)集成,因此能夠結(jié)合DAOS、DDN EXAscaler等存儲系統(tǒng),以及Slurm工作負載調(diào)度程序一起使用,高效處理大量數(shù)據(jù)和復(fù)雜計算任務(wù)。

立即登錄,閱讀全文
原文鏈接:點擊前往 >
版權(quán)說明:本文內(nèi)容來自于十輪網(wǎng),本站不擁有所有權(quán),不承擔相關(guān)法律責任。文章內(nèi)容系作者個人觀點,不代表快出海對觀點贊同或支持。如有侵權(quán),請聯(lián)系管理員(zzx@kchuhai.com)刪除!
優(yōu)質(zhì)服務(wù)商推薦
更多
個人VIP