Google云計算更新去年所推出的HPC工具包,不僅能夠支持HPC使用案例,現(xiàn)在也可更好地支持人工智能和機器學(xué)習(xí)的工作負(fù)載,供用戶簡單部署人工智能運算環(huán)境。HPC工具包是一組開源工具和資源,簡化重復(fù)創(chuàng)建HPC運算環(huán)境的任務(wù),用戶可以通過現(xiàn)有HPC藍(lán)圖,或是在YAML文件新建藍(lán)圖,在數(shù)分鐘內(nèi)迅速啟動并執(zhí)行HPC集群。
Google發(fā)現(xiàn)客戶會在傳統(tǒng)的HPC集群上,使用像是Nvidia NeMo人工智能和機器學(xué)習(xí)框架,大規(guī)模定制化和部署模型。因此Google現(xiàn)在改進(jìn)HPC工具包,應(yīng)對HPC系統(tǒng)與人工智能/機器學(xué)習(xí)工作負(fù)載融合帶來的部署挑戰(zhàn),讓用戶只要使用HPC工具包,就可以通過鼠標(biāo)點擊迅速設(shè)置HPC環(huán)境,開始在Nvidia GPU上訓(xùn)練大型語言模型。
HPC工具包擁有幾個關(guān)鍵組件,包括HPC藍(lán)圖(Blueprint)、HPC模塊、ghpc引擎和HPC部署文件夾。HPC藍(lán)圖是一種用YAML文件格式定義的配置文件,其詳細(xì)指定了所要使用的HPC模塊,以及定制化這些模塊的方法。而HPC模塊則由Terraform和Packer配置文件組成,是構(gòu)建部署文件夾的基本組成。ghpc引擎則是Google的開源工具,會使用HPC藍(lán)圖以及不同的HPC模塊,產(chǎn)生HPC部署文件夾,該文件夾為自包含,具有部署完整HPC集群需要的所有元素。
在本次更新中,Google強化HPC工具包對人工智能工作負(fù)載的支持,官方指出,他們與Nvidia一起開發(fā)了人工智能和機器學(xué)習(xí)藍(lán)圖,藍(lán)圖提供預(yù)配置分割區(qū),支持包括G2、A2和A3三種不同的Nvidia GPU虛擬機類型。
此外,該系統(tǒng)以Google的Ubuntu深度學(xué)習(xí)虛擬機鏡像文件為基礎(chǔ),并且包含了NCCL(Nvidia Collective Communications Library)Fast Socket優(yōu)化,可以提升分布式運算環(huán)境中的網(wǎng)絡(luò)通信效率。而且Google通過在藍(lán)圖中捆綁enroot容器工具,和適用于Slurm工作負(fù)載調(diào)度程序的Pyxis擴展組件,讓用戶能夠無縫集成非特權(quán)容器,并在Slurm任務(wù)中指定使用該容器。
通過運用Google云計算的HPC工具包,開發(fā)者可以快速創(chuàng)建和部署遵循最佳實踐的云計算環(huán)境,并集成Cloud Monitoring,進(jìn)行監(jiān)控與獲得性能可見性。而且HPC工具包也與Google的合作伙伴解決方案與技術(shù)集成,因此能夠結(jié)合DAOS、DDN EXAscaler等存儲系統(tǒng),以及Slurm工作負(fù)載調(diào)度程序一起使用,高效處理大量數(shù)據(jù)和復(fù)雜計算任務(wù)。