Meta在微軟Azure上進(jìn)行PyTorch等AI研發(fā)。在Build 2022大會(huì)上,微軟和Meta聯(lián)合宣布,Meta將以Azure云計(jì)算部署AI應(yīng)用,包括擴(kuò)大執(zhí)行機(jī)器學(xué)習(xí)框架PyTorch。
首先Meta AI部門將利用專屬的Azure集群執(zhí)行大規(guī)模AI研究任務(wù)。這個(gè)集群使用NDm A100 v4系列虛擬機(jī),執(zhí)行5400顆Nvidia A100 Tensor Core 80GB GPU,每VM互聯(lián)interconnect帶寬達(dá)1.6TB/s,將在去年后展現(xiàn)成果后,再次負(fù)擔(dān)Meta部分大型AI研究任務(wù)。
2021年Meta首度將部分大型AI研究放上使用A100 Tensor Core 80GB GPU的Azure VM。微軟聲稱,這個(gè)環(huán)境下,每個(gè)VM之間GPU對(duì)GPU帶寬是其他公有云企業(yè)的4倍,可用于分布式AI訓(xùn)練。例如Meta就用它來訓(xùn)練OPT-175B語(yǔ)言模型。微軟也強(qiáng)調(diào)NDm A100v4 VM具設(shè)置彈性,可自動(dòng)適合任何規(guī)模的集群,還能動(dòng)態(tài)由數(shù)顆GPU擴(kuò)展為數(shù)千顆,并能在實(shí)驗(yàn)中暫停及再續(xù)。而在今年,Meta AI團(tuán)隊(duì)又將以Azure執(zhí)行更多機(jī)器學(xué)習(xí)訓(xùn)練任務(wù)。
此外,Meta也計(jì)劃擴(kuò)大使用微軟的PyTorch on Azure服務(wù)。PyTorch是開源Python機(jī)器學(xué)習(xí)框架。Azure將為PyTorch用戶提供NDv4及InfiniBand硬件及完整軟件堆棧。未來幾個(gè)月內(nèi),微軟計(jì)劃打造新的PyTorch開發(fā)加速器,以便更容易在Azure上部署PyTorch框架。
此外微軟也表示會(huì)提供PyTorch的支持,協(xié)助Meta或其他客戶及合作伙伴在公有云及邊緣設(shè)備上部署PyTorch模型。