有鑒于目前GPU資源的稀缺性,AWS新推出Amazon EC2容量區(qū)塊(Capacity Blocks)功能,這是一項(xiàng)適用于機(jī)器學(xué)習(xí)模型開(kāi)發(fā)的EC2使用模型,用戶(hù)可以在EC2 UltraCluster特殊集群中預(yù)留需要的Nvidia GPU資源,借由指定集群大小、開(kāi)始時(shí)間和持續(xù)時(shí)間,便能夠以可預(yù)測(cè)的方式訪(fǎng)問(wèn)GPU資源。
全世界掀起一陣人工智能應(yīng)用熱潮,不少組織開(kāi)始開(kāi)發(fā)機(jī)器學(xué)習(xí)模型,而AWS提到,企業(yè)對(duì)在機(jī)器學(xué)習(xí)模型的GPU容量需求,已經(jīng)超過(guò)全產(chǎn)業(yè)的供應(yīng)量,使得GPU成為稀缺資源。而這對(duì)于需要大量GPU資源,用以訓(xùn)練基礎(chǔ)模型和大型語(yǔ)言模型的用戶(hù)來(lái)說(shuō),是一項(xiàng)需要解決的問(wèn)題。
面對(duì)這樣的問(wèn)題,企業(yè)可能會(huì)需要長(zhǎng)期購(gòu)買(mǎi)大量的GPU容量,確保在需要的時(shí)刻,有足夠GPU計(jì)算資源可以使用,但是這可能造成資源浪費(fèi),導(dǎo)致在未使用時(shí)出現(xiàn)GPU資源閑置。因此AWS現(xiàn)在推出EC2容量區(qū)塊模式,來(lái)解決GPU資源搶奪的問(wèn)題,這是一種安排GPU執(zhí)行實(shí)例的新方法,用戶(hù)可以在指定時(shí)間內(nèi)保留所需要的執(zhí)行實(shí)例數(shù)量。
用戶(hù)可以提前8周指定日期,訪(fǎng)問(wèn)預(yù)留的EC2容量區(qū)塊并啟動(dòng)P5執(zhí)行實(shí)例,持續(xù)時(shí)間可為1到14天,集群大小為1到64個(gè)執(zhí)行實(shí)例,并且只需要支付所需要的GPU時(shí)間費(fèi)用。而當(dāng)EC2容量區(qū)塊持續(xù)時(shí)間結(jié)束后,任何執(zhí)行中的執(zhí)行實(shí)例都會(huì)被終止。
這項(xiàng)新功能在用戶(hù)需要容量保證,以訓(xùn)練和微調(diào)機(jī)器學(xué)習(xí)模型、執(zhí)行實(shí)驗(yàn),或是計(jì)劃性地增加機(jī)器學(xué)習(xí)應(yīng)用程序需求時(shí)特別有用。用戶(hù)可以從AWS控制臺(tái)、命令行接口和開(kāi)發(fā)工具包預(yù)留可用的容量區(qū)塊,目前可以先在A(yíng)WS美東地區(qū),預(yù)留搭載Nvidia H100 Tensor Core GPU的EC2 P5執(zhí)行實(shí)例,官方計(jì)劃之后也會(huì)在其他地區(qū)推出該項(xiàng)功能。