有鑒于目前GPU資源的稀缺性,AWS新推出Amazon EC2容量區(qū)塊(Capacity Blocks)功能,這是一項適用于機器學習模型開發(fā)的EC2使用模型,用戶可以在EC2 UltraCluster特殊集群中預留需要的Nvidia GPU資源,借由指定集群大小、開始時間和持續(xù)時間,便能夠以可預測的方式訪問GPU資源。
全世界掀起一陣人工智能應用熱潮,不少組織開始開發(fā)機器學習模型,而AWS提到,企業(yè)對在機器學習模型的GPU容量需求,已經超過全產業(yè)的供應量,使得GPU成為稀缺資源。而這對于需要大量GPU資源,用以訓練基礎模型和大型語言模型的用戶來說,是一項需要解決的問題。
面對這樣的問題,企業(yè)可能會需要長期購買大量的GPU容量,確保在需要的時刻,有足夠GPU計算資源可以使用,但是這可能造成資源浪費,導致在未使用時出現GPU資源閑置。因此AWS現在推出EC2容量區(qū)塊模式,來解決GPU資源搶奪的問題,這是一種安排GPU執(zhí)行實例的新方法,用戶可以在指定時間內保留所需要的執(zhí)行實例數量。
用戶可以提前8周指定日期,訪問預留的EC2容量區(qū)塊并啟動P5執(zhí)行實例,持續(xù)時間可為1到14天,集群大小為1到64個執(zhí)行實例,并且只需要支付所需要的GPU時間費用。而當EC2容量區(qū)塊持續(xù)時間結束后,任何執(zhí)行中的執(zhí)行實例都會被終止。
這項新功能在用戶需要容量保證,以訓練和微調機器學習模型、執(zhí)行實驗,或是計劃性地增加機器學習應用程序需求時特別有用。用戶可以從AWS控制臺、命令行接口和開發(fā)工具包預留可用的容量區(qū)塊,目前可以先在AWS美東地區(qū),預留搭載Nvidia H100 Tensor Core GPU的EC2 P5執(zhí)行實例,官方計劃之后也會在其他地區(qū)推出該項功能。