使用人工智能(AI)和機(jī)器學(xué)習(xí)(ML)的核心目的是通過建立訓(xùn)練有素的模型來理解大量數(shù)據(jù)。就像運(yùn)動(dòng)員在即將到來的比賽中需要訓(xùn)練以獲得極佳表現(xiàn)一樣,ML 模型也必須經(jīng)過訓(xùn)練才能在部署到生產(chǎn)中時(shí)獲得非常好的表現(xiàn)。訓(xùn)練有素的模型可以在計(jì)算基礎(chǔ)設(shè)施上快速、經(jīng)濟(jì)高效地提供準(zhǔn)確結(jié)果,并對(duì)失敗有較小的容忍度。
大型語(yǔ)言模型(LLM)使用海量數(shù)據(jù),例如在互聯(lián)網(wǎng)上部署的數(shù)年數(shù)據(jù)。它從這些信息中學(xué)習(xí),以各種方式幫助我們,包括總結(jié)文本、檢測(cè)犯罪、編寫軟件以及以下示例用例:
與目前市場(chǎng)上廣泛使用的聊天機(jī)器人相比,能夠更有效地回答復(fù)雜的客戶問題并解決客戶疑問的聊天機(jī)器人
人工智能助手,可幫助研究人員發(fā)現(xiàn)新的見解。例如,生物學(xué)家可以從發(fā)表的材料和公共衛(wèi)生記錄中獲取數(shù)據(jù),幫助發(fā)現(xiàn)新的療法
專業(yè)助理,可幫助律師準(zhǔn)備和分析案情,幫助營(yíng)銷人員優(yōu)化文案和細(xì)分客戶,幫助銷售經(jīng)理確定新的增長(zhǎng)點(diǎn),幫助開發(fā)人員編寫軟件,等等。
以 ChatGPT 為例
ChatGPT 由人工智能研發(fā)實(shí)驗(yàn)室 Open AI 開發(fā),是一種流行的人工智能,可以對(duì)一般問題生成人類可讀的回答。由于它的多功能性,ChatGPT 可以發(fā)展當(dāng)今的搜索引擎,為搜索結(jié)果補(bǔ)充更有洞察力的答案。
Superclusters 以及在大語(yǔ)言模型訓(xùn)練中的角色
使用大型語(yǔ)言模型訓(xùn)練人工智能應(yīng)用(如ChatGPT)需要能夠處理海量數(shù)據(jù)的強(qiáng)大計(jì)算基礎(chǔ)設(shè)施集群。這些 Superclusters 包含數(shù)百或數(shù)千個(gè)由高性能網(wǎng)絡(luò)結(jié)構(gòu)連接的裸機(jī)計(jì)算實(shí)例。這些計(jì)算實(shí)例共同提供了大規(guī)模處理訓(xùn)練數(shù)據(jù)集的能力。Meta AI 估計(jì),隨著模型變得越來越大、越來越復(fù)雜、適應(yīng)性越來越強(qiáng),這些 Superclusters 必須能夠每秒執(zhí)行五萬億次操作。
甲骨文云基礎(chǔ)架構(gòu)(OCI)的人工智能基礎(chǔ)架構(gòu)已經(jīng)能夠幫助 Adept 和 SoundHound 等客戶處理大量數(shù)據(jù),以訓(xùn)練大型語(yǔ)言模型。我們對(duì) OCI 的集群網(wǎng)絡(luò)進(jìn)行了優(yōu)化,以使用 RDMA over converged ethernet (RoCE)支持超低延遲。您可以通過我們的 Oracle 網(wǎng)站了解更多有關(guān)我們的大規(guī)模 Superclusters 網(wǎng)絡(luò)以及使其成為可能的工程創(chuàng)新的信息。
下圖展示了具有 RDMA 網(wǎng)絡(luò)連接的 Superclusters。每個(gè) GPU 節(jié)點(diǎn)有 8 個(gè) NVIDIA A100 Tensor Core GPU,與網(wǎng)絡(luò)結(jié)構(gòu)的全雙工連接總計(jì) 1.6Tbps(1600Gbps)。網(wǎng)絡(luò)結(jié)構(gòu)被設(shè)計(jì)為無阻塞,并為所有主機(jī)提供全分段帶寬。(分段帶寬是指網(wǎng)絡(luò)任意兩部分之間可用的 minimum 帶寬)。
OCI 與 AWS 以及谷歌云平臺(tái)(GCP)的比較
訓(xùn)練大型語(yǔ)言模型是極其耗費(fèi)網(wǎng)絡(luò)資源的。訓(xùn)練這些模型需要在成百上千臺(tái)獨(dú)立服務(wù)器之間協(xié)調(diào)和共享信息。OCI GPU 通過使用 RDMA 的簡(jiǎn)單、高性能以太網(wǎng)連接。OCI 提供的帶寬是 AWS 和 GCP 的 4-16 倍,這反過來又減少了 ML 訓(xùn)練的時(shí)間和成本。三家供應(yīng)商公布的帶寬分別為
OCI 的 BM.GPU.GM4.8 實(shí)例: 1600 Gbps
AWS 的 P4D 實(shí)例: 400 Gbps
GCP 的 A2 實(shí)例: 100 Gbps
OCI 的集群網(wǎng)絡(luò)技術(shù)得到了 Adept、MosaicML 和 SoundHound 等尖端 AI/ML 創(chuàng)新企業(yè)的驗(yàn)證。在發(fā)布時(shí),AWS 和谷歌云平臺(tái)使用的互連技術(shù)類型并不完全透明:Infiniband、以太網(wǎng)或其他技術(shù)。與OCI的簡(jiǎn)單性相比,AWS EFA 等增強(qiáng)功能在配置和軟件方面造成了復(fù)雜性,在用于 ML 訓(xùn)練之前必須進(jìn)行徹底測(cè)試。通過保持互連的簡(jiǎn)單和快速,OCI 為訓(xùn)練大型語(yǔ)言模型提供了非常好的環(huán)境。
想要了解更多?
OCI 提供云工程師支持,用于訓(xùn)練大型語(yǔ)言模型和大規(guī)模部署人工智能。要了解有關(guān) Oracle 云基礎(chǔ)架構(gòu)功能的更多信息,請(qǐng)聯(lián)系我們或查看以下資源:
AI 基礎(chǔ)架構(gòu)(https://www.oracle.com/cn/ai-infrastructure/)
OCI 計(jì)算: GPU 實(shí)例(https://www.oracle.com/cloud/comput)