在 OCI 上以幾十億次運(yùn)算量訓(xùn)練大型語言人工智能模型

來源：甲骨文云技術(shù)

作者：曹彬峰

時間：2024-02-23

使用人工智能（AI）和機(jī)器學(xué)習(xí)（ML）的核心目的是通過建立訓(xùn)練有素的模型來理解大量數(shù)據(jù)。

使用人工智能（AI）和機(jī)器學(xué)習(xí)（ML）的核心目的是通過建立訓(xùn)練有素的模型來理解大量數(shù)據(jù)。就像運(yùn)動員在即將到來的比賽中需要訓(xùn)練以獲得極佳表現(xiàn)一樣，ML 模型也必須經(jīng)過訓(xùn)練才能在部署到生產(chǎn)中時獲得非常好的表現(xiàn)。訓(xùn)練有素的模型可以在計算基礎(chǔ)設(shè)施上快速、經(jīng)濟(jì)高效地提供準(zhǔn)確結(jié)果，并對失敗有較小的容忍度。

大型語言模型（LLM）使用海量數(shù)據(jù)，例如在互聯(lián)網(wǎng)上部署的數(shù)年數(shù)據(jù)。它從這些信息中學(xué)習(xí)，以各種方式幫助我們，包括總結(jié)文本、檢測犯罪、編寫軟件以及以下示例用例：

與目前市場上廣泛使用的聊天機(jī)器人相比，能夠更有效地回答復(fù)雜的客戶問題并解決客戶疑問的聊天機(jī)器人
人工智能助手，可幫助研究人員發(fā)現(xiàn)新的見解。例如，生物學(xué)家可以從發(fā)表的材料和公共衛(wèi)生記錄中獲取數(shù)據(jù)，幫助發(fā)現(xiàn)新的療法
專業(yè)助理，可幫助律師準(zhǔn)備和分析案情，幫助營銷人員優(yōu)化文案和細(xì)分客戶，幫助銷售經(jīng)理確定新的增長點(diǎn)，幫助開發(fā)人員編寫軟件，等等。

以 ChatGPT 為例

ChatGPT 由人工智能研發(fā)實驗室 Open AI 開發(fā)，是一種流行的人工智能，可以對一般問題生成人類可讀的回答。由于它的多功能性，ChatGPT 可以發(fā)展當(dāng)今的搜索引擎，為搜索結(jié)果補(bǔ)充更有洞察力的答案。

Superclusters 以及在大語言模型訓(xùn)練中的角色

使用大型語言模型訓(xùn)練人工智能應(yīng)用（如ChatGPT）需要能夠處理海量數(shù)據(jù)的強(qiáng)大計算基礎(chǔ)設(shè)施集群。這些 Superclusters 包含數(shù)百或數(shù)千個由高性能網(wǎng)絡(luò)結(jié)構(gòu)連接的裸機(jī)計算實例。這些計算實例共同提供了大規(guī)模處理訓(xùn)練數(shù)據(jù)集的能力。Meta AI 估計，隨著模型變得越來越大、越來越復(fù)雜、適應(yīng)性越來越強(qiáng)，這些 Superclusters 必須能夠每秒執(zhí)行五萬億次操作。

甲骨文云基礎(chǔ)架構(gòu)（OCI）的人工智能基礎(chǔ)架構(gòu)已經(jīng)能夠幫助 Adept 和 SoundHound 等客戶處理大量數(shù)據(jù)，以訓(xùn)練大型語言模型。我們對 OCI 的集群網(wǎng)絡(luò)進(jìn)行了優(yōu)化，以使用 RDMA over converged ethernet （RoCE）支持超低延遲。您可以通過我們的 Oracle 網(wǎng)站了解更多有關(guān)我們的大規(guī)模 Superclusters 網(wǎng)絡(luò)以及使其成為可能的工程創(chuàng)新的信息。

下圖展示了具有 RDMA 網(wǎng)絡(luò)連接的 Superclusters。每個 GPU 節(jié)點(diǎn)有 8 個 NVIDIA A100 Tensor Core GPU，與網(wǎng)絡(luò)結(jié)構(gòu)的全雙工連接總計 1.6Tbps（1600Gbps）。網(wǎng)絡(luò)結(jié)構(gòu)被設(shè)計為無阻塞，并為所有主機(jī)提供全分段帶寬。（分段帶寬是指網(wǎng)絡(luò)任意兩部分之間可用的 minimum 帶寬）。

圖片7.png

OCI 與 AWS 以及谷歌云平臺（GCP）的比較

訓(xùn)練大型語言模型是極其耗費(fèi)網(wǎng)絡(luò)資源的。訓(xùn)練這些模型需要在成百上千臺獨(dú)立服務(wù)器之間協(xié)調(diào)和共享信息。OCI GPU 通過使用 RDMA 的簡單、高性能以太網(wǎng)連接。OCI 提供的帶寬是 AWS 和 GCP 的 4-16 倍，這反過來又減少了 ML 訓(xùn)練的時間和成本。三家供應(yīng)商公布的帶寬分別為

OCI 的 BM.GPU.GM4.8 實例： 1600 Gbps
AWS 的 P4D 實例： 400 Gbps
GCP 的 A2 實例： 100 Gbps

OCI 的集群網(wǎng)絡(luò)技術(shù)得到了 Adept、MosaicML 和 SoundHound 等尖端 AI/ML 創(chuàng)新企業(yè)的驗證。在發(fā)布時，AWS 和谷歌云平臺使用的互連技術(shù)類型并不完全透明：Infiniband、以太網(wǎng)或其他技術(shù)。與OCI的簡單性相比，AWS EFA 等增強(qiáng)功能在配置和軟件方面造成了復(fù)雜性，在用于 ML 訓(xùn)練之前必須進(jìn)行徹底測試。通過保持互連的簡單和快速，OCI 為訓(xùn)練大型語言模型提供了非常好的環(huán)境。

想要了解更多？

OCI 提供云工程師支持，用于訓(xùn)練大型語言模型和大規(guī)模部署人工智能。要了解有關(guān) Oracle 云基礎(chǔ)架構(gòu)功能的更多信息，請聯(lián)系我們或查看以下資源：

AI 基礎(chǔ)架構(gòu)（https://www.oracle.com/cn/ai-infrastructure/）

OCI 計算： GPU 實例（https://www.oracle.com/cloud/comput）

云計算

上一篇：NVIDIA 選擇 OCI 提供 AI 服務(wù)

原文鏈接：點(diǎn)擊前往 >

文章來源：甲骨文云技術(shù)

版權(quán)說明：本文內(nèi)容來自于甲骨文云技術(shù)，本站不擁有所有權(quán)，不承擔(dān)相關(guān)法律責(zé)任。文章內(nèi)容系作者個人觀點(diǎn)，不代表快出海對觀點(diǎn)贊同或支持。如有侵權(quán)，請聯(lián)系管理員（zzx@kchuhai.com）刪除！

相關(guān)文章