在 OCI 上以幾十億次運算量訓(xùn)練大型語言人工智能模型

來源:甲骨文云技術(shù)
作者:曹彬峰
時間:2024-02-23
5998
使用人工智能(AI)和機器學(xué)習(ML)的核心目的是通過建立訓(xùn)練有素的模型來理解大量數(shù)據(jù)。

使用人工智能(AI)和機器學(xué)習(ML)的核心目的是通過建立訓(xùn)練有素的模型來理解大量數(shù)據(jù)。就像運動員在即將到來的比賽中需要訓(xùn)練以獲得極佳表現(xiàn)一樣,ML 模型也必須經(jīng)過訓(xùn)練才能在部署到生產(chǎn)中時獲得非常好的表現(xiàn)。訓(xùn)練有素的模型可以在計算基礎(chǔ)設(shè)施上快速、經(jīng)濟高效地提供準確結(jié)果,并對失敗有較小的容忍度。

大型語言模型(LLM)使用海量數(shù)據(jù),例如在互聯(lián)網(wǎng)上部署的數(shù)年數(shù)據(jù)。它從這些信息中學(xué)習,以各種方式幫助我們,包括總結(jié)文本、檢測犯罪、編寫軟件以及以下示例用例:

  • 與目前市場上廣泛使用的聊天機器人相比,能夠更有效地回答復(fù)雜的客戶問題并解決客戶疑問的聊天機器人

  • 人工智能助手,可幫助研究人員發(fā)現(xiàn)新的見解。例如,生物學(xué)家可以從發(fā)表的材料和公共衛(wèi)生記錄中獲取數(shù)據(jù),幫助發(fā)現(xiàn)新的療法

  • 專業(yè)助理,可幫助律師準備和分析案情,幫助營銷人員優(yōu)化文案和細分客戶,幫助銷售經(jīng)理確定新的增長點,幫助開發(fā)人員編寫軟件,等等。

以 ChatGPT 為例

ChatGPT 由人工智能研發(fā)實驗室 Open AI 開發(fā),是一種流行的人工智能,可以對一般問題生成人類可讀的回答。由于它的多功能性,ChatGPT 可以發(fā)展當今的搜索引擎,為搜索結(jié)果補充更有洞察力的答案。

Superclusters 以及在大語言模型訓(xùn)練中的角色

使用大型語言模型訓(xùn)練人工智能應(yīng)用(如ChatGPT)需要能夠處理海量數(shù)據(jù)的強大計算基礎(chǔ)設(shè)施集群。這些 Superclusters 包含數(shù)百或數(shù)千個由高性能網(wǎng)絡(luò)結(jié)構(gòu)連接的裸機計算實例。這些計算實例共同提供了大規(guī)模處理訓(xùn)練數(shù)據(jù)集的能力。Meta AI 估計,隨著模型變得越來越大、越來越復(fù)雜、適應(yīng)性越來越強,這些 Superclusters 必須能夠每秒執(zhí)行五萬億次操作。

甲骨文云基礎(chǔ)架構(gòu)(OCI)的人工智能基礎(chǔ)架構(gòu)已經(jīng)能夠幫助 Adept 和 SoundHound 等客戶處理大量數(shù)據(jù),以訓(xùn)練大型語言模型。我們對 OCI 的集群網(wǎng)絡(luò)進行了優(yōu)化,以使用 RDMA over converged ethernet (RoCE)支持超低延遲。您可以通過我們的 Oracle 網(wǎng)站了解更多有關(guān)我們的大規(guī)模 Superclusters 網(wǎng)絡(luò)以及使其成為可能的工程創(chuàng)新的信息。

下圖展示了具有 RDMA 網(wǎng)絡(luò)連接的 Superclusters。每個 GPU 節(jié)點有 8 個 NVIDIA A100 Tensor Core GPU,與網(wǎng)絡(luò)結(jié)構(gòu)的全雙工連接總計 1.6Tbps(1600Gbps)。網(wǎng)絡(luò)結(jié)構(gòu)被設(shè)計為無阻塞,并為所有主機提供全分段帶寬。(分段帶寬是指網(wǎng)絡(luò)任意兩部分之間可用的 minimum 帶寬)。

圖片7.png

OCI 與 AWS 以及谷歌云平臺(GCP)的比較

訓(xùn)練大型語言模型是極其耗費網(wǎng)絡(luò)資源的。訓(xùn)練這些模型需要在成百上千臺獨立服務(wù)器之間協(xié)調(diào)和共享信息。OCI GPU 通過使用 RDMA 的簡單、高性能以太網(wǎng)連接。OCI 提供的帶寬是 AWS 和 GCP 的 4-16 倍,這反過來又減少了 ML 訓(xùn)練的時間和成本。三家供應(yīng)商公布的帶寬分別為

  • OCI 的 BM.GPU.GM4.8 實例: 1600 Gbps

  • AWS 的 P4D 實例: 400 Gbps

  • GCP 的 A2 實例:  100 Gbps

OCI 的集群網(wǎng)絡(luò)技術(shù)得到了 Adept、MosaicML 和 SoundHound 等尖端 AI/ML 創(chuàng)新企業(yè)的驗證。在發(fā)布時,AWS 和谷歌云平臺使用的互連技術(shù)類型并不完全透明:Infiniband、以太網(wǎng)或其他技術(shù)。與OCI的簡單性相比,AWS EFA 等增強功能在配置和軟件方面造成了復(fù)雜性,在用于 ML 訓(xùn)練之前必須進行徹底測試。通過保持互連的簡單和快速,OCI 為訓(xùn)練大型語言模型提供了非常好的環(huán)境。

想要了解更多?

OCI 提供云工程師支持,用于訓(xùn)練大型語言模型和大規(guī)模部署人工智能。要了解有關(guān) Oracle 云基礎(chǔ)架構(gòu)功能的更多信息,請聯(lián)系我們或查看以下資源:

AI 基礎(chǔ)架構(gòu)(https://www.oracle.com/cn/ai-infrastructure/)

OCI 計算: GPU 實例(https://www.oracle.com/cloud/comput)

立即登錄,閱讀全文
原文鏈接:點擊前往 >
文章來源:甲骨文云技術(shù)
版權(quán)說明:本文內(nèi)容來自于甲骨文云技術(shù),本站不擁有所有權(quán),不承擔相關(guān)法律責任。文章內(nèi)容系作者個人觀點,不代表快出海對觀點贊同或支持。如有侵權(quán),請聯(lián)系管理員(zzx@kchuhai.com)刪除!
優(yōu)質(zhì)服務(wù)商推薦
更多
個人VIP