IBM專家觀點(diǎn)：IBM大模型揭秘

來(lái)源：IBM中國(guó)

作者：吳敏達(dá)

時(shí)間：2023-11-23

對(duì)企業(yè)用戶而言，擁有選擇權(quán)對(duì)于成功采用人工智能至關(guān)重要。對(duì)于生成式AI，并非所有大模型都是一樣的，一種模型并不適合所有情況：最好的模型將取決于行業(yè)、領(lǐng)域和用例。

引言

對(duì)企業(yè)用戶而言，擁有選擇權(quán)對(duì)于成功采用人工智能至關(guān)重要。對(duì)于生成式AI，并非所有大模型都是一樣的，一種模型并不適合所有情況：最好的模型將取決于行業(yè)、領(lǐng)域和用例。IBM watsonx為客戶提供一系列模型選擇，包括IBM開(kāi)發(fā)的基礎(chǔ)模型、開(kāi)源模型以及來(lái)自第三方供應(yīng)商的模型，在模型和部署環(huán)境兩個(gè)維度上提供選擇和靈活性。

更重要的是，模型并不總是越大越好，過(guò)大的模型推理成本太高，企業(yè)無(wú)法承擔(dān)運(yùn)行

數(shù)據(jù)處理

為了支持企業(yè)級(jí)大模型的訓(xùn)練，IBM構(gòu)建了一個(gè)來(lái)自學(xué)術(shù)界、互聯(lián)網(wǎng)、企業(yè)（例如金融、法律）和源代碼的非結(jié)構(gòu)化語(yǔ)言數(shù)據(jù)的大數(shù)據(jù)集。這是非常罕見(jiàn)的，也表示了IBM對(duì)透明度和負(fù)責(zé)任的AI的承諾。

該預(yù)訓(xùn)練數(shù)據(jù)集是替代開(kāi)源數(shù)據(jù)集而創(chuàng)建的專有數(shù)據(jù)集，開(kāi)源數(shù)據(jù)集因包含有毒、有害或盜版內(nèi)容而受到批評(píng)。通過(guò)構(gòu)建IBM預(yù)訓(xùn)練數(shù)據(jù)語(yǔ)料庫(kù)解決以上提到的這些問(wèn)題和其他隱含問(wèn)題。IBM大模型訓(xùn)練中使用的數(shù)據(jù)集如下：

1.arXiv:發(fā)布到arXiv的超過(guò)180萬(wàn)篇科學(xué)論文預(yù)印本。

2.Common Crawl:開(kāi)放的可以被網(wǎng)絡(luò)爬蟲(chóng)獲取的存儲(chǔ)庫(kù)。

3.DeepMind Mathematics:數(shù)學(xué)問(wèn)答數(shù)據(jù)。

4.Free Law:來(lái)自美國(guó)聯(lián)邦和州法院的公共領(lǐng)域法律意見(jiàn)。

5.GitHub Clean:來(lái)自CodeParrot的源代碼數(shù)據(jù)，涵蓋多種編碼語(yǔ)言。

6.Hacker News:2007-2018年產(chǎn)生的計(jì)算機(jī)科學(xué)與創(chuàng)業(yè)新聞。

7.OpenWeb Text:OpenAI的Web文本語(yǔ)料庫(kù)的開(kāi)源版本，包含到2019年的網(wǎng)頁(yè)。

8.Project Gutenberg（PG-19）:免費(fèi)電子書(shū)庫(kù)，重點(diǎn)關(guān)注美國(guó)版權(quán)已過(guò)期的舊作品。

9.Pubmed Central:生物醫(yī)學(xué)和生命科學(xué)論文。

10.SEC Filings:美國(guó)證券交易委員會(huì)（SEC）1934-2022年的10-K/Q文件。

11.Stack Exchange:Stack Exchange網(wǎng)絡(luò)上所有用戶貢獻(xiàn)內(nèi)容的匿名集合，這是一個(gè)以用戶貢獻(xiàn)的問(wèn)題和答案為中心的流行網(wǎng)站集合。

12.USPTO:1975年至2023年5月授予的美國(guó)專利，不包括外觀設(shè)計(jì)專利。

13.Webhose:IBM獲取的Web內(nèi)容轉(zhuǎn)換為機(jī)器可讀數(shù)據(jù)集。

14.Wikimedia:維基項(xiàng)目（enwiki，enwikibooks，enwikinews，enwikiquote，enwikisource，en-wikiversity，enwikivoyage，enwiktionary）。包含從頁(yè)面和文章中提取的純文本。

IBM精選的預(yù)訓(xùn)練數(shù)據(jù)集正在不斷增長(zhǎng)和發(fā)展，其他數(shù)據(jù)會(huì)定期審查并考慮添加到語(yǔ)料庫(kù)中。除了增加預(yù)訓(xùn)練數(shù)據(jù)的大小和范圍外，還會(huì)定期生成和維護(hù)這些數(shù)據(jù)集的新版本，以反映增強(qiáng)的過(guò)濾功能（例如，重復(fù)數(shù)據(jù)刪除以及仇恨和臟話檢測(cè)）和改進(jìn)的工具。

在granite.13b進(jìn)行預(yù)訓(xùn)練時(shí)，IBM在預(yù)處理之前收集了6.48 TB的數(shù)據(jù)，在預(yù)處理后構(gòu)建了2.07 TB的訓(xùn)練數(shù)據(jù)。而granite.20b.code在預(yù)處理后構(gòu)建了100多種不同編碼語(yǔ)言的1.6T的訓(xùn)練數(shù)據(jù)，包括Cobol和Ansible。

整個(gè)數(shù)據(jù)預(yù)處理管道的各種步驟為模型訓(xùn)練做好準(zhǔn)備，整個(gè)過(guò)程是在最大的可信企業(yè)級(jí)數(shù)據(jù)湖watsonx.data上完成的，這是建立在開(kāi)放式湖倉(cāng)一體架構(gòu)之上。預(yù)處理過(guò)程由以下步驟組成：

1）文本提取

2）重復(fù)數(shù)據(jù)消除

3）語(yǔ)言識(shí)別

4）句子拆分

5）仇恨、辱罵和臟話檢測(cè)

6）文檔質(zhì)量注釋

7）網(wǎng)址屏蔽列表注釋

8）過(guò)濾

9）標(biāo)記化

640

從訓(xùn)練數(shù)據(jù)可以看出，IBM模型為什么可以安全地供企業(yè)使用？

·根據(jù)IBM廣泛的數(shù)據(jù)治理實(shí)踐（對(duì)應(yīng)于數(shù)據(jù)清理和獲?。?duì)模型進(jìn)行了審查；文件質(zhì)量檢查；預(yù)處理數(shù)據(jù)管道，包括標(biāo)記化、重復(fù)數(shù)據(jù)刪除等。

·Granite模型根據(jù)IBM自己的HAP（仇恨、辱罵和臟話）檢測(cè)器審查的數(shù)據(jù)進(jìn)行訓(xùn)練，以檢測(cè)并根除令人反感的內(nèi)容，并以內(nèi)部和公共模型為基準(zhǔn)。

·IBM部署定期、持續(xù)的數(shù)據(jù)保護(hù)措施，包括監(jiān)控以盜版或其他攻擊性材料聞名的網(wǎng)站，并避開(kāi)這些網(wǎng)站。

模型訓(xùn)練

第一階段預(yù)訓(xùn)練過(guò)程，granite.13b基礎(chǔ)模型經(jīng)過(guò)30萬(wàn)次迭代訓(xùn)練，批量大小為4M個(gè)Token，總共1萬(wàn)億個(gè)Token。預(yù)訓(xùn)練讓大模型根據(jù)輸入生成文本。

第二階段監(jiān)督微調(diào)過(guò)程，使用來(lái)自不同來(lái)源的數(shù)據(jù)集混合執(zhí)行監(jiān)督微調(diào)，每個(gè)示例都包含一個(gè)提示和一個(gè)答案，執(zhí)行3個(gè)周期獲得granite.13b.instruct模型。

第三階段對(duì)比微調(diào)過(guò)程，懲罰來(lái)自負(fù)數(shù)據(jù)分布的數(shù)據(jù)點(diǎn)概率，同時(shí)增加來(lái)自正數(shù)據(jù)分布的數(shù)據(jù)點(diǎn)的概率。換句話說(shuō)，我們不鼓勵(lì)大模型為每個(gè)訓(xùn)練提示生成錯(cuò)對(duì)齊的答案（例如有害的答案），同時(shí)鼓勵(lì)對(duì)齊的答案（例如有用的答案）。通過(guò)防止模型輸出出現(xiàn)幻覺(jué)和錯(cuò)位，最后獲得granite.13b.chat模型。

640

IBM用于訓(xùn)練基礎(chǔ)模型的主要計(jì)算基礎(chǔ)設(shè)施是AI優(yōu)化的云原生超級(jí)計(jì)算機(jī)Vela【2】，每個(gè)Vela節(jié)點(diǎn)：

·8個(gè)80GB A100 GPU

·96 CPU

·1.5TB的DRAM

·4個(gè)3.2TB NVMe固態(tài)硬盤(pán)

·600GBps GPU高可用網(wǎng)絡(luò)連接

·1.6TB跨機(jī)架帶寬

640

granite.13b.v1大模型是在較舊的基礎(chǔ)設(shè)施上訓(xùn)練的，使用了256個(gè)A100 GPU，花費(fèi)了1056 GPU Hours。而granite.20b.code大模型是在更新的基礎(chǔ)設(shè)施上訓(xùn)練的，使用了768個(gè)A100 GPU。

應(yīng)用場(chǎng)景

Granite大模型支持所有5個(gè)NLP任務(wù)（問(wèn)答、生成、提取、總結(jié)、分類），這些任務(wù)針對(duì)跨多個(gè)領(lǐng)域的業(yè)務(wù)目標(biāo)數(shù)據(jù)進(jìn)行訓(xùn)練，以提供最相關(guān)的見(jiàn)解。IBM訓(xùn)練的AI模型可以通過(guò)快速的工程技術(shù)進(jìn)一步定制，以滿足特定的企業(yè)任務(wù)，從而在watsonx.ai中實(shí)現(xiàn)更高的準(zhǔn)確性和實(shí)現(xiàn)價(jià)值的時(shí)間。最終可以使用企業(yè)數(shù)據(jù)針對(duì)獨(dú)特的下游任務(wù)調(diào)整模型，例如，針對(duì)正在進(jìn)行的以NLP為中心的任務(wù)進(jìn)行提示調(diào)整。

企業(yè)需要的模型一定是學(xué)到企業(yè)的專用知識(shí)，當(dāng)使用IBM開(kāi)發(fā)的模型來(lái)創(chuàng)建差異化的AI資產(chǎn)時(shí)，可以進(jìn)一步定制IBM模型以滿足特定的下游任務(wù)。通過(guò)提示工程和微調(diào)技術(shù)，客戶可以負(fù)責(zé)任地使用自己的企業(yè)數(shù)據(jù)來(lái)提高模型輸出的準(zhǔn)確性，從而創(chuàng)造競(jìng)爭(zhēng)優(yōu)勢(shì)。watsonx.ai可以進(jìn)行本地部署，從而實(shí)現(xiàn)數(shù)據(jù)的合規(guī)和安全。

640

Granite大模型采用了特定領(lǐng)域的企業(yè)數(shù)據(jù)，10%的訓(xùn)練數(shù)據(jù)來(lái)自法律和金融，這使得信用風(fēng)險(xiǎn)評(píng)估、保險(xiǎn)QA、對(duì)話式金融QA和總結(jié)等財(cái)務(wù)任務(wù)具有卓越的性能。因此，金融服務(wù)領(lǐng)域的客戶（銀行、保險(xiǎn)、金融）或有法律需求的客戶，Granite是一個(gè)值得推薦的絕佳模型。另外Granite.13b需要更少的GPU資源實(shí)現(xiàn)金融任務(wù)的卓越性能，從而實(shí)現(xiàn)更高的性價(jià)比?；贗BM Research的初步評(píng)估和測(cè)試，涵蓋11種不同的金融任務(wù)，結(jié)果表明granite-13b是金融任務(wù)中表現(xiàn)最佳的模型之一，評(píng)估的任務(wù)包括：提供股票和財(cái)報(bào)電話會(huì)議記錄的情緒評(píng)分、對(duì)新聞標(biāo)題進(jìn)行分類、提取信用風(fēng)險(xiǎn)評(píng)估、總結(jié)金融長(zhǎng)篇文本以及回答金融或保險(xiǎn)相關(guān)問(wèn)題。在測(cè)試中，granite-13b的速度比業(yè)界70b的大模型快3倍，GPU資源消耗減少1/4。令人欣喜的是，granite.13b.v2也正在緊鑼密鼓的開(kāi)發(fā)訓(xùn)練中，通過(guò)添加多語(yǔ)言的語(yǔ)料訓(xùn)練，實(shí)現(xiàn)多語(yǔ)言支持。

在代碼領(lǐng)域，granite.20b.code分為cobol和ansible的兩個(gè)變體，granite.20b.code.cobol可在IBM Z上更快地將COBOL語(yǔ)言轉(zhuǎn)換為Java語(yǔ)言，從而提高開(kāi)發(fā)人員的工作效率；而granite.20b.ansible旨在為IT運(yùn)營(yíng)自動(dòng)化生成ansible劇本。

治理和管控

IBM的AI開(kāi)發(fā)方法以基于信任和透明度承諾的核心原則為指導(dǎo)，堅(jiān)信要負(fù)責(zé)任地創(chuàng)建、部署和利用AI模型來(lái)推動(dòng)業(yè)務(wù)創(chuàng)新。

在Granite模型開(kāi)發(fā)中利用watsonx.governance進(jìn)行基礎(chǔ)模型生命周期治理，通過(guò)基準(zhǔn)測(cè)試評(píng)估模型質(zhì)量，打包并標(biāo)記通過(guò)測(cè)試的模型，創(chuàng)建模型名片，記錄模型細(xì)節(jié)，合并數(shù)據(jù)名片與模型名片，形成模型事實(shí)。支持大模型特定指標(biāo)收集和警報(bào)，提升公平性和責(zé)任（例如監(jiān)控濫用和褻瀆行為），通過(guò)源屬性解釋大模型輸出，提供大模型使用指南和最佳實(shí)踐。

640

采用生成式AI的首要障礙是對(duì)數(shù)據(jù)血緣或來(lái)源的擔(dān)憂，為了更好地理解為其智能系統(tǒng)提供數(shù)據(jù)的數(shù)據(jù)，通過(guò)IBM最新收購(gòu)的數(shù)據(jù)血緣廠商Manta【3】，提高了watsonx內(nèi)部的透明度，以便企業(yè)可以確定其AI模型和系統(tǒng)是否使用了正確的數(shù)據(jù)、數(shù)據(jù)的起源、演變方式以及數(shù)據(jù)流中的任何差異。

總結(jié)

考慮到開(kāi)放和單一模型無(wú)法滿足每個(gè)業(yè)務(wù)用例的獨(dú)特需求，Granite系列正在開(kāi)發(fā)不同參數(shù)大小的模型。同時(shí)IBM定期從開(kāi)源大模型中從性能、倫理、法律、數(shù)據(jù)等角度選擇和審查商業(yè)適用性最合適的更新到watsonx平臺(tái)中。借助這些模型和watsonx，幫助企業(yè)成為AI價(jià)值創(chuàng)造者，可以將企業(yè)專有數(shù)據(jù)引入IBM大模型和開(kāi)源模型，構(gòu)建適合其業(yè)務(wù)和用例的獨(dú)特模型。

面向平臺(tái)的方法：watsonx是一個(gè)在OpenShift上運(yùn)行的平臺(tái)，具有AI推理功能并運(yùn)行Ray和PyTorch等開(kāi)源技術(shù)?？蛻艨梢詫⑵洳渴鹪谧约哼x擇的基礎(chǔ)架構(gòu)中，從而可以安全地與企業(yè)數(shù)據(jù)集成。采用私有化部署，無(wú)需額外擔(dān)心數(shù)據(jù)安全和主權(quán)。

客戶保護(hù):IBM標(biāo)準(zhǔn)的知識(shí)產(chǎn)權(quán)保護(hù)（與其為硬件和軟件產(chǎn)品提供的知識(shí)產(chǎn)權(quán)保護(hù)相類似）將適用于由IBM開(kāi)發(fā)的watsonx模型。IBM為其基礎(chǔ)模型提供IP賠償（合同保護(hù)），使其客戶能夠更有信心地使用他們的數(shù)據(jù)來(lái)構(gòu)建AI，這是生成式AI競(jìng)爭(zhēng)優(yōu)勢(shì)之所在?？蛻艨梢允褂盟麄冏约旱臄?shù)據(jù)和由IBM基礎(chǔ)模型所提供的客戶保護(hù)、準(zhǔn)確性和信任來(lái)開(kāi)發(fā)他們的AI應(yīng)用程序。

數(shù)據(jù)和人工智能治理：隨著監(jiān)管人工智能，全球客戶面臨著利用人工智能安全創(chuàng)造價(jià)值的壓力。IBM watsonx擁有全面、領(lǐng)先的AI和數(shù)據(jù)治理產(chǎn)品組合，提供模型治理、監(jiān)控，獨(dú)有的仇恨、辱罵和臟話檢測(cè)過(guò)濾器，支持管理監(jiān)管要求，以便客戶能夠以負(fù)責(zé)任、安全和合乎道德的方式擴(kuò)展AI。

參考資料：

【1】https://www.ibm.com/downloads/cas/X9W4O6BM

【2】https://research.ibm.com/blog/AI-supercomputer-Vela-GPU-cluster

【3】https://newsroom.ibm.com/IBM-acquires-Manta-Software-Inc-to-complement-data-and-AI-governance-capabilities

IBM IBM Cloud

上一篇：制造企業(yè)采用IBM App Connect打敗應(yīng)用集成“攔路虎”

原文鏈接：點(diǎn)擊前往 >

文章來(lái)源：IBM中國(guó)

版權(quán)說(shuō)明：本文內(nèi)容來(lái)自于IBM中國(guó)，本站不擁有所有權(quán)，不承擔(dān)相關(guān)法律責(zé)任。文章內(nèi)容系作者個(gè)人觀點(diǎn)，不代表快出海對(duì)觀點(diǎn)贊同或支持。如有侵權(quán)，請(qǐng)聯(lián)系管理員（zzx@kchuhai.com）刪除！

相關(guān)文章