IBM準備在其人工智能開發(fā)平臺watsonx.ai,上架稱為Granite的商用基礎模型,這些基礎模型主要用于處理語言以及程序代碼。Granite基礎模型由IBM研究院開發(fā),擁有130億個參數,官方提到,Granite模型剛好能使用單一V100-32GB GPU執(zhí)行。
IBM使用多種數據集來訓練Granite系列模型,總量為7 TB的原始數據,經過預處理后仍有2.4 TB,這些數據擁有1兆個Token,IBM根據商業(yè)使用需求,挑選涵蓋網絡、學術、程序代碼、法律和財務領域的數據集訓練模型,因此Granite系列模型能夠熟悉這些領域的語言和術語,并根據相關產業(yè)知識提供決策。
Granite模型可以被廣泛地應用在各種產業(yè),除了商業(yè)領域上的摘要、問答和分類之外,Granite模型也支持諸如內容生成、分析、增強檢索生成(Retrieval Augmented Generation,RAG)與專有名詞識別(Named Entity Recognition,NER)等功能。
官方強調,模型訓練使用的數據集經過治理、風險和法遵審查流程,因此用戶可以將Granite模型用于自家的應用程序。而且Granite模型訓練資訊集經過IBM HAP偵測器處理,該偵測器能夠偵測并移除仇恨等內容,減少Granite模型生成不適當輸出的可能性。