在生成式AI時代,企業(yè)高管制定總體的企業(yè)AI戰(zhàn)略藍圖之后,需要著手對生成式AI的技術(shù)要求進行準備工作。企業(yè)領(lǐng)導(dǎo)和IT高管需要回答一系列的問題,包括:生成式AI有哪些關(guān)鍵要求、如何選擇大模型、如何準備好數(shù)據(jù)、如何選擇有關(guān)的技術(shù)工具。本文將從采納和使用生成式AI技術(shù)構(gòu)建部署企業(yè)應(yīng)用切入,分享幫助企業(yè)通過生成式AI創(chuàng)造差異化競爭力和價值的思考。
生成式AI平臺與應(yīng)用的技術(shù)應(yīng)用堆棧
廣義的機器學習應(yīng)用的技術(shù)架構(gòu)通常包含六層,自下而上是:
1、機器學習基礎(chǔ)設(shè)施;2、數(shù)據(jù)層;3、機器學習框架與模型;4、機器學習工具;5、業(yè)務(wù)邏輯層;6、人工智能應(yīng)用層。
而生成式AI的核心技術(shù)通常被概括為三層,自下而上是:
1、機器學習基礎(chǔ)設(shè)施層;2、機器學習框架與工具層;3、利用基礎(chǔ)模型構(gòu)建的生成式AI應(yīng)用。
相比于六層模型,在三層技術(shù)棧中,建設(shè)各類IT應(yīng)用需要的數(shù)據(jù)和業(yè)務(wù)邏輯被精簡,機器學習框架、模型與機器學習工具被整合在一層。
企業(yè)建立端到端的生成式AI應(yīng)用所需的主要步驟包括:
1、選擇業(yè)務(wù)場景和用例,定義應(yīng)用范圍;2、建立新的或選擇已有的基礎(chǔ)模型;3、對模型預(yù)訓練、精調(diào)調(diào)配;4、部署模型推理,與應(yīng)用進行集成;5、對模型和應(yīng)用的持續(xù)評估、監(jiān)控和改進。
選擇大模型并視需要進行模型的適配和調(diào)整
建立基礎(chǔ)模型是一項繁重艱巨的工作,需要很強的技術(shù)資源和資金投入。對大多數(shù)企業(yè)來說,可以選擇已有的合適的基礎(chǔ)模型,并在此基礎(chǔ)上使用企業(yè)數(shù)據(jù)進行預(yù)訓練,以得到更適合企業(yè)的大語言模型。選擇了基礎(chǔ)模型之后,企業(yè)可以利用提示詞工程、提取增強生成、模型微調(diào)和持續(xù)模型預(yù)訓練等方法,對模型進行進一步的適配和調(diào)優(yōu)。
目前商業(yè)和開源大語言模型在快速迭代更新,推動著生成式AI的高速發(fā)展。明智選擇大模型需要綜合考量諸多因素:1、參數(shù)數(shù)量、訓練數(shù)據(jù)集和輸入輸出窗口的大?。?、基準測試成績、準確度、處理速度等指標;3、多模態(tài)、多語言、多功能支持,靈活性和可擴展性;4、可調(diào)性、透明度、安全性、可控性和編程能力;5、對資源的需求,訓練、推理、維護的成本等。
為生成式AI的部署準備好數(shù)據(jù)
數(shù)據(jù)是企業(yè)的核心資產(chǎn)和差異化點。許多人把數(shù)據(jù)看作是企業(yè)的“石油”和“能源”,而我更偏向?qū)?shù)據(jù)看作是企業(yè)“肌體”的“血液”,而數(shù)據(jù)流就是企業(yè)的“血液流”。驅(qū)動生成式AI發(fā)展的動力包含計算、數(shù)據(jù)、模型和算法等主要方面,而數(shù)據(jù)是決定大模型質(zhì)量的最關(guān)鍵因素。如果把企業(yè)人工智能應(yīng)用看作是一座漂浮在水面的冰山一角,那么用戶可見的企業(yè)智能應(yīng)用就是冰山浮在水面之上的冰面,而數(shù)據(jù)則是隱藏于水面之下的巨大的冰塊主體。
最近T.Davenport等人關(guān)于首席數(shù)據(jù)官的調(diào)研證實93%的CDO(首席數(shù)字官)贊同數(shù)據(jù)戰(zhàn)略是從生成式AI獲取價值的關(guān)鍵要素,但57%的CDO認為他們還沒有做好有關(guān)的數(shù)據(jù)戰(zhàn)略準備。企業(yè)要力爭把數(shù)據(jù)轉(zhuǎn)化為差異化的動力,這不僅需要掌握從數(shù)據(jù)確定、采集、清洗、注釋、管控等相關(guān)的技術(shù),更需要企業(yè)把數(shù)據(jù)當作產(chǎn)品,并建立數(shù)據(jù)賦能的企業(yè)文化,對數(shù)據(jù)進行安全、隱私、合規(guī)的全生命周期的管理。當企業(yè)數(shù)據(jù)、模型、應(yīng)用三位一體的數(shù)據(jù)飛輪旋轉(zhuǎn)起來,企業(yè)的生成式AI就能源源不斷地為企業(yè)獲取洞察力,創(chuàng)造業(yè)務(wù)價值。
選擇合適的生成式AI服務(wù)工具
企業(yè)借助于生成式AI技術(shù)和業(yè)界領(lǐng)先的基礎(chǔ)模型快速創(chuàng)新,離不開選擇和使用生成式AI的服務(wù)和工具??焖龠x擇合適的、通用的、便捷的、安全的AI工具是個不容忽視的關(guān)鍵點。為此亞馬遜云科技推出了一系列生成式AI工具和服務(wù)幫助客戶方便、安全、敏捷地構(gòu)建生成式AI應(yīng)用。這里為大家簡要介紹其中一些重要的服務(wù)。
-Amazon SageMaker通過完全托管的基礎(chǔ)設(shè)施、工具和工作流程為任何用例構(gòu)建、訓練和部署機器學習模型;
-Amazon Bedrock通過API提供來自AI21 Labs、Cohere、Meta、Mistral AI、Stability AI和Amazon等領(lǐng)先的高性能基礎(chǔ)模型,提供通過安全、隱私和負責任的AI構(gòu)建生成式AI應(yīng)用程序所需的各類廣泛功能;
-Amazon Q是一組生成式AI助手,可以根據(jù)企業(yè)系統(tǒng)中的數(shù)據(jù)和信息回答問題、提供摘要、生成內(nèi)容并安全地完成任務(wù),以提升員工的創(chuàng)造力、工作效率和生產(chǎn)力。
機器學習的基礎(chǔ)設(shè)施和運維管理(MLOps)
云計算提供全面、安全、高性價比的機器學習基礎(chǔ)設(shè)施,可滿足您對于人工智能和機器學習所有訓練和推理的數(shù)據(jù)存儲和計算能力上的需求。識別和選擇正確的計算基礎(chǔ)設(shè)施對于最大化性能、降低成本、減少高能耗以及避免復(fù)雜性至關(guān)重要。亞馬遜云科技在計算、網(wǎng)絡(luò)和存儲等領(lǐng)域針對人工智能和機器學習功能進行廣泛和深入的構(gòu)建,包括使用合作伙伴的專用芯片并研發(fā)了兩款用于訓練和推理的自有芯片Amazon Trainium和Amazon Inferentia。
圖片
機器學習運維(MLOps)是用于簡化和自動化機器學習工作流程和部署運維的文化和實踐,覆蓋模型和應(yīng)用的開發(fā)、運維、管理等全生命周期。MLOps是業(yè)務(wù)人員、人工智能專家和IT運維人員協(xié)作的交互流程和管理方法,覆蓋了從數(shù)據(jù)收集、分析、轉(zhuǎn)換、準備,到模型訓練、開發(fā)、驗證、發(fā)布、服務(wù)、監(jiān)控,到應(yīng)用編排、測試、評估、診斷、業(yè)務(wù)指標管理等機器學習開發(fā)運維的各個關(guān)鍵階段。MLOps與傳統(tǒng)的DevOps(軟件開發(fā)人員和IT運維技術(shù)人員之間的溝通合作)類似,強調(diào)持續(xù)測試(CT)、集成(CI)、部署(CD),但更具有實驗性和復(fù)雜性、加強了實驗跟蹤、模型管理和對業(yè)務(wù)目標治理等元素。
“智能之旅”是我們這一代信息工作者的使命,為我們提供了巨大機會的同時,也帶來了艱巨的挑戰(zhàn)。完成這個任務(wù)要求IT專業(yè)人員全面了解人工智能和機器學習的技術(shù)堆棧,了解生成式AI發(fā)展的趨勢,如何選用、調(diào)整、定制大模型,做好數(shù)據(jù)準備,快速引進并及時掌握所需的生成式AI工具,建立機器學習的基礎(chǔ)設(shè)施和機器學習運維的流程管理實踐,成規(guī)模地部署實施人工智能應(yīng)用,以幫助企業(yè)利用生成式AI技術(shù)構(gòu)建可持續(xù)的競爭力。