在生成式AI時代,企業(yè)高管制定總體的企業(yè)AI戰(zhàn)略藍圖之后,需要著手對生成式AI的技術要求進行準備工作。企業(yè)領導和IT高管需要回答一系列的問題,包括:生成式AI有哪些關鍵要求、如何選擇大模型、如何準備好數(shù)據(jù)、如何選擇有關的技術工具。本文將從采納和使用生成式AI技術構建部署企業(yè)應用切入,分享幫助企業(yè)通過生成式AI創(chuàng)造差異化競爭力和價值的思考。
生成式AI平臺與應用的技術應用堆棧
廣義的機器學習應用的技術架構通常包含六層,自下而上是:
1、機器學習基礎設施;2、數(shù)據(jù)層;3、機器學習框架與模型;4、機器學習工具;5、業(yè)務邏輯層;6、人工智能應用層。
而生成式AI的核心技術通常被概括為三層,自下而上是:
1、機器學習基礎設施層;2、機器學習框架與工具層;3、利用基礎模型構建的生成式AI應用。
相比于六層模型,在三層技術棧中,建設各類IT應用需要的數(shù)據(jù)和業(yè)務邏輯被精簡,機器學習框架、模型與機器學習工具被整合在一層。
企業(yè)建立端到端的生成式AI應用所需的主要步驟包括:
1、選擇業(yè)務場景和用例,定義應用范圍;2、建立新的或選擇已有的基礎模型;3、對模型預訓練、精調調配;4、部署模型推理,與應用進行集成;5、對模型和應用的持續(xù)評估、監(jiān)控和改進。
選擇大模型并視需要進行模型的適配和調整
建立基礎模型是一項繁重艱巨的工作,需要很強的技術資源和資金投入。對大多數(shù)企業(yè)來說,可以選擇已有的合適的基礎模型,并在此基礎上使用企業(yè)數(shù)據(jù)進行預訓練,以得到更適合企業(yè)的大語言模型。選擇了基礎模型之后,企業(yè)可以利用提示詞工程、提取增強生成、模型微調和持續(xù)模型預訓練等方法,對模型進行進一步的適配和調優(yōu)。
目前商業(yè)和開源大語言模型在快速迭代更新,推動著生成式AI的高速發(fā)展。明智選擇大模型需要綜合考量諸多因素:1、參數(shù)數(shù)量、訓練數(shù)據(jù)集和輸入輸出窗口的大??;2、基準測試成績、準確度、處理速度等指標;3、多模態(tài)、多語言、多功能支持,靈活性和可擴展性;4、可調性、透明度、安全性、可控性和編程能力;5、對資源的需求,訓練、推理、維護的成本等。
為生成式AI的部署準備好數(shù)據(jù)
數(shù)據(jù)是企業(yè)的核心資產(chǎn)和差異化點。許多人把數(shù)據(jù)看作是企業(yè)的“石油”和“能源”,而我更偏向將數(shù)據(jù)看作是企業(yè)“肌體”的“血液”,而數(shù)據(jù)流就是企業(yè)的“血液流”。驅動生成式AI發(fā)展的動力包含計算、數(shù)據(jù)、模型和算法等主要方面,而數(shù)據(jù)是決定大模型質量的最關鍵因素。如果把企業(yè)人工智能應用看作是一座漂浮在水面的冰山一角,那么用戶可見的企業(yè)智能應用就是冰山浮在水面之上的冰面,而數(shù)據(jù)則是隱藏于水面之下的巨大的冰塊主體。
最近T.Davenport等人關于首席數(shù)據(jù)官的調研證實93%的CDO(首席數(shù)字官)贊同數(shù)據(jù)戰(zhàn)略是從生成式AI獲取價值的關鍵要素,但57%的CDO認為他們還沒有做好有關的數(shù)據(jù)戰(zhàn)略準備。企業(yè)要力爭把數(shù)據(jù)轉化為差異化的動力,這不僅需要掌握從數(shù)據(jù)確定、采集、清洗、注釋、管控等相關的技術,更需要企業(yè)把數(shù)據(jù)當作產(chǎn)品,并建立數(shù)據(jù)賦能的企業(yè)文化,對數(shù)據(jù)進行安全、隱私、合規(guī)的全生命周期的管理。當企業(yè)數(shù)據(jù)、模型、應用三位一體的數(shù)據(jù)飛輪旋轉起來,企業(yè)的生成式AI就能源源不斷地為企業(yè)獲取洞察力,創(chuàng)造業(yè)務價值。
選擇合適的生成式AI服務工具
企業(yè)借助于生成式AI技術和業(yè)界領先的基礎模型快速創(chuàng)新,離不開選擇和使用生成式AI的服務和工具。快速選擇合適的、通用的、便捷的、安全的AI工具是個不容忽視的關鍵點。為此亞馬遜云科技推出了一系列生成式AI工具和服務幫助客戶方便、安全、敏捷地構建生成式AI應用。這里為大家簡要介紹其中一些重要的服務。
-Amazon SageMaker通過完全托管的基礎設施、工具和工作流程為任何用例構建、訓練和部署機器學習模型;
-Amazon Bedrock通過API提供來自AI21 Labs、Cohere、Meta、Mistral AI、Stability AI和Amazon等領先的高性能基礎模型,提供通過安全、隱私和負責任的AI構建生成式AI應用程序所需的各類廣泛功能;
-Amazon Q是一組生成式AI助手,可以根據(jù)企業(yè)系統(tǒng)中的數(shù)據(jù)和信息回答問題、提供摘要、生成內容并安全地完成任務,以提升員工的創(chuàng)造力、工作效率和生產(chǎn)力。
機器學習的基礎設施和運維管理(MLOps)
云計算提供全面、安全、高性價比的機器學習基礎設施,可滿足您對于人工智能和機器學習所有訓練和推理的數(shù)據(jù)存儲和計算能力上的需求。識別和選擇正確的計算基礎設施對于最大化性能、降低成本、減少高能耗以及避免復雜性至關重要。亞馬遜云科技在計算、網(wǎng)絡和存儲等領域針對人工智能和機器學習功能進行廣泛和深入的構建,包括使用合作伙伴的專用芯片并研發(fā)了兩款用于訓練和推理的自有芯片Amazon Trainium和Amazon Inferentia。
圖片
機器學習運維(MLOps)是用于簡化和自動化機器學習工作流程和部署運維的文化和實踐,覆蓋模型和應用的開發(fā)、運維、管理等全生命周期。MLOps是業(yè)務人員、人工智能專家和IT運維人員協(xié)作的交互流程和管理方法,覆蓋了從數(shù)據(jù)收集、分析、轉換、準備,到模型訓練、開發(fā)、驗證、發(fā)布、服務、監(jiān)控,到應用編排、測試、評估、診斷、業(yè)務指標管理等機器學習開發(fā)運維的各個關鍵階段。MLOps與傳統(tǒng)的DevOps(軟件開發(fā)人員和IT運維技術人員之間的溝通合作)類似,強調持續(xù)測試(CT)、集成(CI)、部署(CD),但更具有實驗性和復雜性、加強了實驗跟蹤、模型管理和對業(yè)務目標治理等元素。
“智能之旅”是我們這一代信息工作者的使命,為我們提供了巨大機會的同時,也帶來了艱巨的挑戰(zhàn)。完成這個任務要求IT專業(yè)人員全面了解人工智能和機器學習的技術堆棧,了解生成式AI發(fā)展的趨勢,如何選用、調整、定制大模型,做好數(shù)據(jù)準備,快速引進并及時掌握所需的生成式AI工具,建立機器學習的基礎設施和機器學習運維的流程管理實踐,成規(guī)模地部署實施人工智能應用,以幫助企業(yè)利用生成式AI技術構建可持續(xù)的競爭力。