面對(duì)魔搭ModelScope社區(qū)提供的海量模型,用戶總是希望能快速進(jìn)行選型并生產(chǎn)使用,但往往會(huì)面臨算力管理難、模型部署難等一系列問(wèn)題。
那么有沒(méi)有可能既能快速把選定的模型部署在云端功能強(qiáng)大的GPU上,由云端負(fù)責(zé)服務(wù),擴(kuò)展,保護(hù)和監(jiān)控模型服務(wù),又同時(shí)免于運(yùn)維和管理云上算力等基礎(chǔ)設(shè)施呢?
魔搭ModelScope+函數(shù)計(jì)算FC提供了這樣一種方案。
魔搭+函數(shù)計(jì)算,一鍵部署模型上云
魔搭ModelScope社區(qū)模型服務(wù)SwingDeploy,支持將模型從魔搭社區(qū)的模型庫(kù)一鍵部署至用戶阿里云賬號(hào)的云資源上,并根據(jù)模型資源要求為用戶自動(dòng)推薦最佳部署配置。
開(kāi)發(fā)者可以將魔搭開(kāi)源模型一鍵部署至阿里云函數(shù)計(jì)算,系統(tǒng)會(huì)選擇對(duì)應(yīng)的機(jī)器配置。按需使用的方式可以根據(jù)工作負(fù)載動(dòng)態(tài)調(diào)劑資源,節(jié)約機(jī)器使用成本,5分鐘完成從開(kāi)源模型至模型推理API服務(wù)的生產(chǎn)轉(zhuǎn)換。
得益于阿里云函數(shù)計(jì)算的產(chǎn)品能力,魔搭SwingDeploy后的模型推理API服務(wù)默認(rèn)具備極致彈性伸縮(縮零能力)、GPU虛擬化(最小1GB顯存粒度)、異步調(diào)用能力、按用付費(fèi)、閑置計(jì)費(fèi)等能力,這些能力幫助算法工程師大大加快了魔搭開(kāi)源模型投入生產(chǎn)的生命周期。
以百川智能的大型語(yǔ)言模型為例
接下來(lái),我們將演示如何利用魔搭ModelScope社區(qū)的一鍵部署技術(shù)(SwingDeploy)。選取百川智能的大語(yǔ)言模型(LLM)為案例,將其部署至函數(shù)計(jì)算平臺(tái)并啟用閑置計(jì)費(fèi)。我們將提供一系列詳盡的步驟指南:
準(zhǔn)備工作
1.打開(kāi)ModelScope官網(wǎng),登錄/注冊(cè)賬號(hào)
2.綁定阿里云賬號(hào)后,可使用在線調(diào)試、訓(xùn)練及部署等能力
模型部署
1.導(dǎo)航至模型卡片:請(qǐng)?jiān)谀Т頜odelScope社區(qū)的模型庫(kù)頁(yè)面進(jìn)行搜索,定位到"baichuan2-7b-chat-4bits",并點(diǎn)擊進(jìn)入該模型的詳細(xì)頁(yè)面。您還可以通過(guò)URL直接訪問(wèn)該模型卡片。
2.執(zhí)行快速部署操作:請(qǐng)?jiān)谀P涂ㄆ挠疑辖钦业讲Ⅻc(diǎn)擊“部署”按鈕,并從下拉菜單中選擇“快速部署(SwingDeploy)”,隨后選擇“函數(shù)計(jì)算(FC)”作為目標(biāo)部署平臺(tái)。
在隨后出現(xiàn)的彈窗中,您可以對(duì)模型的部署參數(shù)進(jìn)行詳細(xì)配置,這包括選擇適當(dāng)?shù)哪P桶姹尽⒉渴鸬牡乩韰^(qū)域、顯卡型號(hào)以及需要的顯存容量等。完成這些必要設(shè)置后,請(qǐng)點(diǎn)擊“一鍵部署”以初始化部署過(guò)程。
注意:目前函數(shù)計(jì)算GPU的閑置計(jì)費(fèi)模式只適用于杭州和上海地區(qū),并且僅限于整卡使用。因此,在配置部署選項(xiàng)時(shí),請(qǐng)確保地域設(shè)置為杭州或上海,并選擇相應(yīng)的顯存容量,即16GB對(duì)應(yīng)于T4顯卡型號(hào),或24GB對(duì)應(yīng)于A10顯卡型號(hào)。
3.確認(rèn)部署成功:成功執(zhí)行“一鍵部署”后,ModelScope將開(kāi)始將模型部署到函數(shù)計(jì)算云服務(wù),此過(guò)程通常需要1至5分鐘完成。部署完畢時(shí),您可返回ModelScope主頁(yè),導(dǎo)航至“模型服務(wù)”下的“部署服務(wù)(SwingDeploy)”板塊,以確認(rèn)部署狀態(tài)顯示為“部署成功”。
啟用預(yù)留閑置模式
1.將模型服務(wù)配置為預(yù)留模式:ModelScope會(huì)默認(rèn)使用按量模式進(jìn)行部署,為了優(yōu)化成本和性能,您需要將模型服務(wù)配置為預(yù)留模式。這可以通過(guò)點(diǎn)擊“服務(wù)模式切換”至“預(yù)留模式”來(lái)實(shí)現(xiàn)。
2.激活預(yù)留模式的閑置計(jì)費(fèi)功能:完成服務(wù)模式的切換至“預(yù)留模式”之后,您需要再次點(diǎn)擊服務(wù)模式的切換按鈕。隨后,在彈出的窗口中選擇“更改配置”,這將引導(dǎo)您跳轉(zhuǎn)至函數(shù)計(jì)算控制臺(tái)。在控制臺(tái)的“函數(shù)彈性管理”頁(yè)面,激活“閑置計(jì)費(fèi)”選項(xiàng)并保存設(shè)置,以啟用函數(shù)計(jì)算GPU函數(shù)的閑置計(jì)費(fèi)模式。這將有助于您在保留資源的同時(shí)優(yōu)化成本效益。
在成功激活閑置計(jì)費(fèi)模式后,在函數(shù)的彈性管理界面中,您將看到“閑置計(jì)費(fèi)模式已開(kāi)啟”。此時(shí),當(dāng)“當(dāng)前實(shí)例數(shù)”與“目標(biāo)預(yù)留實(shí)例數(shù)”一致時(shí),表明所有的閑置實(shí)例均已成功啟動(dòng)并處于待命狀態(tài)。
開(kāi)始使用
根據(jù)魔搭ModelScope模型服務(wù)里的“立即使用”說(shuō)明,我們可以順利調(diào)用到該次部署的LLM模型。
LLM一覽表
由于當(dāng)前社區(qū)以及多種層出不窮的大語(yǔ)言模型(LLM),本表格僅列舉了當(dāng)前熱度較高的常用LLM基礎(chǔ)模型,在其之上的微調(diào)模型同樣是可以部署至函數(shù)計(jì)算平臺(tái),并開(kāi)啟閑置預(yù)留模式。
函數(shù)計(jì)算大幅降低用戶GPU成本
隨著AGI技術(shù)的迅速發(fā)展,各類型企業(yè)越來(lái)越多地依賴于GPU計(jì)算資源來(lái)推動(dòng)他們的業(yè)務(wù)增長(zhǎng)。正在使用或計(jì)劃部署大型語(yǔ)言模型(LLM)等先進(jìn)技術(shù)的客戶,可能有優(yōu)先考慮成本效率。函數(shù)計(jì)算推出GPU閑置計(jì)費(fèi)功能,在保障性能的前提下,可以幫助用戶大幅降低GPU的成本開(kāi)銷。
GPU閑置計(jì)費(fèi)——實(shí)時(shí)/準(zhǔn)實(shí)時(shí)推理服務(wù)部署方式的革新
函數(shù)計(jì)算GPU閑置計(jì)費(fèi)功能是一個(gè)行業(yè)領(lǐng)先的創(chuàng)新,它允許用戶在不犧牲性能的前提下,以更低的成本使用GPU資源。
這個(gè)新功能旨在解決傳統(tǒng)GPU計(jì)費(fèi)模式中的一個(gè)常見(jiàn)問(wèn)題:即便GPU實(shí)例在沒(méi)有服務(wù)請(qǐng)求時(shí),用戶仍然需要支付全部的資源消耗費(fèi)用。
現(xiàn)在,通過(guò)函數(shù)計(jì)算后臺(tái)的顯存管理,函數(shù)計(jì)算實(shí)例的GPU資源只有當(dāng)請(qǐng)求到來(lái)時(shí),才會(huì)被激活;當(dāng)請(qǐng)求完成后,GPU資源自動(dòng)被函數(shù)計(jì)算平臺(tái)凍結(jié),用戶無(wú)需為高昂的GPU使用費(fèi)用買(mǎi)單。
部署LLM的成本效益分析
以往部署大型語(yǔ)言模型(LLM)可能需要昂貴的GPU支持,尤其在需要大量計(jì)算資源時(shí)。但請(qǐng)求處理并不是每時(shí)每刻都處于活躍狀態(tài),勢(shì)必存在流量的潮汐現(xiàn)象,后端的計(jì)算資源會(huì)出現(xiàn)空載導(dǎo)致成本的浪費(fèi)。
借助函數(shù)計(jì)算GPU閑置計(jì)費(fèi)功能,用戶的開(kāi)銷將會(huì)根據(jù)實(shí)際計(jì)算負(fù)載動(dòng)態(tài)調(diào)整。在函數(shù)計(jì)算的GPU閑置模式下,當(dāng)實(shí)例活躍時(shí)GPU單價(jià)為0.00011元/GB 秒;當(dāng)實(shí)例進(jìn)入閑置模式后,閑置GPU單價(jià)為0.000009/GB 秒。閑置下的使用成本僅為活躍狀態(tài)的1/10。
讓我們以一個(gè)實(shí)際的例子來(lái)說(shuō)明這種計(jì)費(fèi)方式的成本效果:
某AI初創(chuàng)公司使用LLM微調(diào)模型提供客服機(jī)器人業(yè)務(wù),客戶需要確??头C(jī)器人業(yè)務(wù)能夠快速響應(yīng)用戶的請(qǐng)求,因此對(duì)于冷啟動(dòng)時(shí)間有較高的要求,所以無(wú)法選擇按量付費(fèi)模式,他們選擇了預(yù)留實(shí)例模式來(lái)避免冷啟動(dòng)問(wèn)題;但同時(shí)也發(fā)現(xiàn),平均到每一個(gè)小時(shí),GPU資源并不是滿載的,真正發(fā)生在GPU實(shí)例上的請(qǐng)求時(shí)長(zhǎng)總計(jì)只有20分鐘,進(jìn)而他們選擇了函數(shù)計(jì)算業(yè)內(nèi)首創(chuàng)的閑置預(yù)留模式。
基于這樣典型的場(chǎng)景,根據(jù)函數(shù)計(jì)算GPU的計(jì)費(fèi)模式我們來(lái)算這樣一筆賬:
如果僅使用GPU實(shí)例預(yù)留模式:該客戶會(huì)選擇在業(yè)務(wù)高峰時(shí)期,預(yù)留10個(gè)16GB顯存的實(shí)例為業(yè)務(wù)提供推理請(qǐng)求,GPU實(shí)例使用單價(jià),GPU部分的資源開(kāi)銷約為6.34元/時(shí)/實(shí)例。
但使用GPU實(shí)例預(yù)留模式+閑置計(jì)費(fèi)后:同樣預(yù)留10個(gè)16GB顯存的實(shí)例為業(yè)務(wù)提供推理請(qǐng)求,我們以40分鐘閑置,20分鐘活躍來(lái)進(jìn)行計(jì)算,總GPU部分資源成本約為2.46元/時(shí)/實(shí)例。
以上面的例子進(jìn)行成本的推演,我們可以看到閑置計(jì)費(fèi)模式可以節(jié)省60%的GPU資源成本。
開(kāi)通函數(shù)計(jì)算獲試用額度
函數(shù)計(jì)算為首次開(kāi)通服務(wù)的用戶提供免費(fèi)試用額度,試用額度的有效期為3個(gè)月,自購(gòu)買(mǎi)之日起,超出試用額度的部分均會(huì)計(jì)入按量付費(fèi)。試用額度的詳細(xì)信息如下。
GPU試用額度:前100萬(wàn)GB 秒GPU資源使用免費(fèi)。
vCPU試用額度:前50萬(wàn)vCPU 秒vCPU資源使用免費(fèi)。
內(nèi)存試用額度:前200萬(wàn)GB 秒內(nèi)存資源使用免費(fèi)。
函數(shù)調(diào)用試用額度:前800萬(wàn)次函數(shù)調(diào)用免費(fèi)。
除以上試用額度,2023年12月19日0時(shí)之后,函數(shù)計(jì)算還為首次開(kāi)通服務(wù)的用戶發(fā)放有效期3個(gè)月、每個(gè)月100 GB的CDT公網(wǎng)流量試用額度。
快來(lái)部署使用吧~