除了用機(jī)器學(xué)習(xí)(ML)來(lái)解決購(gòu)物推薦問(wèn)題,Line臺(tái)灣也開(kāi)始擁抱大型語(yǔ)言模型(LLM),來(lái)提高工作生產(chǎn)力。
運(yùn)用LLM的3大挑戰(zhàn)
在剖析自家LLM實(shí)戰(zhàn)經(jīng)驗(yàn)前,Line臺(tái)灣機(jī)器學(xué)習(xí)工程師李婕瑜先是點(diǎn)出,企業(yè)運(yùn)用LLM提高工作生產(chǎn)力時(shí),所面臨的3大挑戰(zhàn)。
首先,企業(yè)采用LLM,目的是要提高作業(yè)效率,尤其要能即時(shí)支持業(yè)務(wù)應(yīng)用。這個(gè)需求,考驗(yàn)了企業(yè)對(duì)LLM的運(yùn)維管理能力,得要從原本熟悉的機(jī)器學(xué)習(xí)運(yùn)維(MLOps),進(jìn)入到大型語(yǔ)言模型運(yùn)維(LLMOps)領(lǐng)域,學(xué)習(xí)新的流程集成與團(tuán)隊(duì)協(xié)作。
再來(lái),穩(wěn)定性也是一大挑戰(zhàn)。因?yàn)椋琇LM由提示(Prompt)驅(qū)動(dòng),這些提示以自然語(yǔ)言表達(dá),不像是程序語(yǔ)言有固定、嚴(yán)謹(jǐn)?shù)母袷?。也因此,提示變?dòng)靈活,可能多個(gè)字、改個(gè)字,LLM就會(huì)給出截然不同的答案。于是,企業(yè)得要做好提示管理,記錄提示版本,才能維持服務(wù)穩(wěn)定。
企業(yè)運(yùn)用LLM,還會(huì)遇到安全性挑戰(zhàn)。因?yàn)檫@些LLM應(yīng)用,不只要避免輸出歧視內(nèi)容,也要符合AI相關(guān)法規(guī),滿足透明性、可解釋等原則,像是要能解釋LLM為何給出特定答案等。李婕瑜指出,由于LLM應(yīng)用場(chǎng)景廣泛,Line不只遵守安全法規(guī),接下來(lái)還會(huì)多想一步、主動(dòng)出擊,來(lái)尋找工具、確保LLM產(chǎn)出的答案更安全。
LLM客服案件分類的提示管理
不只上述痛點(diǎn),李婕瑜也分享,Line實(shí)際應(yīng)用LLM時(shí)遇到的2項(xiàng)難題,包括如何審查L(zhǎng)LM生成內(nèi)容,以及LLM調(diào)整到什么程度,才算是夠好。
她以Line客服案件分類解釋器為例,Line臺(tái)灣本部每天會(huì)接收大量的客訴案件,但為厘清案件來(lái)優(yōu)化整體Line服務(wù)方向,客服人員得先對(duì)案件貼標(biāo)、分類,包括產(chǎn)品、政策、活動(dòng)、系統(tǒng)問(wèn)題、客服運(yùn)營(yíng)等類別。
在這個(gè)項(xiàng)目中,Line想借助LLM來(lái)輔助案件分類,自動(dòng)產(chǎn)出客訴標(biāo)簽和整理過(guò)的事件原因,來(lái)加速客服人員整理需改善之處。
但在執(zhí)行過(guò)程中,Line很快遇到了問(wèn)題。因?yàn)長(zhǎng)LM提示撰寫(xiě)的技術(shù)門(mén)檻低,不只工程師,連業(yè)務(wù)、PM都能寫(xiě),造成提示內(nèi)容多變,反而影響了LLM的產(chǎn)出和性能,Line甚至用R&R混亂來(lái)形容。
為解決這個(gè)問(wèn)題,Line采用了名為CO-STAR的提示詞撰寫(xiě)架構(gòu),來(lái)切分提示任務(wù)。這幾個(gè)字母分別代表不同要素,比如C是指場(chǎng)景(Context),也就是在提示中描述任務(wù)概況、賦予LLM角色;O則指目標(biāo)(Objective),即在提示中告知LLM想實(shí)現(xiàn)的目標(biāo),像是“給出案件類別,并總結(jié)案件始末”。
再來(lái)是S,也就是回復(fù)風(fēng)格(Style),比如告訴LLM,要以客服身份回答問(wèn)題。T則是語(yǔ)調(diào)(Tone),可以在提示中,要求LLM以溫柔的語(yǔ)調(diào)回復(fù)。A則指受眾(Audience)目標(biāo),R是輸出的格式(Response),比如“將標(biāo)簽和案件解釋區(qū)分開(kāi)來(lái)”這類描述。
有了CO-STAR切分提示任務(wù),接著還要依據(jù)項(xiàng)目特性,來(lái)對(duì)6個(gè)提示類型排序,才能發(fā)揮效果。這是因?yàn)?,每?xiàng)LLM項(xiàng)目有其重點(diǎn),以客服案件分類為例,C、O、R類提示更為重要。因此,Line將客服案件分類的提示任務(wù),改以CORAST的順序來(lái)重排。
下一步則是確認(rèn)CORAST各階段的開(kāi)發(fā)人員和驗(yàn)收人員,比如在C階段,可由熟悉案件分類和定義的客服人員、業(yè)務(wù)人員來(lái)撰寫(xiě)。又或是在S、T部分,客服人員有其偏好的風(fēng)格和語(yǔ)調(diào),因此可擔(dān)任驗(yàn)收人員,開(kāi)發(fā)人員只需專注格式處理及提示撰寫(xiě)。
LLM要優(yōu)化到什么程度才夠好?
不只如此,這個(gè)LLM案件分類項(xiàng)目,還有第2項(xiàng)挑戰(zhàn),也就是LLM要優(yōu)化到什么程度,才算夠好。
李婕瑜分析,當(dāng)POC項(xiàng)目快速創(chuàng)建后,團(tuán)隊(duì)會(huì)觀察LLM表現(xiàn),來(lái)決定是否采用其他改善方法,來(lái)提高LLM性能。以Line客服案件分類解釋器為例,團(tuán)隊(duì)將準(zhǔn)確度作為模型表現(xiàn)評(píng)估的指標(biāo),要是LLM產(chǎn)出低于60%,意味著模型不清楚提示意思。
此時(shí),Line除了考慮常見(jiàn)的檢索增強(qiáng)生成(RAG)、微調(diào)等補(bǔ)強(qiáng)手段,還會(huì)衡量加入規(guī)則式解法、思維鏈(CoT)或少樣本學(xué)習(xí)等方法,來(lái)提高LLM生成準(zhǔn)確度。
再來(lái),LLM如何才夠好,還與業(yè)務(wù)團(tuán)隊(duì)的預(yù)期有關(guān)。意思是,開(kāi)發(fā)團(tuán)隊(duì)需與業(yè)務(wù)團(tuán)隊(duì)討論,找出合理的初期LLM準(zhǔn)確度共識(shí),“最好是定在當(dāng)前平均表現(xiàn)的正負(fù)10%,”李婕瑜建議。
接下來(lái),只需管控LLM輸出的內(nèi)容格式統(tǒng)一,集成至既有服務(wù)中,LLM項(xiàng)目就大功告成了。
可善用開(kāi)源工具實(shí)例LLMOps
不只是提示管理,LLMOps也是應(yīng)用LLM的一大課題。
一般來(lái)說(shuō),LLM應(yīng)用流程包括了選擇基礎(chǔ)模型、提示工程、評(píng)估結(jié)果、改善和最終部署上線。但Line思考,能否將人工需介入的流程,縮短為2步驟,即上傳測(cè)試數(shù)據(jù)、進(jìn)行提示工程,其他的評(píng)估、找出改善空間、決定部署上線等步驟,則由工具自動(dòng)執(zhí)行。
于是,Line自建一套內(nèi)部LLM開(kāi)發(fā)管理工具,不少項(xiàng)目都采用。但為了與社交媒體分享這樣的架構(gòu),Line找到一款免費(fèi)開(kāi)源工具Pezzo,來(lái)說(shuō)明如何創(chuàng)建LLM運(yùn)維管理平臺(tái)。它的好處是,可集中管理不同項(xiàng)目的提示,簡(jiǎn)化了提示編輯和版本管理,還能可視化列出每個(gè)開(kāi)發(fā)項(xiàng)目成本,讓用戶一眼掌握LLM項(xiàng)目概況。此外,李婕瑜也推薦開(kāi)源的ML生命周期管理工具M(jìn)Lflow,因?yàn)镸Lflow也支持提示管理,可記錄不同提示版本表現(xiàn)和差異,兼顧ML和提示管理。
有了這些工具,LLM流程流暢許多,比如在Pezzo中編輯提示后,開(kāi)發(fā)者就能創(chuàng)建頁(yè)面,來(lái)輸入提示樣板元數(shù)據(jù),再讓用戶決定是否要做RAG。若需要,只需上傳所需數(shù)據(jù)即可,之后通過(guò)MLflow自動(dòng)完成實(shí)驗(yàn)。這些實(shí)驗(yàn)數(shù)據(jù),像是提示版本、分?jǐn)?shù)、模型和時(shí)間等,最后都會(huì)呈現(xiàn)在起初創(chuàng)建的頁(yè)面,Line的LLM客服案件分類器也是如此管理。
Line實(shí)例LLMOps,不單為了管理,還為應(yīng)對(duì)法規(guī),來(lái)提早應(yīng)對(duì)未來(lái)可能面臨的問(wèn)責(zé)機(jī)制。因此,他們一方面創(chuàng)建問(wèn)責(zé)制度,另一方面也開(kāi)始評(píng)估,運(yùn)用LLM檢測(cè)生成的廣告文案是否符合法規(guī)。李婕瑜舉例說(shuō)明,廣告文案生成后,先經(jīng)過(guò)禁用字詞掃描,通過(guò)后進(jìn)行第二層審查,納入法規(guī)、可用詞與不可宣稱詞規(guī)范、Line內(nèi)部法規(guī),以及RAG連接的內(nèi)部以往審核結(jié)果等數(shù)據(jù),來(lái)讓LLM參考、判斷,廣告文案合規(guī)才會(huì)正式采用。這正是Line從LLMOps延伸思考的可行合規(guī)應(yīng)用之一。