在解釋SoMin公司的廣告文案和橫幅生成功能時(shí),經(jīng)常有人會(huì)問,是否用ChatGPT取代了GPT-3,或者是否仍然在運(yùn)行過時(shí)的模式?!拔覀儧]有,也不打算這樣做?!盨oMin公司發(fā)言人給出這樣的回答,盡管OpenAI公司推出的ChatGPT這款聊天機(jī)器人正在蓬勃發(fā)展。這往往會(huì)讓客戶大吃一驚,以下解釋一下他為什么要給出這樣的回答。
在人工智能模型中占有一席之地
GPT-2、GPT-3、ChatGPT以及最近推出的GPT-4都屬于同一類人工智能模型——Transformer。這意味著,與上一代機(jī)器學(xué)習(xí)模型不同,它們被訓(xùn)練來(lái)完成更統(tǒng)一的任務(wù),因此它們不需要為每個(gè)特定的任務(wù)重新訓(xùn)練來(lái)產(chǎn)生可行的結(jié)果。后者解釋了它們的巨大規(guī)模(在GPT-3的例子中有1750億個(gè)參數(shù)),而一個(gè)模型可能需要“記住整個(gè)互聯(lián)網(wǎng)”,才能足夠靈活地根據(jù)用戶輸入在不同的數(shù)據(jù)片段之間切換。然后,當(dāng)用戶輸入查詢的問題,描述任務(wù)和幾個(gè)示例(就像你向圖書管理員詢問感興趣的書籍一樣)時(shí),模型能夠生成結(jié)果。這種方法被稱為“小樣本學(xué)習(xí)”(Few-Shot Learning),最近在為現(xiàn)代Transformer模型提供輸入已成為一種趨勢(shì)。
但是,為了完成當(dāng)前的任務(wù),是否總是需要掌握所有的互聯(lián)網(wǎng)知識(shí)呢?當(dāng)然不是——在很多情況下,就像ChatGPT一樣,需要大量(數(shù)以百萬(wàn)計(jì))特定于任務(wù)的數(shù)據(jù)樣本,這些樣本將允許模型啟動(dòng)“從人類反饋中強(qiáng)化學(xué)習(xí)(RLHF)”過程。反過來(lái),RLHF將衍生出人工智能和人類之間進(jìn)行的協(xié)作訓(xùn)練過程,以進(jìn)一步訓(xùn)練人工智能模型,以產(chǎn)生類似人類的對(duì)話。因此,ChatGPT不僅在聊天機(jī)器人場(chǎng)景中表現(xiàn)出色,而且還幫助人們編寫短篇內(nèi)容(例如詩(shī)歌或歌詞)或長(zhǎng)篇內(nèi)容(例如論文);當(dāng)人們需要快速獲得答案時(shí),可以采用簡(jiǎn)單的術(shù)語(yǔ)或深入的知識(shí)解釋復(fù)雜的話題;提供頭腦風(fēng)暴、新的話題和想法,這在創(chuàng)作過程中是有幫助的,支持銷售部門進(jìn)行個(gè)性化溝通,例如生成電子郵件進(jìn)行回復(fù)。
雖然從技術(shù)上來(lái)說,大型Transformer模型可以嘗試完成這些任務(wù),但不太可能由ChatGPT甚至GPT-4來(lái)完成——這是因?yàn)镃hatGPT和其他OpenAI的Transformer對(duì)世界發(fā)生的事件了解非常有限,因?yàn)樗鼈兪穷A(yù)訓(xùn)練的模型,因此由于模型再訓(xùn)練的計(jì)算需求非常大,因此它們的數(shù)據(jù)更新不夠頻繁。這可能是迄今為止OpenAI(以及其他任何公司)所生成的所有預(yù)訓(xùn)練模型中最大的缺點(diǎn)。一個(gè)更大的問題是針對(duì)ChatGPT的:與GPT-3不同,它是在一個(gè)非常集中的對(duì)話數(shù)據(jù)集上進(jìn)行訓(xùn)練的,因此,只有在對(duì)話任務(wù)中ChatGPT才能超越它的前輩,而在完成其他人類生產(chǎn)力任務(wù)時(shí),它就不那么先進(jìn)。
成長(zhǎng)中的大型語(yǔ)言模型家族
人們現(xiàn)在知道ChatGPT只是GPT-3的一個(gè)更小、更具體的版本,但這是否意味著在不久的將來(lái)會(huì)有更多這樣的模型出現(xiàn):用于營(yíng)銷的MarGPT,用于數(shù)字廣告的AdGPT,用于回答醫(yī)療問題的MedGPT?
這是有可能的,其原因如下:當(dāng)SoMin公司提交一份申請(qǐng)以獲得GPT-3 Beta的訪問權(quán)限時(shí),盡管填寫了一份冗長(zhǎng)的申請(qǐng)表,詳細(xì)解釋了將要構(gòu)建的當(dāng)前軟件,但被要求同意提供關(guān)于每天如何使用模型以及所收到的結(jié)果的反饋。OpenAI公司這樣做是有原因的,主要是因?yàn)檫@是一個(gè)研究項(xiàng)目,他們需要對(duì)模型的最佳應(yīng)用進(jìn)行商業(yè)洞察,他們通過眾籌來(lái)?yè)Q取參與這場(chǎng)偉大的人工智能革命的機(jī)會(huì)。聊天機(jī)器人應(yīng)用程序似乎是最受歡迎的應(yīng)用程序之一,所以ChatGPT首先出現(xiàn)。ChatGPT不僅規(guī)模更?。?00億個(gè)參數(shù)vs.1750億個(gè)參數(shù)),而且比GPT-3更快,而且在解決會(huì)話任務(wù)時(shí)比GPT-3更準(zhǔn)確——對(duì)于低成本/高質(zhì)量的人工智能產(chǎn)品來(lái)說,這是一個(gè)完美的商業(yè)案例。
那么,對(duì)于生成式人工智能來(lái)說,規(guī)模越大越好嗎?其答案是,要視情況而定。當(dāng)人們正在構(gòu)建一個(gè)能夠完成許多任務(wù)的通用學(xué)習(xí)模型時(shí),其答案是肯定的,其規(guī)模越大越好,GPT-3比GPT-2和其他前輩的優(yōu)勢(shì)證明了這一點(diǎn)。但是,當(dāng)人們想要很好地完成一項(xiàng)特定的任務(wù)時(shí),就像ChatGPT中的聊天機(jī)器人一樣,那么與模型和數(shù)據(jù)大小相比,數(shù)據(jù)焦點(diǎn)和適當(dāng)?shù)挠?xùn)練過程要重要得多。這就是為什么在SoMin公司沒有使用ChatGPT來(lái)生成文案和橫幅的原因,而是利用特定的數(shù)字廣告相關(guān)數(shù)據(jù)來(lái)指導(dǎo)GPT-3為尚未看到的新廣告制作更好的內(nèi)容。
那么,有人可能會(huì)問,生成式人工智能的未來(lái)將如何發(fā)展?多模態(tài)將是人們?cè)诩磳⒌絹?lái)的GPT-4中看到的不可避免的進(jìn)步之一,正如OpenAI公司首席執(zhí)行官Sam Altman在他的演講中提到的那樣。與此同時(shí),Altman還打破了該模型擁有100萬(wàn)億個(gè)參數(shù)的傳言。因此,人們都知道,這種人工智能模型越大并不總是代表著越好。