運(yùn)營ChatGPT的OpenAI公司CEO Sam Altman最近在國會聽證會上呼吁政府對AI進(jìn)行監(jiān)管,引起了不小的轟動。Altman稱,“我們認(rèn)為,政府的監(jiān)管干預(yù)對于減輕日益強(qiáng)大的AI模式的風(fēng)險(xiǎn)至關(guān)重要。”
ChatGPT是AIGC的一個(gè)例子,這種技術(shù)可以通過學(xué)習(xí)嵌入在大量訓(xùn)練數(shù)據(jù)中的模式,自主創(chuàng)建新的原創(chuàng)內(nèi)容,如文本、圖像或音樂。AIGC在多個(gè)方面都與當(dāng)前其他的機(jī)器學(xué)習(xí)技術(shù)不同。
首先,AIGC模型(如GPT和Stable Diffusion)的輸出是開放式的。這些模型從零開始生成文本和圖像數(shù)據(jù),而其他常用的判別性(discriminative)ML模型(如分類或回歸模型)創(chuàng)建的輸出屬于一組定義良好的值(例如,Yes/No,0-1之間的數(shù)字)。情感分析模型將根據(jù)一些輸入文本產(chǎn)生積極或消極的情緒,GPT本身可以產(chǎn)生許多不同類型的輸入文本。
此外,與目前使用的大多數(shù)模型相反,當(dāng)前的AIGC模型已經(jīng)在大量數(shù)據(jù)集上進(jìn)行了訓(xùn)練。例如,OpenAI在5000億個(gè)令牌上訓(xùn)練了GPT-3。GPT-4、Stable Diffusion和Codex等最新版本的AIGC模型背后的組織尚未披露用于訓(xùn)練模型的確切訓(xùn)練數(shù)據(jù)。這引發(fā)了人們對潛在的隱私侵犯或版權(quán)侵犯的擔(dān)憂。
這些模型的絕對力量也使它們與眾不同。如今進(jìn)入市場的AIGC模型比過去的任何模型都要強(qiáng)大,而且它們開始展示出其沒有經(jīng)過專門訓(xùn)練來復(fù)制的“涌現(xiàn)特性”(emergent properties,指的是在一個(gè)復(fù)雜系統(tǒng)中,一些新的、意想不到的特性逐漸顯現(xiàn)出來,這些特性在系統(tǒng)的各個(gè)組成部分中并不存在)。從實(shí)際的角度來看,這意味著用于一個(gè)功能的模型可以被重新利用并用于其他任務(wù)。
最后,這些模型本質(zhì)上是不透明的。解釋一個(gè)有1750億參數(shù)的模型的結(jié)果,或者理解它是如何做出任何給定決定的,幾乎是不可能的。與此同時(shí),這項(xiàng)技術(shù)仍處于初期階段,目前的AIGC模型存在眾所周知的局限性,比如“幻覺”(hallucinations,即產(chǎn)生明顯錯(cuò)誤的信息),會產(chǎn)生新的風(fēng)險(xiǎn)。
AIGC的六大風(fēng)險(xiǎn)
AIGC模型的獨(dú)特屬性帶來了一系列我們在其他類型的模型中看不到的風(fēng)險(xiǎn)。以下是業(yè)務(wù)領(lǐng)導(dǎo)者在考慮AIGC項(xiàng)目時(shí)必須警惕的六大風(fēng)險(xiǎn)。
輸出質(zhì)量問題:首先,由于其不可預(yù)測的性質(zhì),確保AIGC模型生成的輸出質(zhì)量極具挑戰(zhàn)性。營銷GPT模型的一個(gè)結(jié)果可能與您的品牌指導(dǎo)方針一致,但另一個(gè)結(jié)果可能不一致。模型創(chuàng)作的廣告在一種文化背景下可能是合適的,但在另一種文化背景下可能是令人反感的。雖然人類可能會很快辨別出這些區(qū)別,但該模型缺乏對文化細(xì)微差別的意識,可能會無意中產(chǎn)生不適當(dāng)?shù)膬?nèi)容。因此,人工審查對于評估輸出質(zhì)量仍然是必不可少的。
虛構(gòu)的“事實(shí)”和幻覺:第二,AIGC模型雖然發(fā)展迅速,但仍然存在明顯的局限性,最重要的可能是上面提到的模型編造“事實(shí)”時(shí)的“幻覺”。結(jié)果可能是無害的(誤報(bào)誰發(fā)明了軋棉機(jī)),也可能引發(fā)訴訟(捏造刑事指控)。在企業(yè)應(yīng)用程序中,模型產(chǎn)生幻覺的可能性意味著,在需要準(zhǔn)確信息(如搜索)的情況下使用這些工具之前,需要設(shè)置重要的防護(hù)機(jī)制。
版權(quán)和其他法律風(fēng)險(xiǎn):第三,AIGC存在潛在的重大法律和監(jiān)管風(fēng)險(xiǎn),例如,AIGC工具在未經(jīng)創(chuàng)作者許可的情況下使用了受版權(quán)保護(hù)的材料。此外,AIGC應(yīng)用程序的使用條款往往缺乏對用戶交互數(shù)據(jù)用于模型改進(jìn)的明確規(guī)定,這可能會引發(fā)隱私和安全問題,就像涉及企業(yè)源代碼的事件一樣。此外,AIGC模型的訓(xùn)練數(shù)據(jù)缺乏透明度可能會導(dǎo)致監(jiān)管影響,意大利出于對隱私、輸出準(zhǔn)確性和年齡驗(yàn)證的擔(dān)憂而暫時(shí)禁止ChatGPT就是明證。
有偏見的輸出:第四,基于用于訓(xùn)練模型的數(shù)據(jù)中的偏見,AIGC模型與其他模型一樣容易遭受有偏見輸出的風(fēng)險(xiǎn)。例如,Stable Diffusion可能會根據(jù)提示顯示“公司首席執(zhí)行官”的圖像,并只生成白人男性的圖像。傳統(tǒng)的機(jī)器學(xué)習(xí)模型也會帶來同樣的公平和偏見風(fēng)險(xiǎn),但當(dāng)AIGC直接與客戶互動時(shí),新AI模型的生成特性會增加風(fēng)險(xiǎn)。
易被濫用:第五,AIGC的絕對力量使其容易被“越獄”。雖然GPT的訓(xùn)練主要集中在單詞預(yù)測上,但它的推理能力是一個(gè)意想不到的結(jié)果。隨著我們在AIGC模型方面取得進(jìn)展,用戶可能會發(fā)現(xiàn)繞過模型最初預(yù)期功能的方法,并將其用于完全不同的目標(biāo)。例如,如果您的心理健康聊天機(jī)器人是使用GPT開發(fā)的,惡意行為者可能會破解聊天機(jī)器人,引發(fā)不適當(dāng)?shù)捻憫?yīng)或泄露機(jī)密數(shù)據(jù)。幾乎所有基于GPT構(gòu)建的聊天界面在發(fā)布后不久都容易被“越獄”。
專業(yè)知識和計(jì)算成本:第六,也是最后一點(diǎn),與AIGC開發(fā)應(yīng)用相關(guān)的額外有形業(yè)務(wù)風(fēng)險(xiǎn)是專業(yè)知識和計(jì)算資源的有限可用性。目前,只有少數(shù)著名的技術(shù)公司能夠集中資源來使用這種技術(shù)構(gòu)建彈性應(yīng)用程序。雖然云提供商可以提供計(jì)算能力,或者組織可以使用OpenAI或Azure的API,但該領(lǐng)域的專業(yè)知識仍然集中在少數(shù)實(shí)體手中。
這并不是說業(yè)務(wù)領(lǐng)導(dǎo)者不應(yīng)該推進(jìn)AIGC項(xiàng)目。但他們應(yīng)該在自己的AIGC之旅中,睜大眼睛洞察這項(xiàng)技術(shù)的潛在風(fēng)險(xiǎn),并在必要時(shí)采取措施緩解這些風(fēng)險(xiǎn)。