“生成式AI(Generative AI)的興起,給定義、衡量和消除公平性、合規(guī)和知識產(chǎn)權等方面的問題帶來了全新挑戰(zhàn)。但是,越來越多的企業(yè)已經(jīng)開始研究相應的解決方案?!?/p>
——Michael Kearns
Amazon Scholar、賓夕法尼亞大學
計算機信息與信息科學系教授
Michael Kearns
近幾年,甚至是最近幾個月,生成式AI技術取得了顯著性發(fā)展與進步。生成式AI基礎模型是在大規(guī)模文本、代碼、圖像和其他內(nèi)容的數(shù)據(jù)集上進行訓練的?,F(xiàn)在,它們能夠按需生成連貫、引人入勝的故事,新聞摘要,詩歌,歌詞,繪畫作品和程序等。我們相信,生成式AI的潛在應用場景才剛剛開始被發(fā)掘,會有涉及多個方面并兼具革命性的場景迎來爆發(fā)式增長,其中包含寫作輔助、創(chuàng)意內(nèi)容生成和提煉、個人助手、廣告文案撰寫、代碼生成等。
因此,人們對于生成式AI帶來的轉(zhuǎn)變和新機遇感到興奮。但同時,也伴有一些擔憂——其中一些是傳統(tǒng)負責任的AI(如公平性和隱私性)的新轉(zhuǎn)變,還有部分是真正的新問題(例如對藝術或文學風格的模仿)。在本文中,我們研究了這些問題以及它們?nèi)绾坞S著時間推移得到解決。
我們主要關注了消除風險的技術方法,同時承認社會、法律、監(jiān)管和政策機制也將發(fā)揮重要作用。在亞馬遜云科技,我們希望此類兼具平衡性的方法可顯著降低風險,同時仍然保留生成式AI的許多激動人心和有用的特性。
生成式AI的問題何在?
生成式AI中的“生成式”是指:該技術可生成開放式內(nèi)容,內(nèi)容會在重復嘗試后不斷變化。因此,對于生成式AI生成的翔實、極富創(chuàng)造性和開放式內(nèi)容,我們?yōu)榇烁冻龅钠渲幸粋€代價是,與傳統(tǒng)預測機器學習相比,定義、衡量和落實公平性的困難度更高。
從公平性到隱私性
同樣地,我們需要考慮隱私問題。生成式AI具備的開放性擴大了大眾的關注范圍,從一字不差地泄露訓練數(shù)據(jù)到更微妙的復制現(xiàn)象。例如,如果程序員使用特定變量名稱編寫部分代碼,然后要求大語言模型幫助編寫子例程,大語言模型會從訓練數(shù)據(jù)生成代碼,但程序員選擇的變量名稱也將替換原始變量名稱。當然,訓練數(shù)據(jù)雖包含生成的代碼,但也只是外觀略有不同。
市面上,現(xiàn)有一些針對這些挑戰(zhàn)的防御措施,其中包含管理訓練數(shù)據(jù)、排除私人信息,以及檢測代碼段相似性的技術,但更微妙的復制方式也可實現(xiàn)。傳統(tǒng)機器學習雖已開始開發(fā)可解釋訓練模型的決策或預測的技術,但并非始終適用于生成式AI,其中的部分原因是現(xiàn)有生成式模型偶爾會生成無法解釋的內(nèi)容(例如實際不存在的科學引文)。
負責任的生成式AI的特殊挑戰(zhàn)
對于生成式AI而言,日常關注負責任的AI領域愈發(fā)困難,生成式AI也帶來了挑戰(zhàn)。我們來討論以下這些方面的內(nèi)容。
·違規(guī)。生成式AI的主要問題是生成冒犯、令人焦慮或其他不當內(nèi)容(無論是文本、圖像或其他形式)的可能性。而且,甚至難以定義和確定問題的范圍。確定哪些因素構成有害內(nèi)容涉及的主觀性是一項額外挑戰(zhàn),限制違規(guī)內(nèi)容與審查之間的界限可能模糊不清,這取決于背景和文化。如果明確標記為引文,是否應屏蔽被視為具有冒犯性和斷章取義的引文?對部分用戶具有冒犯性但明確標記為觀點的內(nèi)容意見,將如何處理?技術挑戰(zhàn)包括冒犯性內(nèi)容,這些內(nèi)容采用非常微妙或間接措辭的形式,而非明顯的煽動性語言。
·錯覺。鑒于大語言模型采用后續(xù)詞匯分布抽樣,因此在更客觀或更真實的用例中,大語言模型極易受偶爾稱為錯覺的影響,即似乎可信但實際驗證不正確的斷言或主張。例如,當前大語言模型的常見現(xiàn)象是,創(chuàng)建實際不存在的科學引文。如果通過請求“請與我分享一些邁克爾·卡恩斯撰寫的論文”提示其中一個大語言模型,實際并不會搜索合法引文,而是從與該作者關聯(lián)的詞匯分布中生成引文。生成的結果是機器學習領域的實際標題和主題,而非真正的文章,內(nèi)容可能包含看似合理的合著者,實際內(nèi)容卻沒有。
同樣地,財經(jīng)新聞報道的提示不會觸發(fā)搜索(例如)《華爾街日報》文章,而是大語言模型使用財經(jīng)詞匯隨意捏造的新聞文章。請注意,在童話創(chuàng)作場景中,此類創(chuàng)造力無害,甚至可取。但現(xiàn)有大語言模型不支持用戶區(qū)分“使用創(chuàng)造力”和“未使用創(chuàng)造力”的用例。
·知識產(chǎn)權。早期大語言模型的問題是偶爾傾向于生成特定文本或代碼段,這些內(nèi)容會一字不差地對部分訓練數(shù)據(jù)進行“反流”,進而引發(fā)隱私和其他問題。但即使這方面有所改進,也未能阻止復制更模糊和微妙的訓練內(nèi)容。請考慮,上述多模式生成式模型的提示“以安迪沃霍爾(Andy Warhol)的風格創(chuàng)作一幅貓在玩滑板的畫作”。如果模型可以令人信服但仍以原始的方式實現(xiàn)創(chuàng)作,將對此類模仿提出異議,這是因為該模型接受真實的沃霍爾繪畫的訓練。
·剽竊和作弊。生成式AI的創(chuàng)造性引發(fā)了大眾擔憂,具體是該模型用于撰寫大學論文,為工作申請書編寫樣本,以及其他形式的作弊或非法復制。各大院校和眾多其他機構就此話題展開激烈討論,而且態(tài)度差異明顯。部分人同意明確禁止在分級內(nèi)容或評估環(huán)境中使用生成式AI,另一部分人認為教育實踐活動應當適應甚至接受新技術。但驗證指定內(nèi)容片段是否由某人創(chuàng)作的潛在挑戰(zhàn),大概率會在多數(shù)情況下引發(fā)爭議。
·對工作特性的負面影響。生成式AI可熟練創(chuàng)建備受好評的文本和圖像,在標準化測試中性能穩(wěn)定,針對指定主題創(chuàng)作整篇文章,并成功總結或更正指定文章的語法,這引起了小范圍焦慮,該技術可能取代部分職業(yè)或產(chǎn)生較大的負面影響。雖為時尚早,但似乎生成式AI會對工作的諸多方面產(chǎn)生革命性影響,支持機器處理大量此前超出自動化范疇的任務。
應對措施?
以上挑戰(zhàn)貌似困難重重,部分原因是與前幾代人工智能相比,大眾不太熟悉這些模型。但隨技術人員和大眾深入了解生成式AI及其用途和局限性,科學界或相關政府機構會劃分新科學和制定新政策,從而應對這些挑戰(zhàn)。
對于違規(guī)和公平性,謹慎管理訓練數(shù)據(jù)可能會有些許幫助。但畢竟,如果數(shù)據(jù)不含任何冒犯性或偏見的詞匯或詞組,大語言模型根本無法生成任何內(nèi)容。但此類方法又要求我們提前標識這些令人不悅的詞組,并確定絕對沒有這些內(nèi)容適用地輸出上下文。特定于用例的測試也有助于解決公平性問題——例如,在消費者貸款等高風險領域應用生成式AI前,可針對特定應用開展公平性測試,這一點與適用范圍更狹窄的預測模型相似。
對于針對性更小的違規(guī)概念,一種自然方法是訓練護欄模型,檢測并篩出訓練數(shù)據(jù),輸入提示和生成輸出不需要的內(nèi)容。此類模型需要人工對訓練數(shù)據(jù)進行注釋,確定其中類型和程度不同的違規(guī)或偏見,便于模型完成生成作業(yè)。通常,由于我們計劃解決任務的極端通用性,因此控制生成模型輸出比管理訓練數(shù)據(jù)和提示更容易。
對于沒有任何錯覺的高真實度內(nèi)容,創(chuàng)作此類內(nèi)容的挑戰(zhàn)在于重要的第一步是向用戶講解生成式AI的實際工作方式,避免產(chǎn)生引文或類似新聞報道始終真實或事實正確但不切合實際的期待。實際上,在問到無法引用實際引文時,一些現(xiàn)有的大語言模型會告知用戶它們是語言模型,不會使用外部來源驗證內(nèi)容。此類免責聲明應更加頻繁,內(nèi)容更加明確。使用已驗證的獨立引文數(shù)據(jù)庫和相似來源增強大語言模型,并采用檢索增強生成,可在一定程度上解決錯覺引文的具體問題。另一種新出現(xiàn)的有趣方法是,制定將生成輸出歸因于特定訓練數(shù)據(jù)片段的方法,支持用戶評估這些來源的有效性。這對解釋問題也有所幫助。
隨時間推移,技術、政策和法律機制的綜合方案有望緩解圍繞知識產(chǎn)權產(chǎn)生的擔憂。短期內(nèi),科學開始融入圍繞模型追繳的各種概念,進而減少或消除受保護的內(nèi)容或其對生成輸出的影響。一種最終證明相關性的技術是差分隱私,對于模型隨后生成的輸出,模型的訓練方式確保了任何特定訓練數(shù)據(jù)片段對其的影響忽略不計。
另一種方法是所謂的分片方法,將訓練數(shù)據(jù)拆分為更小的部分,使用這些部分對單獨的子模型進行訓練;然后,合并子模型,從而構成整體模型。為消解任何特定數(shù)據(jù)項對整體模型的影響,僅需將其從分片中移除并重新訓練該子模型,而非重新訓練整體模型(對于生成式AI,成本過于昂貴,令人望而卻步)。
最后可考慮篩選或屏蔽方法,在為用戶提供前,顯式對比生成的內(nèi)容與訓練數(shù)據(jù)或其他位置的受保護內(nèi)容,若相似度高,屏蔽(或替換)。對任何特定內(nèi)容片段在訓練數(shù)據(jù)中出現(xiàn)的次數(shù)加以限制,這也有助于減少一字不差的輸出。
目前,正在開發(fā)一些使用生成式AI阻止作弊的有趣方法。一種方法是,僅訓練模型檢測指定文本(例如)由人類提供或生成式模型生成。潛在缺點是,這在檢測模型與生成式AI之間引發(fā)了軍備競賽。由于生成式AI的目的是創(chuàng)作由人類合理生成的高質(zhì)量內(nèi)容,因此從長遠來看,目前尚不明確檢測方法是否有效。
一種有趣的備選方案是,由生成式模型的開發(fā)人員自行實施的水印或指紋識別方法。例如由于大語言模型在每個步驟會從指定文本的后續(xù)詞匯分布中提取,可將候選詞匯分為“紅色”和“綠色”列表,每個列表的概率約為50%;然后,支持大語言模型僅從綠色列表提取。由于用戶不清楚綠色列表中的單詞,因此他們僅使用從綠色列表提取的10個詞匯生成語句的概率是?,并提高到10次方,也即大約0.0009。采用此方式,可將全綠色內(nèi)容視為大語言模型生成的虛擬證明。請注意,作為部分服務產(chǎn)品,大語言模型開發(fā)人員需提供此類證明或證書。
在每個步驟,模型私下會自行將可能的后續(xù)詞匯分為綠色和紅色列表。然后,僅從綠色列表采樣后續(xù)詞匯。
對于生成語句的用戶,他們并不清楚劃分綠色和紅色列表,因此非常有可能選擇混搭綠色和紅色詞匯的次序。由于在長語句中,人類選擇全綠色次序的可能性幾乎為零,因此可將全綠色語句視作包含由負責任的AI生成的證明。
眾所周知,沒有任何有效的技術預防措施可消除對工作的負面影響,關于解決方案的意見分歧存在較大差距。顯而易見,在多個專業(yè)領域中,生成式AI可能是高效的效率工具,至少改變了目前人類與機器的分工。該技術也有可能為更廣泛的社區(qū)拓展現(xiàn)有職業(yè)(最近社交媒體出現(xiàn)特定文化但又并不完全荒謬的熱詞是“英語是新編程語言”,這便是對大語言模型代碼生成能力的認可),甚至創(chuàng)造全新的就業(yè)形式,例如提示工程師(現(xiàn)有維基百科條目主題,于今年2月創(chuàng)建)。
最后,我們發(fā)現(xiàn),在生成式AI的生成和安全使用過程中,最終用戶引導和培訓將發(fā)揮關鍵作用。隨著生成式AI的潛在用途越來越完善,弊端越來越得到廣泛理解,用戶也會利用自己的常識完善上述的部分預防措施。
結論
生成式AI激起了大眾熱烈的討論,也誘發(fā)了合理的恐懼。我們嘗試對關切的問題開展部分調(diào)查,并提出了解決這些問題的前瞻性方法。值得強調(diào)的是,在生成式時代解決負責任的AI風險是一個迭代過程:不可能一勞永逸。隨著技術以及我們對該模型的態(tài)度發(fā)生變化,這種情況肯定也會相應變化;唯一不變的是,必須在熱情與對關切問題的實際和有效檢查之間取得平衡。