在與谷歌 Bard 加持的搜索引擎較量中,微軟基于 ChatGPT 的新必應(yīng)似乎完全占據(jù)了上風(fēng)。
這些天看下來,在與谷歌 Bard 加持的搜索引擎較量中,微軟基于 ChatGPT 的新必應(yīng)似乎完全占據(jù)了上風(fēng)。但仍不禁要問,新必應(yīng)的搜索結(jié)果真的無懈可擊嗎?最近有來自新加坡南洋理工大學(xué)和新加坡技術(shù)設(shè)計(jì)大學(xué)的NLP研究者深扒了微軟發(fā)布會(huì)上搜索演示的細(xì)節(jié),并揪出了很多錯(cuò)誤。
2 月 8 號(hào)美東時(shí)間八點(diǎn)半,谷歌發(fā)布會(huì)在巴黎召開。前一天微軟正式推出了新一代 AI 驅(qū)動(dòng)搜索引擎 New Bing,把基于 ChatGPT 技術(shù)的生成模型和 Bing 集成在一起。微軟副總裁 Yusuf Mehdi 進(jìn)行了一次完美的演示,當(dāng)日微軟市值暴漲 800 億美元。即便是在 OpenAI 沒有開放注冊(cè)的中國(guó),朋友圈、微信群里 Yusuf 展示的生成模型如何增強(qiáng) Bing 搜索引擎和 Edge 瀏覽器體驗(yàn)的片段也在瘋傳。汝之蜜糖,彼之砒霜,大家都在等著搜索巨頭谷歌怎么應(yīng)對(duì)。谷歌發(fā)布會(huì)的現(xiàn)場(chǎng),大家都在等待傳說中跟 New Bing 對(duì)標(biāo)的 Bard 登場(chǎng)。作為有谷歌搜索引擎加持的大語言模型,大家對(duì) Bard 充滿了遐想。然而,發(fā)布會(huì)現(xiàn)場(chǎng),關(guān)于 Bard 的內(nèi)容并不多。于是大家又把眼光投向了谷歌在推特上發(fā)布的 Bard 視頻,仔細(xì)扒下來,大家突然發(fā)現(xiàn) Bard 在回答問題時(shí)犯了事實(shí)性錯(cuò)誤。在被問及 “ 關(guān)于詹姆斯韋伯望遠(yuǎn)鏡的新發(fā)現(xiàn),有什么可以告訴我九歲孩子的?” 時(shí),Bard 回答道:第一張系外行星照片是由詹姆斯韋伯望遠(yuǎn)鏡拍攝。而事實(shí)卻是由歐洲南方天文臺(tái)的甚大望遠(yuǎn)鏡在 2004 年拍下的,此時(shí)距離詹姆斯韋伯望遠(yuǎn)鏡升空還有 18 年之久。這個(gè)錯(cuò)誤成了谷歌當(dāng)日股價(jià)大跌的導(dǎo)火索。圖 1 Bard 關(guān)于詹姆斯韋伯望遠(yuǎn)鏡演示截圖
而在巴黎發(fā)布會(huì)的現(xiàn)場(chǎng),盡管 Bard 的展示部分只有 4 分鐘左右,其關(guān)于星座最佳觀測(cè)時(shí)間的回答同樣存在明顯的事實(shí)偏差。如下圖,Bard 的回答中提到獵戶座最佳觀測(cè)時(shí)間是十一月到二月。圖 2 Bard 關(guān)于星系觀測(cè)時(shí)間演示截圖
根據(jù)不同信息源,獵戶座的最佳觀測(cè)時(shí)間不盡相同,但是都明確指出最佳觀測(cè)時(shí)段從每年一月起。教育科技網(wǎng)站 BYJU'S 提供的最佳時(shí)間為一月到三月,維基百科提供的最佳時(shí)間為一月到四月。圖 3 BYJU‘S 關(guān)于獵戶座最佳觀測(cè)時(shí)間的解答由于 Bard 發(fā)布會(huì)相較于 New Bing 發(fā)布會(huì)的落差,以及被揪出了事實(shí)性錯(cuò)誤,當(dāng)天谷歌市值暴跌近 1000 億美元,Bard 也因此被戲稱為史上最貴發(fā)布會(huì)。我們不禁好奇,在 New Bing 看似完美的發(fā)布會(huì)中,是不是也藏著事實(shí)性的錯(cuò)誤呢?New Bing 的事實(shí)性錯(cuò)誤我們發(fā)現(xiàn),New Bing 生成的內(nèi)容中摻雜了很多事實(shí)性錯(cuò)誤,包括名人身份信息、財(cái)報(bào)數(shù)字、夜店?duì)I業(yè)時(shí)間,等等。對(duì)于以 GPT 系列(包括 ChatGPT、InstructGPT 等)、T5 為代表的生成模型,事實(shí)性錯(cuò)誤可以粗分為以下兩類:- 生成內(nèi)容與引用內(nèi)容沖突。大語言模型在內(nèi)容生成過程中隨著序列增長(zhǎng),容易出現(xiàn)脫離引用內(nèi)容,造成增加、刪減或篡改原文的現(xiàn)象。
- 生成的內(nèi)容沒有事實(shí)依據(jù)。這類錯(cuò)誤通俗來說就是一本正經(jīng)得胡說八道。沒有事實(shí)依據(jù)的指引,僅靠模型預(yù)訓(xùn)練時(shí)候存儲(chǔ)的信息很容易使模型在生成過程中不知所云。很大概率會(huì)生成與事實(shí)不符或是和問題無關(guān)的內(nèi)容。
現(xiàn)在我們來檢視 New Bing 發(fā)布會(huì)以及 New Bing 演示所展示的例子,是否存在事實(shí)性錯(cuò)誤以及分別是什么類型。為了行文方便,我們把 New Bing 和集成在 Edge 的 New Bing 插件統(tǒng)稱為 New Bing。在 New Bing 發(fā)布會(huì)視頻 29:57 處,當(dāng) New Bing 被問到知名日本詩人時(shí),給出的答案包括 Eriko Kishida 岸田惠理子 (1930-2004), poet, playwright, and essayist 。圖 4 New Bing 演示中日本詩人例子截圖
然而根據(jù)維基百科和 IMDB 提供的信息,Eriko Kishida 的生卒年分別為 1929 和 2011。同時(shí),她也不是劇作家(playwright)和散文家(essaysit),而是詩人、翻譯家和童話作家。被 New Bing 轉(zhuǎn)了業(yè)還少活了八年,岸田的家人大概不太能接受。同時(shí)不幸被轉(zhuǎn)業(yè)的還有 Gackt 同學(xué)。據(jù)維基百科提供的信息,Gackt 玩過音樂、唱過歌、作過曲也演過戲,就是沒作過詩。在 New Bing 發(fā)布會(huì)視頻 35:49 處,Yusuf 展示集成了 New Bing 的 Edge 瀏覽器,對(duì)于打開的服飾公司蓋璞 (Gap) 2022 年第三季度的財(cái)報(bào),如何進(jìn)行要點(diǎn)生成。乍眼一看,New Bing 的總結(jié)非常實(shí)用,用關(guān)鍵點(diǎn)的方式庖丁解牛一般展示了 Gap 三季報(bào)的要點(diǎn),巴菲特看到此或許也會(huì)驚為真人。然而,當(dāng)我們找出 Gap 2022 年三季報(bào),仔細(xì)閱讀過后,發(fā)現(xiàn) New Bing 的總結(jié)錯(cuò)漏百出,讓人不忍直視。圖 5 New Bing 對(duì) Gap 2022 年第三季度財(cái)報(bào)的摘要首先,New Bing 給出了 Gap 調(diào)整后的運(yùn)營(yíng)毛利率(reported operating margin, adjusted for impairment charges and restrucring costs)為 5.9%。然而在財(cái)報(bào)中,Gap 的運(yùn)營(yíng)毛利率是 4.6%,調(diào)整后則是 3.9%。圖 6 Gap 2022 年第三季度財(cái)報(bào)截圖New Bing 接下來又給出調(diào)整后攤薄每股收益為 0.42 美元(diluted earnings per share, adjusted for impairment charges, restrucring costs and tax impact),但財(cái)報(bào)里的數(shù)據(jù)則是 0.71 美元。圖 7 Gap 2022 年第三季度財(cái)報(bào)截圖甚至 New Bing 給出了 Gap 全年的銷售指引為預(yù)計(jì)銷售凈增長(zhǎng)率為低雙位數(shù),而實(shí)際是四季度可能呈中間個(gè)位數(shù)下降。是下降而非增長(zhǎng),一詞之差,對(duì)用戶的投資行為將產(chǎn)生嚴(yán)重的誤導(dǎo),這虧錢了算誰的。New Bing 甚至無中生有,給出了更多的全年財(cái)務(wù)指引營(yíng)業(yè)毛利為 7%,攤薄每股收益為 1.6 美元到 1.75 美元之間,而這些數(shù)據(jù)在 Gap 三季度財(cái)報(bào)中統(tǒng)統(tǒng)沒有提到。圖 8 Gap 2022 年第三季度財(cái)報(bào)截圖視頻 36:15 處,Yusuf 又展示了用 New Bing 進(jìn)行 Gap 和體育休閑服品牌露露樂檬(Lululemon)財(cái)報(bào)對(duì)比的功能。這部分又是錯(cuò)誤信息的重災(zāi)區(qū)。圖 9 New Bing 對(duì) Gap 和 Lululemon 財(cái)報(bào)對(duì)比功能在右側(cè) New Bing 給出的表格中,除了上文所說的 Gap 營(yíng)業(yè)毛利 5.9% 應(yīng)為 4.6%(或調(diào)整后 3.9%)和 Gap 攤薄每股收益 0.42 美元應(yīng)為 0.77 美元(或調(diào)整后 0.71 美元), New Bing 又給出了 Gap 現(xiàn)金和現(xiàn)金等價(jià)物為 14 億美元的數(shù)據(jù),而實(shí)際上財(cái)報(bào)中是 6.79 億美元。圖 10 Lululemon 2022 年第三季度財(cái)報(bào)截圖
同樣的情況也出現(xiàn)在 New Bing 給出的 Lululemon 數(shù)據(jù)中。根據(jù) Lululemon 2022 三季報(bào)的數(shù)據(jù),New Bing 給出的 Lululemon 毛利率為 58.7%,實(shí)際上應(yīng)為 55.9%。New Bing 提到 Lululemon 營(yíng)業(yè)毛利為 20.6%,實(shí)際上應(yīng)為 19.0%。New Bing 給出 Lululemon 攤薄每股收益為 1.65 美元,實(shí)際上應(yīng)為 2.00 美元。圖 11 Lululemon 2022 年第三季度財(cái)報(bào)截圖我們不禁想問:New Bing 是如何對(duì)著 Gap 和 Lululemon 的財(cái)報(bào)一本正經(jīng)地胡說八道的?一個(gè)合理的推斷是,生成出來的這些錯(cuò)誤數(shù)據(jù),很可能是來自它預(yù)訓(xùn)練階段見過的財(cái)報(bào)分析數(shù)據(jù)。ChatGPT 這類大型語言模型的生成,隨著生成的序列越長(zhǎng),越容易脫離給定的 Gap 和 Lululemon 的財(cái)報(bào)數(shù)據(jù),放飛自我,生成不著邊際的虛假信息。在 New Bing 發(fā)布會(huì)視頻 29:17 處,New Bing 又為豐富墨西哥城的游客們的夜生活提供了毫無建設(shè)性的建議。對(duì)于其推薦的幾個(gè)夜店,如 Primer Nivel Night Club、El Almacen 和 El Marra,New Bing 提到這些酒吧沒有客戶評(píng)價(jià)、沒有聯(lián)系方式也沒有商店介紹。然而這些信息都可以在谷歌地圖或者商店的 Facebook 主頁上找到。看來 New Bing 網(wǎng)上沖浪力度還不夠。El Almacen 在 New Bing 里的營(yíng)業(yè)時(shí)間是周二到周日的下午五點(diǎn)到晚上十一點(diǎn),然而真實(shí)的營(yíng)業(yè)時(shí)間是除周一外的下午七點(diǎn)到凌晨三點(diǎn) 。這讓五點(diǎn)去吃晚飯的游客還得挨兩個(gè)小時(shí)的餓。Guadalajara de Noche 則是相反,實(shí)際營(yíng)業(yè)時(shí)間是每天的下午五點(diǎn)半到凌晨一點(diǎn)半或十二點(diǎn)半,而 New Bing 給出的營(yíng)業(yè)時(shí)間是下午八點(diǎn)開始??磥碛慰涂?New Bing 的建議去找餐廳,能不能吃到飯就得看運(yùn)氣了。除了上述的信息錯(cuò)誤,我們還發(fā)現(xiàn)了一系列散布在各個(gè)角落的事實(shí)錯(cuò)誤,比如商品價(jià)格誤差、商店地址錯(cuò)誤、時(shí)間錯(cuò)誤等。由于 New Bing 還沒有完全開放,我們無法直接在 New Bing 上拿到發(fā)布會(huì)現(xiàn)場(chǎng)的搜索結(jié)果,但是微軟提供了幾個(gè)實(shí)例演示,讓用戶體驗(yàn)。本著打破砂鍋問到底的精神,我們也把這幾個(gè)演示都放到放大鏡下進(jìn)行研究。我們發(fā)現(xiàn),即便是這幾個(gè)精心挑選的例子,里面還是有不少錯(cuò)誤信息。在“What art ideas can I do with my kid?”中,New Bing 給出了很多手工品制作建議。對(duì)于每一個(gè)手工品,New Bing 都總結(jié)了制作所需的材料。然而每一個(gè)手工品的材料總結(jié)都是不完整的。比如 New Bing 從引用網(wǎng)站中總結(jié)制作紙吉他需要紙盒、橡皮筋、顏料和膠水。但卻漏掉了引用中提到的海綿刷、膠帶和木珠。圖 13 New Bing 實(shí)例演示 “我可以和孩子一起做什么樣的手工?” 截圖 圖 14 引用網(wǎng)站中制作紙吉他所需材料截圖在 New Bing 的實(shí)例演示中還有一個(gè)非常明顯和常見的錯(cuò)誤,即給的引用鏈接與生成的內(nèi)容無關(guān),驢唇不對(duì)馬嘴。比如以下在“I need a big fast car.”的例子中,2022 版 Kia Telluride 沒有出現(xiàn)在所給的引用 10中。同時(shí)“時(shí)間穿越”問題在該例子中依舊不能避免,New Bing 聲稱 2022 版 Kia Telluride 獲得了 2020 年世界年度汽車獎(jiǎng),實(shí)際情況是當(dāng)年獲得該獎(jiǎng)項(xiàng)的是 Kia Telluride 2020 版本。2022 年世界年度汽車獎(jiǎng)獲得者則是 Hyundai IONIQ 5,而引用 7 也是與“2020 年世界年度汽車獎(jiǎng)”毫不相關(guān)的文章。我們?cè)谒袑?shí)例演示中找到了多達(dá) 21 處類似的錯(cuò)誤。圖 15 New Bing 演示實(shí)例 “我需要一輛大型快車” 截圖小結(jié):發(fā)現(xiàn)錯(cuò)誤將指引我們前進(jìn)從上述的分析可以看出,無論是 New Bing 還是 Bard,他們的回答都容易出現(xiàn)事實(shí)性錯(cuò)誤。當(dāng)全世界都驚訝于 ChatGPT 等大型語言模型展現(xiàn)出來的能力時(shí),當(dāng) ChatGPT 成為史上最快達(dá)到 1 億用戶的應(yīng)用之際,我們一方面是為 AI 的進(jìn)步振臂歡呼,一方面也需要冷靜地思考怎么解決 AI 目前還存在的諸多問題。自從 1956 年那群聚在達(dá)特茅斯學(xué)院的天才們,第一次定義了什么是人工智能之后,AI 經(jīng)歷了幾起幾落。近 70 年的發(fā)展過程中有很多讓人感動(dòng)的堅(jiān)持:是初代 AI 的稚嫩探索,是專家系統(tǒng)的勇敢嘗試,是 Hinton、Bengio、Lecun 這些學(xué)者把神經(jīng)網(wǎng)絡(luò)的冷板凳坐穿,是 DeepMind 用 AlphaGo 讓 AI 出圈,是谷歌、Meta、CMU、斯坦福、清華等一眾頂尖研究機(jī)構(gòu)堅(jiān)持開源,是 OpenAI 頂住壓力把 GPT 這個(gè)路線走通,是全球幾代科研人員的接力,我們才走到今天。然而,如果我們放任 AI 生成大量不真實(shí)的信息,那么不用多久,大眾對(duì)于 AI 建立的信心就會(huì)被摧毀,各種虛假信息也會(huì)充斥互聯(lián)網(wǎng)。我們指出大模型的錯(cuò)誤,并不是為了拉踩哪個(gè)公司或者哪個(gè)模型,相反,我們是要讓 AI 變得更好。正如阿根廷詩人博爾赫斯曾經(jīng)說過:任何命運(yùn),無論多么復(fù)雜漫長(zhǎng),實(shí)際上只反應(yīng)于一個(gè)瞬間,那就是人們徹底醒悟自己究竟是誰的那一刻。在 ChatGPT 等大模型已經(jīng)具備了媲美人類的文字能力時(shí),我們清楚地知道,下一步的重點(diǎn)是把真實(shí)世界的知識(shí)更完整準(zhǔn)確地融入大模型,讓 AI 模型安全地、可靠地、廣泛地應(yīng)用于人們的日常生活。我們從未如此期待,也從未如此接近那一刻的到來。
立即登錄,閱讀全文