Reddit封鎖爬蟲,Google則花6000萬(wàn)美元獨(dú)占Reddit搜索結(jié)果

來(lái)源:十輪網(wǎng)
作者:十輪網(wǎng)
時(shí)間:2024-07-27
2807
Google現(xiàn)在是唯一可以從Reddit搜索出結(jié)果的搜索引擎,使網(wǎng)絡(luò)最有價(jià)值的用戶生成內(nèi)容倉(cāng)庫(kù)之一成為網(wǎng)絡(luò)搜索巨頭的獨(dú)占品。

Google現(xiàn)在是唯一可以從Reddit搜索出結(jié)果的搜索引擎,使網(wǎng)絡(luò)最有價(jià)值的用戶生成內(nèi)容倉(cāng)庫(kù)之一成為網(wǎng)絡(luò)搜索巨頭的獨(dú)占品。

如果你使用Bing、DuckDuckGo、Mojeek、Qwant或任何其他不依賴Google索引的替代搜索引擎,并使用“site:reddit.com”去搜索Reddit,你將看不到過(guò)去一周的任何結(jié)果。DuckDuckGo目前在搜索Reddit時(shí)只會(huì)會(huì)出現(xiàn)7個(gè)連接,但不提供這些連接的去向或原因的任何數(shù)據(jù),只是說(shuō)“我們想要在此處為你顯示摘要,但網(wǎng)站不允許”。較舊的結(jié)果仍會(huì)顯示,但這些搜索引擎不再能夠“爬取”Reddit,這意味著Google將是唯一能夠顯示Reddit結(jié)果的搜索引擎。在獨(dú)立的付費(fèi)搜索引擎Kagi上搜索Reddit仍然有效,Kagi從Google購(gòu)買了部分搜索索引。

這個(gè)消息顯示了Google在搜索方面的近乎壟斷地位,以及如何積極阻礙其他公司競(jìng)爭(zhēng)的能力,這個(gè)時(shí)間點(diǎn),剛好是Google因?yàn)槠渌阉鹘Y(jié)果品質(zhì)下降而面臨越來(lái)越多的批評(píng)。其他搜索引擎被排除在外,也發(fā)生在Reddit限制對(duì)其網(wǎng)站的訪問(wèn)以阻止公司爬取其內(nèi)容用于人工智能訓(xùn)練之后,目前只有Google可以繼續(xù)爬取Reddit的數(shù)據(jù),這是基于一項(xiàng)數(shù)百萬(wàn)美元的協(xié)議,該協(xié)議賦予Google爬取Reddit數(shù)據(jù)以訓(xùn)練其AI產(chǎn)品的權(quán)利。

“他們“Reddit”正在扼殺除Google以外的所有搜索引擎?!彼阉饕鍹ojeek的首席執(zhí)行官柯林·海赫斯特(Colin Hayhurst)在通話中告訴我。

海赫斯特在六月初Mojeek發(fā)現(xiàn)被禁止爬取該網(wǎng)站時(shí)嘗試通過(guò)電子郵件聯(lián)系Reddit,但表示尚未收到回復(fù)。

“這以前從來(lái)沒有發(fā)生過(guò)?!彼f(shuō)?!耙?yàn)檫@會(huì)發(fā)生在我們身上,我們被封鎖,通常是因?yàn)橛薮阑蚱渌?,?dāng)你聯(lián)系網(wǎng)站時(shí),你一定可以解決這個(gè)問(wèn)題,但我們從未遇到過(guò)沒有任何人回復(fù)的情況?!?/p>

“這與我們最近與Google的合作伙伴關(guān)系完全無(wú)關(guān)。由于我們最近與Google完成協(xié)議,說(shuō)最近的Reddit結(jié)果沒有出現(xiàn)在非Google搜索引擎中并不準(zhǔn)確。”Reddit發(fā)言人提姆?拉史密特(Tim Rathschmidt)在電子郵件中說(shuō)。他表示,Reddit會(huì)封鎖所有不愿意承諾不將爬取數(shù)據(jù)用于人工智能訓(xùn)練的爬蟲,而且Reddit一直“與多個(gè)搜索引擎進(jìn)行討論。我們無(wú)法與所有搜索引擎完成協(xié)議,因?yàn)橐恍┧阉饕鏌o(wú)法或不愿意就其對(duì)Reddit內(nèi)容的使用(包括用于人工智能)做出可執(zhí)行的承諾?!?/p>

然而,Reddit并沒有解釋為什么沒有回復(fù)來(lái)自Mojeek的電子郵件,而Mojeek并不會(huì)爬取網(wǎng)絡(luò)數(shù)據(jù)用來(lái)訓(xùn)練AI。

“我們?cè)敢馀c各種規(guī)模大小的公司合作,而且現(xiàn)在也在這樣做?!崩访芴卣f(shuō)。

越來(lái)越多的網(wǎng)站試圖通過(guò)更新robots.txt文件來(lái)阻止人工智能公司用來(lái)爬取其網(wǎng)站以進(jìn)行訓(xùn)練的機(jī)器人。Robots.txt是一個(gè)文本文件,它會(huì)指示機(jī)器人它們是否被允許訪問(wèn)網(wǎng)站。例如,Googlebot是Google用于爬取網(wǎng)絡(luò)以獲取搜索結(jié)果的爬蟲或“蜘蛛”。具有robots.txt文件的網(wǎng)站可以例外地授給Googlebot訪問(wèn)權(quán)限,而不授給其他機(jī)器人訪問(wèn)權(quán)限,因此它們可以出現(xiàn)在可以產(chǎn)生大量流量的搜索結(jié)果中。最近,Google還推出了Google-Extended,這是一個(gè)專門爬取網(wǎng)絡(luò)以改善其Gemini應(yīng)用程序的機(jī)器人,因此網(wǎng)站可以允許Googlebot爬取但封鎖Google用來(lái)驅(qū)動(dòng)其生成式AI產(chǎn)品的爬蟲。

Robots.txt只是指令,爬蟲可以并且已經(jīng)忽視了這些指示,但據(jù)海赫斯特說(shuō),Reddit也在積極主動(dòng)封鎖其爬蟲。

Reddit一直對(duì)人工智能公司爬取網(wǎng)站以訓(xùn)練大型語(yǔ)言模型感到不滿,并采取了公開和積極的措施阻止它們繼續(xù)這樣做。去年,當(dāng)Reddit開始收取訪問(wèn)其API的費(fèi)用時(shí),它破壞了許多Reddit社交媒體喜愛的第三方應(yīng)用程序,使許多這些第三方應(yīng)用程序的運(yùn)營(yíng)成本過(guò)高。今年早些時(shí)候,Reddit宣布與Google簽署了一項(xiàng)價(jià)值6000萬(wàn)美元的協(xié)議,允許Google可以得到授權(quán)用Reddit內(nèi)容來(lái)訓(xùn)練其AI產(chǎn)品。

Reddit的robots.txt過(guò)去包含許多笑話,例如禁止來(lái)自未來(lái)世界的機(jī)器人Bender爬取它(User-Agent:bender,Disallow:/my_shiny_metal_ass)和搜索引擎可以和不可以訪問(wèn)的特定頁(yè)面?!?r .rss/”被允許,而“/login”不被允許。

如今,Reddit的robots.txt更簡(jiǎn)單、更嚴(yán)格。除了幾個(gè)指向Reddit新的“公共內(nèi)容政策”的連接之外,該文件還簡(jiǎn)單地包含以下指令:

User-agent:

Disallow:/

這基本上意味著:任何用戶代理(機(jī)器人)都不得爬取網(wǎng)站的任何部分。

“Reddit信奉開放的網(wǎng)際網(wǎng)絡(luò),但不贊成濫用公共內(nèi)容,”更新后的robots.txt文件說(shuō)。

Reddit在6月表示:“不幸地,我們看到顯然商業(yè)化的實(shí)體越來(lái)越多地爬取Reddit內(nèi)容,并辯稱不受我們的條款或政策約束。更糟糕的是,他們躲在robots.txt背后,聲稱可以將Reddit內(nèi)容用于任何他們想要的用途。雖然我們將繼續(xù)盡我們所能找到并主動(dòng)阻止這些不良行為者,但我們需要做更多的事情來(lái)保護(hù)Reddit用戶的貢獻(xiàn)。在接下來(lái)的幾周內(nèi),我們將盡可能清楚地更新我們的robots.txt指令:如果你使用自動(dòng)代理程序訪問(wèn)Reddit,你需要遵守我們的條款和政策,并且需要與我們聯(lián)系?!?/p>

Reddit大約在6月25日左右更新了其robots.txt文件,當(dāng)時(shí)Mojeek的海赫斯特注意到他們的網(wǎng)絡(luò)爬蟲被封鎖了。當(dāng)時(shí)的公告稱:“像研究人員和網(wǎng)際網(wǎng)絡(luò)文件館等組織,將繼續(xù)可以訪問(wèn)Reddit內(nèi)容用于非商業(yè)用途,”并且“我們對(duì)與誰(shuí)合作以及信任誰(shuí)能大規(guī)模訪問(wèn)Reddit內(nèi)容持謹(jǐn)慎態(tài)度。”。公告還連接到一個(gè)關(guān)于訪問(wèn)Reddit數(shù)據(jù)的指南,該指南明確指出Reddit認(rèn)為“搜索或網(wǎng)站廣告”屬于“商業(yè)用途”,并且任何人都不能未經(jīng)許可或支付費(fèi)用而使用Reddit數(shù)據(jù)。

Google沒有回應(yīng)媒體的評(píng)論,但其宣布與Reddit完成協(xié)議的聲明不僅指出Reddit對(duì)于訓(xùn)練人工智能的價(jià)值,還還指出我們?cè)S多人已經(jīng)知道的事實(shí):隨著Google搜索在找到相關(guān)搜索結(jié)果方面變得越來(lái)越糟糕,獲得相關(guān)結(jié)果的最佳方式之一就是在你的搜索查詢中添加“Reddit”,將Google引導(dǎo)到一個(gè)真實(shí)的人類已經(jīng)寫了近二十年建議和推薦的網(wǎng)站。。有很多方法可以說(shuō)明Reddit的有用性,但不會(huì)做得比這段視頻更好:

Google現(xiàn)在是唯一能將用戶導(dǎo)向那些資訊的搜索引擎,而且這顯然是與Google花了6000萬(wàn)美元購(gòu)買AI訓(xùn)練數(shù)據(jù)有關(guān)。這再次顯示了,為了驅(qū)動(dòng)生成式AI工具而無(wú)差別地抓取整個(gè)網(wǎng)絡(luò),可能產(chǎn)生意想不到的后果。

海赫斯特說(shuō):“我們一直以來(lái)都以尊重的方式爬取資訊,并且已經(jīng)這樣做了20年。我們?cè)贑loudflare上經(jīng)過(guò)驗(yàn)證,我們不訓(xùn)練AI,就像真正的傳統(tǒng)搜索一樣,我們不做“答案引擎”之類的事情?!薄按鸢敢妗笔荘erplexity對(duì)其人工智能搜索引擎的稱呼?!癕ojeek的全部意義在于我們不進(jìn)行任何關(guān)注。但人們也使用我們是因?yàn)槲覀兲峁┝艘惶淄耆煌慕Y(jié)果。”

海赫斯特說(shuō),Reddit與Google的協(xié)議使提供這些替代搜索網(wǎng)絡(luò)的方式變得更加困難。

“這只是更大趨勢(shì)的一部分,不是嗎?”他說(shuō):“這讓我們非常擔(dān)心。網(wǎng)絡(luò)正在逐漸被消滅,被侵蝕。我不想以偏蓋全,但這對(duì)小公司來(lái)說(shuō)沒有幫助。”

立即登錄,閱讀全文
原文鏈接:點(diǎn)擊前往 >
文章來(lái)源:十輪網(wǎng)
版權(quán)說(shuō)明:本文內(nèi)容來(lái)自于十輪網(wǎng),本站不擁有所有權(quán),不承擔(dān)相關(guān)法律責(zé)任。文章內(nèi)容系作者個(gè)人觀點(diǎn),不代表快出海對(duì)觀點(diǎn)贊同或支持。如有侵權(quán),請(qǐng)聯(lián)系管理員(zzx@kchuhai.com)刪除!
優(yōu)質(zhì)服務(wù)商推薦
更多
掃碼登錄
打開掃一掃, 關(guān)注公眾號(hào)后即可登錄/注冊(cè)
加載中
二維碼已失效 請(qǐng)重試
刷新
賬號(hào)登錄/注冊(cè)
個(gè)人VIP
小程序
快出海小程序
公眾號(hào)
快出海公眾號(hào)
商務(wù)合作
商務(wù)合作
投稿采訪
投稿采訪
出海管家
出海管家