開(kāi)始審計(jì)和控制訪問(wèn)您站點(diǎn)內(nèi)容的AI模型

來(lái)源：Cloudflare

作者：Cloudflare

時(shí)間：2024-11-02

網(wǎng)站所有者一直無(wú)法確定AI服務(wù)如何使用他們的內(nèi)容進(jìn)行訓(xùn)練或其他用途。

網(wǎng)站所有者一直無(wú)法確定AI服務(wù)如何使用他們的內(nèi)容進(jìn)行訓(xùn)練或其他用途。為此，Cloudflare發(fā)布了一套工具，旨在幫助網(wǎng)站擁有者、創(chuàng)作者和出版商重新掌控他們的內(nèi)容如何提供給與AI相關(guān)的機(jī)器人和爬蟲。所有Cloudflare客戶現(xiàn)在都可以審核和控制AI模型如何訪問(wèn)其站點(diǎn)上的內(nèi)容。

首先是一個(gè)詳細(xì)的分析視圖，展示了爬取您網(wǎng)站的AI服務(wù)以及它們?cè)L問(wèn)的具體內(nèi)容?？蛻艨梢园碅I提供商、機(jī)器人類型查看活動(dòng)，以及網(wǎng)站的哪些部分最受歡迎。Cloudflare上的每個(gè)站點(diǎn)都可以使用這些數(shù)據(jù)，并且不需要任何配置。

我們希望這種新級(jí)別的可見(jiàn)性能促使團(tuán)隊(duì)決定是否將內(nèi)容暴露給AI爬蟲。為了給他們提供做出決定的時(shí)間，Cloudflare現(xiàn)已在儀表板中提供了一鍵選項(xiàng)，可以即刻阻止任何AI爬蟲訪問(wèn)任何站點(diǎn)。團(tuán)隊(duì)可利用這個(gè)“暫停窗口期”來(lái)決定是否允許特定的AI提供商或哪些類型的機(jī)器人繼續(xù)訪問(wèn)。一旦做出決定，管理員只需點(diǎn)擊幾下鼠標(biāo)，就可以使用Cloudflare儀表板中的新過(guò)濾器實(shí)施這些策略。

一些客戶已經(jīng)決定直接與AI公司談判以達(dá)成協(xié)議。這些合同中的很多都包含了關(guān)于掃描頻率和可訪問(wèn)內(nèi)容類型的條款。我們希望這些發(fā)布者擁有工具來(lái)進(jìn)一步衡量這些協(xié)議的具體實(shí)施情況。作為本次更新發(fā)布的一部分，Cloudflare客戶現(xiàn)在可以一鍵生成報(bào)告，用于審計(jì)這些協(xié)議中允許的活動(dòng)。

同時(shí)，我們也認(rèn)為任何規(guī)模的網(wǎng)站都應(yīng)該能夠針對(duì)AI模型使用其內(nèi)容設(shè)定合理的相應(yīng)“就地取材”的補(bǔ)償。所以，本次更新的公告也包括一項(xiàng)新的Cloudflare變現(xiàn)功能：該功能將為網(wǎng)站擁有者提供就對(duì)其內(nèi)容的掃描設(shè)置價(jià)格、控制訪問(wèn)和獲取價(jià)值的工具。

當(dāng)下所面臨的問(wèn)題是什么？

互聯(lián)網(wǎng)上的機(jī)器人和爬蟲大致分為兩類：好和壞。好的機(jī)器人，比如搜索引擎爬蟲，幫助用戶發(fā)現(xiàn)您的網(wǎng)站并為您帶來(lái)流量。而壞的機(jī)器人會(huì)嘗試破壞您的網(wǎng)站，搶在客戶前面排隊(duì)，或者抓取競(jìng)爭(zhēng)數(shù)據(jù)。我們?yōu)榇舜蛟斓腃loudflare Bot Management平臺(tái)，讓您能夠區(qū)分這兩大類機(jī)器人，并可以根據(jù)情況設(shè)置為允許或阻止它們。

人工智能大型語(yǔ)言模型（LLM）和其他生成式工具的興起創(chuàng)造了更加模糊的第三類。不同于惡意機(jī)器人，與這些平臺(tái)相關(guān)的爬蟲不會(huì)積極嘗試使您的網(wǎng)站下線或妨礙您的客戶；也并不會(huì)試圖竊取敏感數(shù)據(jù)；它們只想瀏覽您網(wǎng)站上已經(jīng)公開(kāi)的內(nèi)容。

然而，與有用的機(jī)器人不同，這些與AI相關(guān)的爬蟲不一定會(huì)為您的網(wǎng)站帶來(lái)流量。AI Data Scraper（人工智能數(shù)據(jù)抓?。C(jī)器人掃描您網(wǎng)站上的內(nèi)容以訓(xùn)練新的LLM。然后，您的內(nèi)容會(huì)被放入一種混合器中與其他內(nèi)容混合在一起，并用于回答用戶問(wèn)題，不會(huì)注明來(lái)源，也不需要用戶訪問(wèn)您的網(wǎng)站。另一種爬蟲是AI Search Crawler（人工智能搜索爬蟲）機(jī)器人，它們會(huì)掃描您的內(nèi)容，并在響應(yīng)用戶的搜索時(shí)嘗試進(jìn)行引用。缺點(diǎn)是那些用戶可能僅停留在該界面內(nèi)，而不會(huì)訪問(wèn)您的網(wǎng)站，因?yàn)榇鸢敢呀?jīng)在他們面前的頁(yè)面上匯總了。

這種模糊性讓網(wǎng)站擁有者面臨一個(gè)艱難的決定-價(jià)值交換不明確。而且網(wǎng)站擁有者在追趕的過(guò)程中處于劣勢(shì)。許多網(wǎng)站允許這些AI爬蟲掃描其內(nèi)容，因?yàn)樗鼈冊(cè)诖蠖鄶?shù)情況下看起來(lái)像“好的”機(jī)器人——結(jié)果卻導(dǎo)致他們的網(wǎng)站流量減少，因?yàn)樗麄兊膬?nèi)容已被重新包裝在AI生成的答案中。

我們認(rèn)為這給開(kāi)放的互聯(lián)網(wǎng)構(gòu)成了風(fēng)險(xiǎn)。如果無(wú)法控制掃描和實(shí)現(xiàn)價(jià)值，網(wǎng)站擁有者將缺乏啟動(dòng)或維護(hù)互聯(lián)網(wǎng)資產(chǎn)的動(dòng)力。創(chuàng)作者會(huì)把更多內(nèi)容放在付費(fèi)區(qū)，而最大的出版商會(huì)直接達(dá)成交易。反過(guò)來(lái)，AI模型提供者將難以在較小的網(wǎng)站上找到和訪問(wèn)高質(zhì)量的長(zhǎng)尾內(nèi)容。

這導(dǎo)致雙方都缺乏建立健康、透明的權(quán)限和價(jià)值交換的工具。從今天開(kāi)始，Cloudflare為網(wǎng)站擁有者提供他們解決這個(gè)問(wèn)題所需的服務(wù)。如下詳細(xì)列出我們建議所有客戶遵循的一系列步驟。

第一步：了解AI模型如何使用您的站點(diǎn)

Cloudflare上的每個(gè)站點(diǎn)現(xiàn)在都可以訪問(wèn)一個(gè)新的分析視圖，其中總結(jié)了流行和已知AI服務(wù)的爬取行為。您可以在儀表板中選擇一個(gè)站點(diǎn)，然后導(dǎo)航到左側(cè)導(dǎo)航欄的AI Audit選項(xiàng)卡以開(kāi)始查看此信息，了解AI如何對(duì)您的內(nèi)容進(jìn)行掃描。

當(dāng)AI模型提供者訪問(wèn)您網(wǎng)站上的內(nèi)容時(shí)，它們會(huì)依靠稱為“機(jī)器人”或“爬蟲”的自動(dòng)化工具來(lái)掃描頁(yè)面。機(jī)器人將請(qǐng)求頁(yè)面內(nèi)容，捕獲響應(yīng)，將其存儲(chǔ)為未來(lái)數(shù)據(jù)訓(xùn)練集的一部分，或者記住它以供未來(lái)的AI搜索引擎結(jié)果使用。

這些機(jī)器人常常通過(guò)在其請(qǐng)求中包含一個(gè)稱為用戶代理的HTTP標(biāo)頭來(lái)向您的站點(diǎn)（和Cloudflare的網(wǎng)絡(luò)）表明它們自己的身份。但是在某些情況下，來(lái)自其中一個(gè)AI服務(wù)的機(jī)器人可能不會(huì)發(fā)送標(biāo)頭，因而Cloudflare會(huì)依賴其他啟發(fā)式方法來(lái)識(shí)別它們，例如IP地址或行為。

當(dāng)機(jī)器人表明身份時(shí)，標(biāo)頭將包含一串帶有機(jī)器人名稱的文本。例如，Anthropic有時(shí)會(huì)使用名為ClaudeBot的機(jī)器人在互聯(lián)網(wǎng)上爬取站點(diǎn)。當(dāng)該服務(wù)從您在Cloudflare上的站點(diǎn)請(qǐng)求某個(gè)頁(yè)面的內(nèi)容時(shí)，Cloudflare將用戶代理記錄為ClaudeBot。

Cloudflare會(huì)獲取從網(wǎng)站訪問(wèn)中收集的日志，并查找與已知AI機(jī)器人和爬蟲相匹配的用戶代理。我們會(huì)匯總每個(gè)爬蟲的活動(dòng)，并為您提供過(guò)濾器，以查看僅來(lái)自特定AI平臺(tái)的活動(dòng)。許多AI公司使用多個(gè)爬蟲來(lái)完成不同的任務(wù)。當(dāng)OpenAI掃描站點(diǎn)以進(jìn)行數(shù)據(jù)抓取時(shí)，它們依賴于GPTBot，但在為其新的AI搜索引擎抓取站點(diǎn)時(shí)，則使用OAI-SearchBot。

這些差異很重要。來(lái)自不同類型機(jī)器人的掃描可能會(huì)影響您網(wǎng)站的流量或內(nèi)容的歸屬。作為響應(yīng)的一部分，AI搜索引擎通常會(huì)鏈接到網(wǎng)站，從而可能將訪問(wèn)者帶到您的站點(diǎn)。在這種情況下，您可能希望這些類型的機(jī)器人對(duì)您的互聯(lián)網(wǎng)資產(chǎn)進(jìn)行爬取。另一方面，AI數(shù)據(jù)抓取工具的存在就是為了盡可能多地閱讀互聯(lián)網(wǎng)上的信息，以訓(xùn)練未來(lái)的模型或改進(jìn)現(xiàn)有的模型。

我們認(rèn)為您應(yīng)該知道機(jī)器人爬取您網(wǎng)站的原因、時(shí)間和頻率。本次發(fā)布的更新將提供一個(gè)過(guò)濾器，供您按AI Data Scraper、AI Search Crawler和Archiver等類別查看機(jī)器人活動(dòng)。

利用這些數(shù)據(jù)，您可以開(kāi)始分析AI模型如何訪問(wèn)您的網(wǎng)站。這些信息可能會(huì)讓人感到不知所措，尤其是如果您的團(tuán)隊(duì)還沒(méi)有時(shí)間決定如何處理AI對(duì)您的內(nèi)容的掃描。如果您發(fā)現(xiàn)自己不確定該如何進(jìn)行下一步響應(yīng)，請(qǐng)繼續(xù)進(jìn)行第2步。

第二步：先暫停，思考一下，決定下一步該做什么

我們與幾家組織進(jìn)行了交談，他們知道自己的網(wǎng)站對(duì)AI爬蟲來(lái)說(shuō)是有價(jià)值的目的地，但還不知道該如何處理。這些團(tuán)隊(duì)需要“暫?！币幌?，以便就如何向這些服務(wù)提供他們的數(shù)據(jù)做出明智的決定。

Cloudflare現(xiàn)在就為您提供了這樣一個(gè)簡(jiǎn)單的按鈕。使用任何計(jì)劃的任何客戶都可以選擇阻止所有AI機(jī)器人和爬蟲，以便在決定允許什么之前先暫停一下。

要啟用該選項(xiàng)，請(qǐng)導(dǎo)航到Cloudflare儀表板“安全”選項(xiàng)卡下的“機(jī)器人”部分。點(diǎn)擊右上角的藍(lán)色鏈接，配置Cloudflare代理處理機(jī)器人流量的方式。接下來(lái)，將“阻止AI Scrapers和Crawlers”卡片中的按鈕切換到“開(kāi)啟”位置。

這個(gè)一鍵式選項(xiàng)會(huì)根據(jù)Cloudflare維護(hù)的列表阻止已知的AI相關(guān)機(jī)器人和爬蟲訪問(wèn)您的網(wǎng)站。實(shí)施屏蔽后，您和您的團(tuán)隊(duì)可以更從容地決定接下來(lái)該如何處理您的內(nèi)容。

第三步：控制要允許的機(jī)器人

暫停按鈕為您的團(tuán)隊(duì)爭(zhēng)取了時(shí)間，讓您決定希望這些爬蟲與您的內(nèi)容之間建立什么樣的關(guān)系。一旦您的團(tuán)隊(duì)做出決定，您就可以開(kāi)始依靠Cloudflare的網(wǎng)絡(luò)來(lái)實(shí)施該政策。

如果該決定是“我們不允許任何爬取”，那么您可以將上面提到的阻止按鈕保持在“開(kāi)啟”狀態(tài)。如果您想允許一些選擇性的爬取，本次的更新為您提供了選項(xiàng)，以便允許某些類型的機(jī)器人或者僅允許來(lái)自特定提供商的機(jī)器人訪問(wèn)您的內(nèi)容。

對(duì)于一些團(tuán)隊(duì)來(lái)說(shuō)，決定可能是允許與AI搜索引擎相關(guān)的機(jī)器人掃描他們的互聯(lián)網(wǎng)資產(chǎn)，因?yàn)檫@些工具仍然可以為網(wǎng)站帶來(lái)流量。其他組織可能會(huì)與特定的模型提供商簽訂協(xié)議，他們希望允許來(lái)自該提供商的任何類型的機(jī)器人訪問(wèn)他們的內(nèi)容?，F(xiàn)在，客戶可以導(dǎo)航到Cloudflare儀表板的WAF部分，實(shí)施這些類型的策略。

管理員還可以創(chuàng)建規(guī)則，例如，阻止所有AI機(jī)器人，但來(lái)自特定平臺(tái)的機(jī)器人除外。如果團(tuán)隊(duì)對(duì)大多數(shù)AI平臺(tái)持懷疑態(tài)度，但對(duì)某個(gè)AI模型提供商及其策略感到放心，則可以部署這些類型的過(guò)濾器。如果網(wǎng)站所有者已經(jīng)簽訂合同以允許某個(gè)提供商進(jìn)行掃描，這些類型的規(guī)則還可以用于執(zhí)行合同。網(wǎng)站管理員需要?jiǎng)?chuàng)建一個(gè)規(guī)則，阻止所有類型的AI相關(guān)機(jī)器人，然后添加一個(gè)例外，允許來(lái)自其AI合作伙伴的特定機(jī)器人。

除了應(yīng)用這些新的過(guò)濾器外，我們還建議客戶考慮更新其服務(wù)條款以涵蓋這一新用例。我們記錄了我們建議的“好”機(jī)器人和爬蟲對(duì)robots.txt文件采取的步驟。作為這些最佳實(shí)踐的擴(kuò)展，我們將在文檔中添加一個(gè)新部分，提供一個(gè)示例服務(wù)條款部分，網(wǎng)站所有者可以考慮使用該部分來(lái)確定AI掃描需要遵循您在robots.txt文件中定義的政策。

第四步：審計(jì)現(xiàn)有掃描協(xié)議

越來(lái)越多站點(diǎn)正直接與模型提供商簽署協(xié)議，許可其內(nèi)容的消費(fèi)以換取報(bào)酬。其中許多交易都包含用于確定某些部分或整個(gè)網(wǎng)站爬取速度的條款。Cloudflare的AI Audit選項(xiàng)卡為您提供了監(jiān)控此類合同的工具。

現(xiàn)在，AI Audit工具底部的表格會(huì)列出網(wǎng)站上最受歡迎的內(nèi)容，其依據(jù)是在頁(yè)面頂部所設(shè)過(guò)濾器中的時(shí)間段內(nèi)的掃描次數(shù)。您可以點(diǎn)擊“導(dǎo)出為CSV”按鈕，快速下載一個(gè)文件，其中包含此處展示的詳細(xì)信息，以便與您允許訪問(wèn)內(nèi)容的AI平臺(tái)討論任何差異。

今天，向您提供的數(shù)據(jù)代表了我們從簽訂了此類協(xié)議的客戶處聽(tīng)聞的關(guān)鍵指標(biāo)：針對(duì)特定頁(yè)面的請(qǐng)求，以及針對(duì)整個(gè)網(wǎng)站的請(qǐng)求。

第五步：為您的站點(diǎn)做好準(zhǔn)備，以便從AI掃描中獲取價(jià)值

并非每個(gè)人都有時(shí)間或人脈與AI公司談判協(xié)議。到目前為止，只有互聯(lián)網(wǎng)上最大的出版商才有資源設(shè)定這種條款并為他們的內(nèi)容獲得報(bào)酬。

其他人在如何處理其數(shù)據(jù)方面只有兩個(gè)基本選擇：阻止所有掃描或允許無(wú)限制訪問(wèn)。本次的發(fā)布讓內(nèi)容創(chuàng)作者擁有比這兩個(gè)選項(xiàng)更多的可見(jiàn)性和控制權(quán)，但互聯(lián)網(wǎng)上的“長(zhǎng)尾”站點(diǎn)依然缺乏變現(xiàn)的途徑。

我們認(rèn)為，任何規(guī)模的網(wǎng)站都應(yīng)該就對(duì)其內(nèi)容的使用獲得公平的回報(bào)。Cloudflare計(jì)劃在我們的儀表板中推出一個(gè)新的組件，其功能將不僅僅是阻止和分析爬網(wǎng)行為。網(wǎng)站所有者將能夠?yàn)槠渚W(wǎng)站或網(wǎng)站的某些部分設(shè)定價(jià)格，然后根據(jù)設(shè)定的價(jià)格和模型提供商的掃描次數(shù)向模型提供商收費(fèi)。我們將處理其余的工作，讓您可以專注于為自己的受眾創(chuàng)造精彩的內(nèi)容。

要準(zhǔn)備好通過(guò)這個(gè)新組件獲取價(jià)值，最快的方法是確保您的站點(diǎn)使用Cloudflare的網(wǎng)絡(luò)。

AI Cloudflare 云服務(wù)

上一篇：自動(dòng)生成Cloudflare的Terraform Provider

原文鏈接：點(diǎn)擊前往 >

文章來(lái)源：Cloudflare

版權(quán)說(shuō)明：本文內(nèi)容來(lái)自于Cloudflare，本站不擁有所有權(quán)，不承擔(dān)相關(guān)法律責(zé)任。文章內(nèi)容系作者個(gè)人觀點(diǎn)，不代表快出海對(duì)觀點(diǎn)贊同或支持。如有侵權(quán)，請(qǐng)聯(lián)系管理員（zzx@kchuhai.com）刪除！

相關(guān)文章