網(wǎng)站所有者一直無法確定AI服務(wù)如何使用他們的內(nèi)容進行訓(xùn)練或其他用途。為此,Cloudflare發(fā)布了一套工具,旨在幫助網(wǎng)站擁有者、創(chuàng)作者和出版商重新掌控他們的內(nèi)容如何提供給與AI相關(guān)的機器人和爬蟲。所有Cloudflare客戶現(xiàn)在都可以審核和控制AI模型如何訪問其站點上的內(nèi)容。
首先是一個詳細的分析視圖,展示了爬取您網(wǎng)站的AI服務(wù)以及它們訪問的具體內(nèi)容??蛻艨梢园碅I提供商、機器人類型查看活動,以及網(wǎng)站的哪些部分最受歡迎。Cloudflare上的每個站點都可以使用這些數(shù)據(jù),并且不需要任何配置。
我們希望這種新級別的可見性能促使團隊決定是否將內(nèi)容暴露給AI爬蟲。為了給他們提供做出決定的時間,Cloudflare現(xiàn)已在儀表板中提供了一鍵選項,可以即刻阻止任何AI爬蟲訪問任何站點。團隊可利用這個“暫停窗口期”來決定是否允許特定的AI提供商或哪些類型的機器人繼續(xù)訪問。一旦做出決定,管理員只需點擊幾下鼠標(biāo),就可以使用Cloudflare儀表板中的新過濾器實施這些策略。
一些客戶已經(jīng)決定直接與AI公司談判以達成協(xié)議。這些合同中的很多都包含了關(guān)于掃描頻率和可訪問內(nèi)容類型的條款。我們希望這些發(fā)布者擁有工具來進一步衡量這些協(xié)議的具體實施情況。作為本次更新發(fā)布的一部分,Cloudflare客戶現(xiàn)在可以一鍵生成報告,用于審計這些協(xié)議中允許的活動。
同時,我們也認為任何規(guī)模的網(wǎng)站都應(yīng)該能夠針對AI模型使用其內(nèi)容設(shè)定合理的相應(yīng)“就地取材”的補償。所以,本次更新的公告也包括一項新的Cloudflare變現(xiàn)功能:該功能將為網(wǎng)站擁有者提供就對其內(nèi)容的掃描設(shè)置價格、控制訪問和獲取價值的工具。
當(dāng)下所面臨的問題是什么?
互聯(lián)網(wǎng)上的機器人和爬蟲大致分為兩類:好和壞。好的機器人,比如搜索引擎爬蟲,幫助用戶發(fā)現(xiàn)您的網(wǎng)站并為您帶來流量。而壞的機器人會嘗試破壞您的網(wǎng)站,搶在客戶前面排隊,或者抓取競爭數(shù)據(jù)。我們?yōu)榇舜蛟斓腃loudflare Bot Management平臺,讓您能夠區(qū)分這兩大類機器人,并可以根據(jù)情況設(shè)置為允許或阻止它們。
人工智能大型語言模型(LLM)和其他生成式工具的興起創(chuàng)造了更加模糊的第三類。不同于惡意機器人,與這些平臺相關(guān)的爬蟲不會積極嘗試使您的網(wǎng)站下線或妨礙您的客戶;也并不會試圖竊取敏感數(shù)據(jù);它們只想瀏覽您網(wǎng)站上已經(jīng)公開的內(nèi)容。
然而,與有用的機器人不同,這些與AI相關(guān)的爬蟲不一定會為您的網(wǎng)站帶來流量。AI Data Scraper(人工智能數(shù)據(jù)抓?。C器人掃描您網(wǎng)站上的內(nèi)容以訓(xùn)練新的LLM。然后,您的內(nèi)容會被放入一種混合器中與其他內(nèi)容混合在一起,并用于回答用戶問題,不會注明來源,也不需要用戶訪問您的網(wǎng)站。另一種爬蟲是AI Search Crawler(人工智能搜索爬蟲)機器人,它們會掃描您的內(nèi)容,并在響應(yīng)用戶的搜索時嘗試進行引用。缺點是那些用戶可能僅停留在該界面內(nèi),而不會訪問您的網(wǎng)站,因為答案已經(jīng)在他們面前的頁面上匯總了。
這種模糊性讓網(wǎng)站擁有者面臨一個艱難的決定-價值交換不明確。而且網(wǎng)站擁有者在追趕的過程中處于劣勢。許多網(wǎng)站允許這些AI爬蟲掃描其內(nèi)容,因為它們在大多數(shù)情況下看起來像“好的”機器人——結(jié)果卻導(dǎo)致他們的網(wǎng)站流量減少,因為他們的內(nèi)容已被重新包裝在AI生成的答案中。
我們認為這給開放的互聯(lián)網(wǎng)構(gòu)成了風(fēng)險。如果無法控制掃描和實現(xiàn)價值,網(wǎng)站擁有者將缺乏啟動或維護互聯(lián)網(wǎng)資產(chǎn)的動力。創(chuàng)作者會把更多內(nèi)容放在付費區(qū),而最大的出版商會直接達成交易。反過來,AI模型提供者將難以在較小的網(wǎng)站上找到和訪問高質(zhì)量的長尾內(nèi)容。
這導(dǎo)致雙方都缺乏建立健康、透明的權(quán)限和價值交換的工具。從今天開始,Cloudflare為網(wǎng)站擁有者提供他們解決這個問題所需的服務(wù)。如下詳細列出我們建議所有客戶遵循的一系列步驟。
第一步:了解AI模型如何使用您的站點
Cloudflare上的每個站點現(xiàn)在都可以訪問一個新的分析視圖,其中總結(jié)了流行和已知AI服務(wù)的爬取行為。您可以在儀表板中選擇一個站點,然后導(dǎo)航到左側(cè)導(dǎo)航欄的AI Audit選項卡以開始查看此信息,了解AI如何對您的內(nèi)容進行掃描。
當(dāng)AI模型提供者訪問您網(wǎng)站上的內(nèi)容時,它們會依靠稱為“機器人”或“爬蟲”的自動化工具來掃描頁面。機器人將請求頁面內(nèi)容,捕獲響應(yīng),將其存儲為未來數(shù)據(jù)訓(xùn)練集的一部分,或者記住它以供未來的AI搜索引擎結(jié)果使用。
這些機器人常常通過在其請求中包含一個稱為用戶代理的HTTP標(biāo)頭來向您的站點(和Cloudflare的網(wǎng)絡(luò))表明它們自己的身份。但是在某些情況下,來自其中一個AI服務(wù)的機器人可能不會發(fā)送標(biāo)頭,因而Cloudflare會依賴其他啟發(fā)式方法來識別它們,例如IP地址或行為。
當(dāng)機器人表明身份時,標(biāo)頭將包含一串帶有機器人名稱的文本。例如,Anthropic有時會使用名為ClaudeBot的機器人在互聯(lián)網(wǎng)上爬取站點。當(dāng)該服務(wù)從您在Cloudflare上的站點請求某個頁面的內(nèi)容時,Cloudflare將用戶代理記錄為ClaudeBot。
Cloudflare會獲取從網(wǎng)站訪問中收集的日志,并查找與已知AI機器人和爬蟲相匹配的用戶代理。我們會匯總每個爬蟲的活動,并為您提供過濾器,以查看僅來自特定AI平臺的活動。許多AI公司使用多個爬蟲來完成不同的任務(wù)。當(dāng)OpenAI掃描站點以進行數(shù)據(jù)抓取時,它們依賴于GPTBot,但在為其新的AI搜索引擎抓取站點時,則使用OAI-SearchBot。
這些差異很重要。來自不同類型機器人的掃描可能會影響您網(wǎng)站的流量或內(nèi)容的歸屬。作為響應(yīng)的一部分,AI搜索引擎通常會鏈接到網(wǎng)站,從而可能將訪問者帶到您的站點。在這種情況下,您可能希望這些類型的機器人對您的互聯(lián)網(wǎng)資產(chǎn)進行爬取。另一方面,AI數(shù)據(jù)抓取工具的存在就是為了盡可能多地閱讀互聯(lián)網(wǎng)上的信息,以訓(xùn)練未來的模型或改進現(xiàn)有的模型。
我們認為您應(yīng)該知道機器人爬取您網(wǎng)站的原因、時間和頻率。本次發(fā)布的更新將提供一個過濾器,供您按AI Data Scraper、AI Search Crawler和Archiver等類別查看機器人活動。
利用這些數(shù)據(jù),您可以開始分析AI模型如何訪問您的網(wǎng)站。這些信息可能會讓人感到不知所措,尤其是如果您的團隊還沒有時間決定如何處理AI對您的內(nèi)容的掃描。如果您發(fā)現(xiàn)自己不確定該如何進行下一步響應(yīng),請繼續(xù)進行第2步。
第二步:先暫停,思考一下,決定下一步該做什么
我們與幾家組織進行了交談,他們知道自己的網(wǎng)站對AI爬蟲來說是有價值的目的地,但還不知道該如何處理。這些團隊需要“暫?!币幌?,以便就如何向這些服務(wù)提供他們的數(shù)據(jù)做出明智的決定。
Cloudflare現(xiàn)在就為您提供了這樣一個簡單的按鈕。使用任何計劃的任何客戶都可以選擇阻止所有AI機器人和爬蟲,以便在決定允許什么之前先暫停一下。
要啟用該選項,請導(dǎo)航到Cloudflare儀表板“安全”選項卡下的“機器人”部分。點擊右上角的藍色鏈接,配置Cloudflare代理處理機器人流量的方式。接下來,將“阻止AI Scrapers和Crawlers”卡片中的按鈕切換到“開啟”位置。
這個一鍵式選項會根據(jù)Cloudflare維護的列表阻止已知的AI相關(guān)機器人和爬蟲訪問您的網(wǎng)站。實施屏蔽后,您和您的團隊可以更從容地決定接下來該如何處理您的內(nèi)容。
第三步:控制要允許的機器人
暫停按鈕為您的團隊爭取了時間,讓您決定希望這些爬蟲與您的內(nèi)容之間建立什么樣的關(guān)系。一旦您的團隊做出決定,您就可以開始依靠Cloudflare的網(wǎng)絡(luò)來實施該政策。
如果該決定是“我們不允許任何爬取”,那么您可以將上面提到的阻止按鈕保持在“開啟”狀態(tài)。如果您想允許一些選擇性的爬取,本次的更新為您提供了選項,以便允許某些類型的機器人或者僅允許來自特定提供商的機器人訪問您的內(nèi)容。
對于一些團隊來說,決定可能是允許與AI搜索引擎相關(guān)的機器人掃描他們的互聯(lián)網(wǎng)資產(chǎn),因為這些工具仍然可以為網(wǎng)站帶來流量。其他組織可能會與特定的模型提供商簽訂協(xié)議,他們希望允許來自該提供商的任何類型的機器人訪問他們的內(nèi)容?,F(xiàn)在,客戶可以導(dǎo)航到Cloudflare儀表板的WAF部分,實施這些類型的策略。
管理員還可以創(chuàng)建規(guī)則,例如,阻止所有AI機器人,但來自特定平臺的機器人除外。如果團隊對大多數(shù)AI平臺持懷疑態(tài)度,但對某個AI模型提供商及其策略感到放心,則可以部署這些類型的過濾器。如果網(wǎng)站所有者已經(jīng)簽訂合同以允許某個提供商進行掃描,這些類型的規(guī)則還可以用于執(zhí)行合同。網(wǎng)站管理員需要創(chuàng)建一個規(guī)則,阻止所有類型的AI相關(guān)機器人,然后添加一個例外,允許來自其AI合作伙伴的特定機器人。
除了應(yīng)用這些新的過濾器外,我們還建議客戶考慮更新其服務(wù)條款以涵蓋這一新用例。我們記錄了我們建議的“好”機器人和爬蟲對robots.txt文件采取的步驟。作為這些最佳實踐的擴展,我們將在文檔中添加一個新部分,提供一個示例服務(wù)條款部分,網(wǎng)站所有者可以考慮使用該部分來確定AI掃描需要遵循您在robots.txt文件中定義的政策。
第四步:審計現(xiàn)有掃描協(xié)議
越來越多站點正直接與模型提供商簽署協(xié)議,許可其內(nèi)容的消費以換取報酬。其中許多交易都包含用于確定某些部分或整個網(wǎng)站爬取速度的條款。Cloudflare的AI Audit選項卡為您提供了監(jiān)控此類合同的工具。
現(xiàn)在,AI Audit工具底部的表格會列出網(wǎng)站上最受歡迎的內(nèi)容,其依據(jù)是在頁面頂部所設(shè)過濾器中的時間段內(nèi)的掃描次數(shù)。您可以點擊“導(dǎo)出為CSV”按鈕,快速下載一個文件,其中包含此處展示的詳細信息,以便與您允許訪問內(nèi)容的AI平臺討論任何差異。
今天,向您提供的數(shù)據(jù)代表了我們從簽訂了此類協(xié)議的客戶處聽聞的關(guān)鍵指標(biāo):針對特定頁面的請求,以及針對整個網(wǎng)站的請求。
第五步:為您的站點做好準備,以便從AI掃描中獲取價值
并非每個人都有時間或人脈與AI公司談判協(xié)議。到目前為止,只有互聯(lián)網(wǎng)上最大的出版商才有資源設(shè)定這種條款并為他們的內(nèi)容獲得報酬。
其他人在如何處理其數(shù)據(jù)方面只有兩個基本選擇:阻止所有掃描或允許無限制訪問。本次的發(fā)布讓內(nèi)容創(chuàng)作者擁有比這兩個選項更多的可見性和控制權(quán),但互聯(lián)網(wǎng)上的“長尾”站點依然缺乏變現(xiàn)的途徑。
我們認為,任何規(guī)模的網(wǎng)站都應(yīng)該就對其內(nèi)容的使用獲得公平的回報。Cloudflare計劃在我們的儀表板中推出一個新的組件,其功能將不僅僅是阻止和分析爬網(wǎng)行為。網(wǎng)站所有者將能夠為其網(wǎng)站或網(wǎng)站的某些部分設(shè)定價格,然后根據(jù)設(shè)定的價格和模型提供商的掃描次數(shù)向模型提供商收費。我們將處理其余的工作,讓您可以專注于為自己的受眾創(chuàng)造精彩的內(nèi)容。
要準備好通過這個新組件獲取價值,最快的方法是確保您的站點使用Cloudflare的網(wǎng)絡(luò)。