Cloudflare：什么是 Web 爬網(wǎng)程序機(jī)器人？

來(lái)源： Cloudflare

作者：Cloudflare

時(shí)間：2021-03-08

Web 爬網(wǎng)程序、網(wǎng)絡(luò)蜘蛛或者搜索引擎機(jī)器人會(huì)從整個(gè) Internet 下載內(nèi)容并建立索引。這種機(jī)器人的目標(biāo)是學(xué)習(xí) Web 上（幾乎）每個(gè)網(wǎng)頁(yè)的內(nèi)容，以便需要時(shí)檢索到相關(guān)信息。這些機(jī)器人被稱作“Web 爬網(wǎng)程序”是因?yàn)榕廊∈且粋€(gè)技術(shù)術(shù)語(yǔ)，用以形容通過(guò)軟件程序自動(dòng)訪問(wèn)網(wǎng)站或者獲取數(shù)據(jù)。

什么是 Web 爬網(wǎng)程序機(jī)器人？

這些機(jī)器人幾乎總是由搜索引擎操作。通過(guò)對(duì)爬網(wǎng)程序收集的數(shù)據(jù)執(zhí)行搜索算法，搜索引擎可以響應(yīng)用戶搜索查詢提供相關(guān)鏈接，在用戶將搜索輸入谷歌或Bing（或其他搜索引擎）生成顯示網(wǎng)頁(yè)列表。

爬網(wǎng)程序機(jī)器人就像是一個(gè)人，會(huì)瀏覽圖書館中雜亂無(wú)章的所有書籍，并整理卡片目錄，以便訪問(wèn)圖書館的任何人都可以快速、輕松地找到所需的信息。為了幫助按主題對(duì)圖書館的書籍進(jìn)行分類和組織，組織者將瀏覽書名、摘要和每本書的一些內(nèi)部文本，以了解其概要。

但是，與圖書館不同，互聯(lián)網(wǎng)不是由大量的書籍組成的，這使得很難判斷所有必要的信息是否已正確索引，或者是否忽略了其中的大量信息。為了試圖查找到互聯(lián)網(wǎng)所能提供的所有相關(guān)信息，爬網(wǎng)程序機(jī)器人將從一組已知網(wǎng)頁(yè)開始，然后從這些頁(yè)面的超鏈接導(dǎo)到其他頁(yè)面，再?gòu)倪@些頁(yè)面的超鏈接進(jìn)一步導(dǎo)到其他頁(yè)面，以此類推。

搜索引擎機(jī)器人迄今實(shí)際爬行了多少公共可用的互聯(lián)網(wǎng)仍是未知之?dāng)?shù)。一些消息來(lái)源估計(jì)，只有40％到70％的互聯(lián)網(wǎng)被編入搜索索引，大概是數(shù)十億個(gè)網(wǎng)頁(yè)。

什么是搜索索引？

搜索索引就像為互聯(lián)網(wǎng)創(chuàng)建圖書館目錄卡，以便搜索引擎在人們搜索互聯(lián)網(wǎng)時(shí)知道在互聯(lián)網(wǎng)上何處提取信息。也可以將其與一本書的索引進(jìn)行類比，該索引列出了書中提到某個(gè)主題或短語(yǔ)所在位置。

索引主要關(guān)注頁(yè)面上顯示的文本，以及用戶看不到的有關(guān)頁(yè)面的元數(shù)據(jù)*。當(dāng)大多數(shù)搜索引擎將頁(yè)面編入索引時(shí)，它們會(huì)將頁(yè)面上的所有單詞添加到索引中 – 在谷歌中，冠詞除外。當(dāng)用戶搜索這些單詞時(shí)，搜索引擎會(huì)搜索這些單詞出現(xiàn)的所有頁(yè)面索引，并選擇最相關(guān)的頁(yè)面。

*在搜索索引中，元數(shù)據(jù)是告知搜索引擎網(wǎng)頁(yè)內(nèi)容的數(shù)據(jù)。通常，元標(biāo)題和元描述將出現(xiàn)在搜索引擎結(jié)果頁(yè)面上，與用戶可見(jiàn)的網(wǎng)頁(yè)內(nèi)容相反。

爬網(wǎng)程序如何工作？

互聯(lián)網(wǎng)在不斷變化和擴(kuò)展。由于無(wú)法知道互聯(lián)網(wǎng)上總共有多少個(gè)網(wǎng)頁(yè)，因此爬網(wǎng)程序機(jī)器人從種子或已知URL列表開始。他們首先在那些URL上爬行網(wǎng)頁(yè)。當(dāng)他們爬網(wǎng)這些網(wǎng)頁(yè)時(shí)，他們會(huì)找到指向其他URL的超鏈接，并將它們添加到要爬行的頁(yè)面列表中。

鑒于互聯(lián)網(wǎng)上的大量網(wǎng)頁(yè)都可以被索引以進(jìn)行搜索，因此該過(guò)程幾乎可以無(wú)限期地進(jìn)行下去。但是，爬網(wǎng)程序?qū)⒆裱承┎呗?，從而使其在選擇要爬網(wǎng)的頁(yè)面、以什么順序進(jìn)行爬網(wǎng)以及應(yīng)該多久重新爬網(wǎng)一次以檢查內(nèi)容更新的時(shí)候能更加靈活。

每個(gè)網(wǎng)頁(yè)的相對(duì)重要性：大多數(shù)網(wǎng)頁(yè)爬網(wǎng)程序不會(huì)也不旨在爬網(wǎng)整個(gè)公開可用的互聯(lián)網(wǎng)；取而代之的是，他們根據(jù)其他頁(yè)面鏈接到該頁(yè)面的數(shù)量、該頁(yè)面吸引的訪問(wèn)者數(shù)量以及其他表示該頁(yè)面包含重要信息的可能性等多重因素，來(lái)決定是否首先爬取該網(wǎng)頁(yè)。

這個(gè)原理是如果一個(gè)網(wǎng)頁(yè)被許多其他網(wǎng)頁(yè)引用并吸引了大量訪問(wèn)者，那么它可能包含高質(zhì)量的權(quán)威信息，因此，搜索引擎對(duì)其進(jìn)行索引就會(huì)變得重要且必須，就像一本書如果被很多人借出，那圖書館可能需要確保有很多該書的副本。

重新訪問(wèn)網(wǎng)頁(yè)：Web 內(nèi)容不斷被更新、刪除或者移動(dòng)到新的位置。Web 爬網(wǎng)程序需定期重新訪問(wèn)頁(yè)面，確保索引的內(nèi)容為最新版本。

Robots.txt要求：：Web 爬網(wǎng)程序還根據(jù) robots.txt 協(xié)議（也稱為機(jī)器人排除協(xié)議）決定爬取哪些頁(yè)面。爬網(wǎng)程序會(huì)在爬取網(wǎng)頁(yè)之前查看該頁(yè)面所在 Web 服務(wù)器托管的 robots.txt 文件。robots.txt 文件是一種文本文件，其中就機(jī)器人訪問(wèn)托管網(wǎng)站或者應(yīng)用程序詳細(xì)說(shuō)明了相應(yīng)規(guī)則。這些規(guī)則界定機(jī)器人能夠爬取哪些頁(yè)面，以及可以跟蹤哪些鏈接。示例請(qǐng)查看 Cloudflare.com 上的 robots.txt 文件。

所有這些因素在每個(gè)搜索引擎內(nèi)置于其蜘蛛機(jī)器人的專有算法中的權(quán)重都不同。盡管最終目標(biāo)都是一樣——從網(wǎng)頁(yè)下載內(nèi)容并為其編制索引——但來(lái)自不同搜索引擎的網(wǎng)頁(yè)爬網(wǎng)程序的行為會(huì)略有不同。

為什么爬網(wǎng)程序稱為“蜘蛛”？

互聯(lián)網(wǎng)，或者至少是大多數(shù)用戶訪問(wèn)的部分，也被稱為萬(wàn)維網(wǎng)–實(shí)際上，這是大多數(shù)網(wǎng)站URL的"www"部分的來(lái)源。因此很自然將搜索引擎機(jī)器人稱為"蜘蛛”，因?yàn)樗麄兣辣榱司W(wǎng)絡(luò)，就如同真正的蜘蛛在蜘蛛網(wǎng)上爬行。

是否應(yīng)始終允許爬網(wǎng)程序機(jī)器人訪問(wèn)Web屬性？

這取決于網(wǎng)絡(luò)媒體資源，取決于許多因素。爬網(wǎng)程序需要服務(wù)器資源才能為內(nèi)容建立索引–它們發(fā)出服務(wù)器需要響應(yīng)的請(qǐng)求，就像訪問(wèn)網(wǎng)站的用戶或其他訪問(wèn)網(wǎng)站的機(jī)器人一樣。取決于每個(gè)頁(yè)面上的內(nèi)容量或網(wǎng)站上的頁(yè)面數(shù)量，不宜過(guò)于頻繁地進(jìn)行搜索索引可能比較符合網(wǎng)站運(yùn)營(yíng)商的最大利益，因?yàn)檫^(guò)多的索引可能會(huì)使服務(wù)器負(fù)擔(dān)過(guò)多或增加帶寬成本，或者兩者都有。

另外，除非用戶已獲得指向該頁(yè)面的鏈接（而無(wú)需將該頁(yè)面置于付費(fèi)專區(qū)或登錄名后），否則開發(fā)人員或公司可能不希望某些網(wǎng)頁(yè)被發(fā)現(xiàn)。對(duì)于企業(yè)來(lái)說(shuō)，這種情況的一個(gè)例子是，他們?yōu)闋I(yíng)銷活動(dòng)創(chuàng)建專用的登錄頁(yè)面，但是他們不希望任何非目標(biāo)受眾訪問(wèn)該頁(yè)面。這樣，他們可以定制消息內(nèi)容或更精確衡量頁(yè)面的成效。在這種情況下，企業(yè)可以在目標(biāo)網(wǎng)頁(yè)上添加" no index "標(biāo)簽，這樣就不會(huì)顯示在搜索引擎結(jié)果中。他們還可以在頁(yè)面或robots.txt文件中添加"disallow"（不允許）標(biāo)記，搜索引擎蜘蛛程序?qū)⒏静粫?huì)抓取該標(biāo)記。

網(wǎng)站所有者也可能出于各種其他原因，不希望爬網(wǎng)程序機(jī)器人爬取其部分或全部站點(diǎn)。例如，為用戶提供網(wǎng)站內(nèi)搜索功能的網(wǎng)站可能希望阻止搜索結(jié)果頁(yè)面，因?yàn)檫@些頁(yè)面對(duì)大多數(shù)用戶沒(méi)有用。其他自動(dòng)生成的僅對(duì)一個(gè)用戶或幾個(gè)特定用戶有用的頁(yè)面也應(yīng)被阻止。

Web 爬取與 Web 抓取二者有何區(qū)別？

網(wǎng)頁(yè)抓取、數(shù)據(jù)抓取或內(nèi)容抓取是指機(jī)器人在未經(jīng)許可的情況下載網(wǎng)站內(nèi)容的行為，通常是出于惡意目的使用該內(nèi)容。

網(wǎng)頁(yè)抓取通常比網(wǎng)頁(yè)爬行更具針對(duì)性。網(wǎng)頁(yè)抓取的目標(biāo)可能只是特定頁(yè)面或特定網(wǎng)站，而網(wǎng)頁(yè)爬取將繼續(xù)跟蹤鏈接并連續(xù)爬取頁(yè)面。

此外，網(wǎng)絡(luò)抓取機(jī)器人可能會(huì)無(wú)視它們對(duì)網(wǎng)絡(luò)服務(wù)器造成的壓力，而網(wǎng)絡(luò)爬蟲（尤其是來(lái)自主要搜索引擎的網(wǎng)絡(luò)爬蟲）將服從robots.txt文件并限制其請(qǐng)求，以免使網(wǎng)絡(luò)服務(wù)器負(fù)擔(dān)過(guò)多。

Web 爬網(wǎng)程序?qū)?SEO 有何影響？

SEO代表搜索引擎優(yōu)化，它是為搜索索引準(zhǔn)備內(nèi)容的準(zhǔn)則，以便網(wǎng)站在搜索引擎結(jié)果中顯示在更高的位置。

如果蜘蛛機(jī)器人沒(méi)有爬取網(wǎng)站，則無(wú)法將其編入索引，并且不會(huì)在搜索結(jié)果中顯示。因此，如果網(wǎng)站所有者希望從搜索結(jié)果中獲得有機(jī)流量，那么請(qǐng)不要阻止網(wǎng)絡(luò)爬蟲程序機(jī)器人，這一點(diǎn)非常重要。

Internet 上活躍的 Web 爬網(wǎng)程序機(jī)器人有哪些？

來(lái)自主要搜索引擎的機(jī)器人被稱為：

谷歌：Googlebot（實(shí)際上是兩個(gè)抓取工具，Googlebot Desktop和Googlebot Mobile，用于桌面和移動(dòng)設(shè)備搜索）

Bing：Bingbot

Yandex（俄羅斯搜索引擎）：Yandex Bot

百度（中國(guó)搜索引擎）：百度蜘蛛

還有許多比較不常見(jiàn)的 Web 爬網(wǎng)程序機(jī)器人，其中一些與任何搜索引擎都無(wú)關(guān)聯(lián)。

在機(jī)器人管理中需將 Web 爬取考慮在內(nèi)，這點(diǎn)為什么如此重要？

惡意機(jī)器人會(huì)造成巨大損失，從用戶體驗(yàn)差、服務(wù)器崩潰到數(shù)據(jù)盜竊，逐步升級(jí)。但在阻止惡意機(jī)器人的過(guò)程中，仍要允許 Web 爬網(wǎng)程序等善意機(jī)器人訪問(wèn) Web 屬性，這點(diǎn)很重要。Cloudflare 機(jī)器人管理允許善意機(jī)器人繼續(xù)訪問(wèn)網(wǎng)站，同時(shí)還能減少惡意機(jī)器人流量。該產(chǎn)品自動(dòng)更新 Web 爬網(wǎng)程序等善意機(jī)器人白名單，確保其運(yùn)行暢通無(wú)阻。

立即登錄，閱讀全文

Cloudflare

上一篇：Cloudflare：什么是 Rate Limiting（速率限制）？

版權(quán)說(shuō)明：

本文內(nèi)容來(lái)自于Cloudflare，本站不擁有所有權(quán)，不承擔(dān)相關(guān)法律責(zé)任。文章內(nèi)容系作者個(gè)人觀點(diǎn)，不代表快出海對(duì)觀點(diǎn)贊同或支持。如有侵權(quán)，請(qǐng)聯(lián)系管理員（zzx@kchuhai.com）刪除！

相關(guān)文章