Googlebot是谷歌用來收集所需信息并建立網絡可搜索索引的網絡爬蟲。Googlebot擁有移動和桌面抓取工具,以及專門的新聞、圖片和視頻抓取工具。谷歌有更多的爬蟲用于特定任務,每個爬蟲都會用一個稱為“用戶代理”的不同文本字符串來標識自己。
Googlebot是常青樹,這意味著它可以像用戶在最新的Chrome瀏覽器中一樣看待網站。Googlebot在數千臺機器上運行。他們決定在網站上抓取的速度和內容。但它們會減慢爬行速度,以免網站不堪重負。讓我們看看他們構建網絡索引的過程。
Googlebot如何抓取網絡并將其編入索引?
谷歌過去曾分享過其管道的幾個版本。以下是最新的。Google從其從各種來源收集的URL列表開始,例如頁面、站點地圖、RSS提要以及在Google Search Console或索引API中提交的URL。它優(yōu)先考慮要抓取的內容,獲取頁面并存儲頁面的副本。
處理這些頁面以查找更多鏈接,包括指向Google呈現頁面所需的API請求、JavaScript和CSS等內容的鏈接。所有這些額外的請求都會被抓取和緩存(存儲)。谷歌利用渲染服務使用這些緩存的資源來查看類似于用戶的頁面。
它再次處理這個并尋找對頁面或新鏈接的任何更改。呈現頁面的內容是存儲在Google索引中并可搜索的內容。找到的任何新鏈接都會返回到URL存儲桶以供其抓取。
如何控制Googlebot?
Google為您提供了幾種方法來控制抓取和編入索引的內容。
1.控制爬行的方法
·Robots.txt–您網站上的此文件允許您控制抓取的內容。
·Nofollow–Nofollow是一個鏈接屬性或元機器人標簽,它建議不應遵循鏈接。它只被認為是一個提示,所以它可以被忽略。
·改變你的抓取速度——谷歌搜索控制臺中的這個工具可以讓你減慢谷歌的抓取速度。
2.控制索引的方法
·刪除你的內容——如果你刪除了一個頁面,那么就沒有什么可以索引的了。這樣做的缺點是沒有其他人可以訪問它。
·限制對內容的訪問——Google不會登錄網站,因此任何類型的密碼保護或身份驗證都會阻止它查看內容。
·Noindex——元機器人標簽中的noindex告訴搜索引擎不要索引您的頁面。
·URL刪除工具——谷歌的這個工具的名稱有點誤導,因為它的工作方式是暫時隱藏內容。Google仍會查看和抓取這些內容,但這些頁面不會出現在搜索結果中。
·Robots.txt(僅限圖片)——阻止Googlebot圖片抓取意味著您的圖片不會被編入索引。
如何驗證Googlebot的真實性?
許多SEO工具和一些惡意機器人會偽裝成Googlebot。這可能允許他們訪問試圖阻止他們的網站。過去,您需要運行DNS查找來驗證Googlebot。但最近,谷歌讓它變得更加容易,并提供了一個公共IP列表,您可以使用它來驗證請求是否來自谷歌。您可以將其與服務器日志中的數據進行比較。
您還可以訪問Google Search Console中的“抓取統(tǒng)計信息”報告。如果您轉到“設置”>“抓取統(tǒng)計信息”,該報告包含大量有關Google如何抓取您的網站的信息。您可以查看哪個Googlebot正在抓取哪些文件以及它何時訪問這些文件。
寫在最后
網絡是一個大而雜亂的地方。Googlebot必須瀏覽所有不同的設置以及停機時間和限制,以收集Google需要其搜索引擎工作的數據。一個有趣的事實是,Googlebot通常被描述為機器人,并且被恰當地稱為“Googlebot”。還有一個蜘蛛吉祥物,名叫“克勞利(Crawley)”。