谷歌SEO:什么是Googlebot?

來源:數聚梨海外營銷獨立站跨境電商
作者:數聚梨海外營銷獨立站跨境電商
時間:2022-01-19
1539
Googlebot是谷歌用來收集所需信息并建立網絡可搜索索引的網絡爬蟲。Googlebot擁有移動和桌面抓取工具,以及專門的新聞、圖片和視頻抓取工具。谷歌有更多的爬蟲用于特定任務,每個爬蟲都會用一個稱為“用戶代理”的不同文本字符串來標識自己。

640.jpg

Googlebot是谷歌用來收集所需信息并建立網絡可搜索索引的網絡爬蟲。Googlebot擁有移動和桌面抓取工具,以及專門的新聞、圖片和視頻抓取工具。谷歌有更多的爬蟲用于特定任務,每個爬蟲都會用一個稱為“用戶代理”的不同文本字符串來標識自己。

Googlebot是常青樹,這意味著它可以像用戶在最新的Chrome瀏覽器中一樣看待網站。Googlebot在數千臺機器上運行。他們決定在網站上抓取的速度和內容。但它們會減慢爬行速度,以免網站不堪重負。讓我們看看他們構建網絡索引的過程。

Googlebot如何抓取網絡并將其編入索引?

谷歌過去曾分享過其管道的幾個版本。以下是最新的。Google從其從各種來源收集的URL列表開始,例如頁面、站點地圖、RSS提要以及在Google Search Console或索引API中提交的URL。它優(yōu)先考慮要抓取的內容,獲取頁面并存儲頁面的副本。

處理這些頁面以查找更多鏈接,包括指向Google呈現頁面所需的API請求、JavaScript和CSS等內容的鏈接。所有這些額外的請求都會被抓取和緩存(存儲)。谷歌利用渲染服務使用這些緩存的資源來查看類似于用戶的頁面。

它再次處理這個并尋找對頁面或新鏈接的任何更改。呈現頁面的內容是存儲在Google索引中并可搜索的內容。找到的任何新鏈接都會返回到URL存儲桶以供其抓取。

如何控制Googlebot?

Google為您提供了幾種方法來控制抓取和編入索引的內容。

1.控制爬行的方法

·Robots.txt–您網站上的此文件允許您控制抓取的內容。

·Nofollow–Nofollow是一個鏈接屬性或元機器人標簽,它建議不應遵循鏈接。它只被認為是一個提示,所以它可以被忽略。

·改變你的抓取速度——谷歌搜索控制臺中的這個工具可以讓你減慢谷歌的抓取速度。

2.控制索引的方法

·刪除你的內容——如果你刪除了一個頁面,那么就沒有什么可以索引的了。這樣做的缺點是沒有其他人可以訪問它。

·限制對內容的訪問——Google不會登錄網站,因此任何類型的密碼保護或身份驗證都會阻止它查看內容。

·Noindex——元機器人標簽中的noindex告訴搜索引擎不要索引您的頁面。

·URL刪除工具——谷歌的這個工具的名稱有點誤導,因為它的工作方式是暫時隱藏內容。Google仍會查看和抓取這些內容,但這些頁面不會出現在搜索結果中。

·Robots.txt(僅限圖片)——阻止Googlebot圖片抓取意味著您的圖片不會被編入索引。

如何驗證Googlebot的真實性?

許多SEO工具和一些惡意機器人會偽裝成Googlebot。這可能允許他們訪問試圖阻止他們的網站。過去,您需要運行DNS查找來驗證Googlebot。但最近,谷歌讓它變得更加容易,并提供了一個公共IP列表,您可以使用它來驗證請求是否來自谷歌。您可以將其與服務器日志中的數據進行比較。

您還可以訪問Google Search Console中的“抓取統(tǒng)計信息”報告。如果您轉到“設置”>“抓取統(tǒng)計信息”,該報告包含大量有關Google如何抓取您的網站的信息。您可以查看哪個Googlebot正在抓取哪些文件以及它何時訪問這些文件。

寫在最后

網絡是一個大而雜亂的地方。Googlebot必須瀏覽所有不同的設置以及停機時間和限制,以收集Google需要其搜索引擎工作的數據。一個有趣的事實是,Googlebot通常被描述為機器人,并且被恰當地稱為“Googlebot”。還有一個蜘蛛吉祥物,名叫“克勞利(Crawley)”。

原文鏈接:點擊前往 >
文章來源:數聚梨海外營銷獨立站跨境電商
版權說明:本文內容來自于數聚梨海外營銷獨立站跨境電商,本站不擁有所有權,不承擔相關法律責任。文章內容系作者個人觀點,不代表快出海對觀點贊同或支持。如有侵權,請聯系管理員(zzx@kchuhai.com)刪除!
個人VIP
小程序
快出海小程序
公眾號
快出海公眾號
商務合作
商務合作
投稿采訪
投稿采訪
出海管家
出海管家