Googlebot是谷歌用來收集所需信息并建立網(wǎng)絡(luò)可搜索索引的網(wǎng)絡(luò)爬蟲。Googlebot擁有移動和桌面抓取工具,以及專門的新聞、圖片和視頻抓取工具。谷歌有更多的爬蟲用于特定任務(wù),每個(gè)爬蟲都會用一個(gè)稱為“用戶代理”的不同文本字符串來標(biāo)識自己。
Googlebot是常青樹,這意味著它可以像用戶在最新的Chrome瀏覽器中一樣看待網(wǎng)站。Googlebot在數(shù)千臺機(jī)器上運(yùn)行。他們決定在網(wǎng)站上抓取的速度和內(nèi)容。但它們會減慢爬行速度,以免網(wǎng)站不堪重負(fù)。讓我們看看他們構(gòu)建網(wǎng)絡(luò)索引的過程。
Googlebot如何抓取網(wǎng)絡(luò)并將其編入索引?
谷歌過去曾分享過其管道的幾個(gè)版本。以下是最新的。Google從其從各種來源收集的URL列表開始,例如頁面、站點(diǎn)地圖、RSS提要以及在Google Search Console或索引API中提交的URL。它優(yōu)先考慮要抓取的內(nèi)容,獲取頁面并存儲頁面的副本。
處理這些頁面以查找更多鏈接,包括指向Google呈現(xiàn)頁面所需的API請求、JavaScript和CSS等內(nèi)容的鏈接。所有這些額外的請求都會被抓取和緩存(存儲)。谷歌利用渲染服務(wù)使用這些緩存的資源來查看類似于用戶的頁面。
它再次處理這個(gè)并尋找對頁面或新鏈接的任何更改。呈現(xiàn)頁面的內(nèi)容是存儲在Google索引中并可搜索的內(nèi)容。找到的任何新鏈接都會返回到URL存儲桶以供其抓取。
如何控制Googlebot?
Google為您提供了幾種方法來控制抓取和編入索引的內(nèi)容。
1.控制爬行的方法
·Robots.txt–您網(wǎng)站上的此文件允許您控制抓取的內(nèi)容。
·Nofollow–Nofollow是一個(gè)鏈接屬性或元機(jī)器人標(biāo)簽,它建議不應(yīng)遵循鏈接。它只被認(rèn)為是一個(gè)提示,所以它可以被忽略。
·改變你的抓取速度——谷歌搜索控制臺中的這個(gè)工具可以讓你減慢谷歌的抓取速度。
2.控制索引的方法
·刪除你的內(nèi)容——如果你刪除了一個(gè)頁面,那么就沒有什么可以索引的了。這樣做的缺點(diǎn)是沒有其他人可以訪問它。
·限制對內(nèi)容的訪問——Google不會登錄網(wǎng)站,因此任何類型的密碼保護(hù)或身份驗(yàn)證都會阻止它查看內(nèi)容。
·Noindex——元機(jī)器人標(biāo)簽中的noindex告訴搜索引擎不要索引您的頁面。
·URL刪除工具——谷歌的這個(gè)工具的名稱有點(diǎn)誤導(dǎo),因?yàn)樗墓ぷ鞣绞绞菚簳r(shí)隱藏內(nèi)容。Google仍會查看和抓取這些內(nèi)容,但這些頁面不會出現(xiàn)在搜索結(jié)果中。
·Robots.txt(僅限圖片)——阻止Googlebot圖片抓取意味著您的圖片不會被編入索引。
如何驗(yàn)證Googlebot的真實(shí)性?
許多SEO工具和一些惡意機(jī)器人會偽裝成Googlebot。這可能允許他們訪問試圖阻止他們的網(wǎng)站。過去,您需要運(yùn)行DNS查找來驗(yàn)證Googlebot。但最近,谷歌讓它變得更加容易,并提供了一個(gè)公共IP列表,您可以使用它來驗(yàn)證請求是否來自谷歌。您可以將其與服務(wù)器日志中的數(shù)據(jù)進(jìn)行比較。
您還可以訪問Google Search Console中的“抓取統(tǒng)計(jì)信息”報(bào)告。如果您轉(zhuǎn)到“設(shè)置”>“抓取統(tǒng)計(jì)信息”,該報(bào)告包含大量有關(guān)Google如何抓取您的網(wǎng)站的信息。您可以查看哪個(gè)Googlebot正在抓取哪些文件以及它何時(shí)訪問這些文件。
寫在最后
網(wǎng)絡(luò)是一個(gè)大而雜亂的地方。Googlebot必須瀏覽所有不同的設(shè)置以及停機(jī)時(shí)間和限制,以收集Google需要其搜索引擎工作的數(shù)據(jù)。一個(gè)有趣的事實(shí)是,Googlebot通常被描述為機(jī)器人,并且被恰當(dāng)?shù)胤Q為“Googlebot”。還有一個(gè)蜘蛛吉祥物,名叫“克勞利(Crawley)”。