Googlebot是谷歌用來(lái)收集所需信息并建立網(wǎng)絡(luò)可搜索索引的網(wǎng)絡(luò)爬蟲(chóng)。Googlebot擁有移動(dòng)和桌面抓取工具,以及專(zhuān)門(mén)的新聞、圖片和視頻抓取工具。谷歌有更多的爬蟲(chóng)用于特定任務(wù),每個(gè)爬蟲(chóng)都會(huì)用一個(gè)稱(chēng)為“用戶(hù)代理”的不同文本字符串來(lái)標(biāo)識(shí)自己。
Googlebot是常青樹(shù),這意味著它可以像用戶(hù)在最新的Chrome瀏覽器中一樣看待網(wǎng)站。Googlebot在數(shù)千臺(tái)機(jī)器上運(yùn)行。他們決定在網(wǎng)站上抓取的速度和內(nèi)容。但它們會(huì)減慢爬行速度,以免網(wǎng)站不堪重負(fù)。讓我們看看他們構(gòu)建網(wǎng)絡(luò)索引的過(guò)程。
Googlebot如何抓取網(wǎng)絡(luò)并將其編入索引?
谷歌過(guò)去曾分享過(guò)其管道的幾個(gè)版本。以下是最新的。Google從其從各種來(lái)源收集的URL列表開(kāi)始,例如頁(yè)面、站點(diǎn)地圖、RSS提要以及在Google Search Console或索引API中提交的URL。它優(yōu)先考慮要抓取的內(nèi)容,獲取頁(yè)面并存儲(chǔ)頁(yè)面的副本。
處理這些頁(yè)面以查找更多鏈接,包括指向Google呈現(xiàn)頁(yè)面所需的API請(qǐng)求、JavaScript和CSS等內(nèi)容的鏈接。所有這些額外的請(qǐng)求都會(huì)被抓取和緩存(存儲(chǔ))。谷歌利用渲染服務(wù)使用這些緩存的資源來(lái)查看類(lèi)似于用戶(hù)的頁(yè)面。
它再次處理這個(gè)并尋找對(duì)頁(yè)面或新鏈接的任何更改。呈現(xiàn)頁(yè)面的內(nèi)容是存儲(chǔ)在Google索引中并可搜索的內(nèi)容。找到的任何新鏈接都會(huì)返回到URL存儲(chǔ)桶以供其抓取。
如何控制Googlebot?
Google為您提供了幾種方法來(lái)控制抓取和編入索引的內(nèi)容。
1.控制爬行的方法
·Robots.txt–您網(wǎng)站上的此文件允許您控制抓取的內(nèi)容。
·Nofollow–Nofollow是一個(gè)鏈接屬性或元機(jī)器人標(biāo)簽,它建議不應(yīng)遵循鏈接。它只被認(rèn)為是一個(gè)提示,所以它可以被忽略。
·改變你的抓取速度——谷歌搜索控制臺(tái)中的這個(gè)工具可以讓你減慢谷歌的抓取速度。
2.控制索引的方法
·刪除你的內(nèi)容——如果你刪除了一個(gè)頁(yè)面,那么就沒(méi)有什么可以索引的了。這樣做的缺點(diǎn)是沒(méi)有其他人可以訪問(wèn)它。
·限制對(duì)內(nèi)容的訪問(wèn)——Google不會(huì)登錄網(wǎng)站,因此任何類(lèi)型的密碼保護(hù)或身份驗(yàn)證都會(huì)阻止它查看內(nèi)容。
·Noindex——元機(jī)器人標(biāo)簽中的noindex告訴搜索引擎不要索引您的頁(yè)面。
·URL刪除工具——谷歌的這個(gè)工具的名稱(chēng)有點(diǎn)誤導(dǎo),因?yàn)樗墓ぷ鞣绞绞菚簳r(shí)隱藏內(nèi)容。Google仍會(huì)查看和抓取這些內(nèi)容,但這些頁(yè)面不會(huì)出現(xiàn)在搜索結(jié)果中。
·Robots.txt(僅限圖片)——阻止Googlebot圖片抓取意味著您的圖片不會(huì)被編入索引。
如何驗(yàn)證Googlebot的真實(shí)性?
許多SEO工具和一些惡意機(jī)器人會(huì)偽裝成Googlebot。這可能允許他們?cè)L問(wèn)試圖阻止他們的網(wǎng)站。過(guò)去,您需要運(yùn)行DNS查找來(lái)驗(yàn)證Googlebot。但最近,谷歌讓它變得更加容易,并提供了一個(gè)公共IP列表,您可以使用它來(lái)驗(yàn)證請(qǐng)求是否來(lái)自谷歌。您可以將其與服務(wù)器日志中的數(shù)據(jù)進(jìn)行比較。
您還可以訪問(wèn)Google Search Console中的“抓取統(tǒng)計(jì)信息”報(bào)告。如果您轉(zhuǎn)到“設(shè)置”>“抓取統(tǒng)計(jì)信息”,該報(bào)告包含大量有關(guān)Google如何抓取您的網(wǎng)站的信息。您可以查看哪個(gè)Googlebot正在抓取哪些文件以及它何時(shí)訪問(wèn)這些文件。
寫(xiě)在最后
網(wǎng)絡(luò)是一個(gè)大而雜亂的地方。Googlebot必須瀏覽所有不同的設(shè)置以及停機(jī)時(shí)間和限制,以收集Google需要其搜索引擎工作的數(shù)據(jù)。一個(gè)有趣的事實(shí)是,Googlebot通常被描述為機(jī)器人,并且被恰當(dāng)?shù)胤Q(chēng)為“Googlebot”。還有一個(gè)蜘蛛吉祥物,名叫“克勞利(Crawley)”。