谷歌SEO:什么是Googlebot?

來源:數(shù)聚梨海外營銷獨(dú)立站跨境電商
作者:數(shù)聚梨海外營銷獨(dú)立站跨境電商
時(shí)間:2022-01-19
1327
Googlebot是谷歌用來收集所需信息并建立網(wǎng)絡(luò)可搜索索引的網(wǎng)絡(luò)爬蟲。Googlebot擁有移動和桌面抓取工具,以及專門的新聞、圖片和視頻抓取工具。谷歌有更多的爬蟲用于特定任務(wù),每個(gè)爬蟲都會用一個(gè)稱為“用戶代理”的不同文本字符串來標(biāo)識自己。

640.jpg

Googlebot是谷歌用來收集所需信息并建立網(wǎng)絡(luò)可搜索索引的網(wǎng)絡(luò)爬蟲。Googlebot擁有移動和桌面抓取工具,以及專門的新聞、圖片和視頻抓取工具。谷歌有更多的爬蟲用于特定任務(wù),每個(gè)爬蟲都會用一個(gè)稱為“用戶代理”的不同文本字符串來標(biāo)識自己。

Googlebot是常青樹,這意味著它可以像用戶在最新的Chrome瀏覽器中一樣看待網(wǎng)站。Googlebot在數(shù)千臺機(jī)器上運(yùn)行。他們決定在網(wǎng)站上抓取的速度和內(nèi)容。但它們會減慢爬行速度,以免網(wǎng)站不堪重負(fù)。讓我們看看他們構(gòu)建網(wǎng)絡(luò)索引的過程。

Googlebot如何抓取網(wǎng)絡(luò)并將其編入索引?

谷歌過去曾分享過其管道的幾個(gè)版本。以下是最新的。Google從其從各種來源收集的URL列表開始,例如頁面、站點(diǎn)地圖、RSS提要以及在Google Search Console或索引API中提交的URL。它優(yōu)先考慮要抓取的內(nèi)容,獲取頁面并存儲頁面的副本。

處理這些頁面以查找更多鏈接,包括指向Google呈現(xiàn)頁面所需的API請求、JavaScript和CSS等內(nèi)容的鏈接。所有這些額外的請求都會被抓取和緩存(存儲)。谷歌利用渲染服務(wù)使用這些緩存的資源來查看類似于用戶的頁面。

它再次處理這個(gè)并尋找對頁面或新鏈接的任何更改。呈現(xiàn)頁面的內(nèi)容是存儲在Google索引中并可搜索的內(nèi)容。找到的任何新鏈接都會返回到URL存儲桶以供其抓取。

如何控制Googlebot?

Google為您提供了幾種方法來控制抓取和編入索引的內(nèi)容。

1.控制爬行的方法

·Robots.txt–您網(wǎng)站上的此文件允許您控制抓取的內(nèi)容。

·Nofollow–Nofollow是一個(gè)鏈接屬性或元機(jī)器人標(biāo)簽,它建議不應(yīng)遵循鏈接。它只被認(rèn)為是一個(gè)提示,所以它可以被忽略。

·改變你的抓取速度——谷歌搜索控制臺中的這個(gè)工具可以讓你減慢谷歌的抓取速度。

2.控制索引的方法

·刪除你的內(nèi)容——如果你刪除了一個(gè)頁面,那么就沒有什么可以索引的了。這樣做的缺點(diǎn)是沒有其他人可以訪問它。

·限制對內(nèi)容的訪問——Google不會登錄網(wǎng)站,因此任何類型的密碼保護(hù)或身份驗(yàn)證都會阻止它查看內(nèi)容。

·Noindex——元機(jī)器人標(biāo)簽中的noindex告訴搜索引擎不要索引您的頁面。

·URL刪除工具——谷歌的這個(gè)工具的名稱有點(diǎn)誤導(dǎo),因?yàn)樗墓ぷ鞣绞绞菚簳r(shí)隱藏內(nèi)容。Google仍會查看和抓取這些內(nèi)容,但這些頁面不會出現(xiàn)在搜索結(jié)果中。

·Robots.txt(僅限圖片)——阻止Googlebot圖片抓取意味著您的圖片不會被編入索引。

如何驗(yàn)證Googlebot的真實(shí)性?

許多SEO工具和一些惡意機(jī)器人會偽裝成Googlebot。這可能允許他們訪問試圖阻止他們的網(wǎng)站。過去,您需要運(yùn)行DNS查找來驗(yàn)證Googlebot。但最近,谷歌讓它變得更加容易,并提供了一個(gè)公共IP列表,您可以使用它來驗(yàn)證請求是否來自谷歌。您可以將其與服務(wù)器日志中的數(shù)據(jù)進(jìn)行比較。

您還可以訪問Google Search Console中的“抓取統(tǒng)計(jì)信息”報(bào)告。如果您轉(zhuǎn)到“設(shè)置”>“抓取統(tǒng)計(jì)信息”,該報(bào)告包含大量有關(guān)Google如何抓取您的網(wǎng)站的信息。您可以查看哪個(gè)Googlebot正在抓取哪些文件以及它何時(shí)訪問這些文件。

寫在最后

網(wǎng)絡(luò)是一個(gè)大而雜亂的地方。Googlebot必須瀏覽所有不同的設(shè)置以及停機(jī)時(shí)間和限制,以收集Google需要其搜索引擎工作的數(shù)據(jù)。一個(gè)有趣的事實(shí)是,Googlebot通常被描述為機(jī)器人,并且被恰當(dāng)?shù)胤Q為“Googlebot”。還有一個(gè)蜘蛛吉祥物,名叫“克勞利(Crawley)”。

立即登錄,閱讀全文
原文鏈接:點(diǎn)擊前往 >
文章來源:數(shù)聚梨海外營銷獨(dú)立站跨境電商
版權(quán)說明:本文內(nèi)容來自于數(shù)聚梨海外營銷獨(dú)立站跨境電商,本站不擁有所有權(quán),不承擔(dān)相關(guān)法律責(zé)任。文章內(nèi)容系作者個(gè)人觀點(diǎn),不代表快出海對觀點(diǎn)贊同或支持。如有侵權(quán),請聯(lián)系管理員(zzx@kchuhai.com)刪除!
優(yōu)質(zhì)服務(wù)商推薦
更多