谷歌SEO：如何優(yōu)化抓取預(yù)算？

來源：數(shù)聚梨海外營銷獨(dú)立站跨境電商

作者：數(shù)聚梨海外營銷獨(dú)立站跨境電商

時(shí)間：2021-10-14

抓取預(yù)算（crawl budget）是指Google愿意花在抓取給定網(wǎng)站上的時(shí)間。雖然看起來谷歌有點(diǎn)全能，但他們的資源有限，而且網(wǎng)絡(luò)龐大。

640 （1）.png

抓取預(yù)算（crawl budget）是指Google愿意花在抓取給定網(wǎng)站上的時(shí)間。雖然看起來谷歌有點(diǎn)全能，但他們的資源有限，而且網(wǎng)絡(luò)龐大。因此，他們必須以某種方式確定優(yōu)先級并分配一定的時(shí)間或資源來抓取給定的網(wǎng)站?，F(xiàn)在他們根據(jù)網(wǎng)站在用戶中的受歡迎程度和內(nèi)容的新鮮度來確定優(yōu)先級，因?yàn)楣雀铏C(jī)器人有點(diǎn)渴望新的、前所未見的URL。今天，我們將專注于如何充分利用您擁有的抓取預(yù)算，這通常在任何情況下都是一個(gè)更容易使用的杠桿。

抓取預(yù)算問題的原因

那么抓取預(yù)算問題實(shí)際上是如何產(chǎn)生的呢？

1.刻面（facet）

現(xiàn)在我認(rèn)為網(wǎng)站上可能導(dǎo)致抓取預(yù)算問題的主要問題首先是方面。所以你可以想象在一個(gè)電子通信網(wǎng)站上，想象我們有一個(gè)筆記本電腦頁面。我們也許可以按大小過濾它。您有一個(gè)15英寸的屏幕和16 GB的RAM。那里可能有很多不同的排列，可能會(huì)導(dǎo)致大量的URL，而實(shí)際上我們只有一個(gè)頁面或一個(gè)類別——筆記本電腦頁面。然后可以對這些重新排序以創(chuàng)建其他執(zhí)行完全相同操作但必須單獨(dú)抓取的URL。同樣，它們的排序可能不同?？赡軙?huì)有分頁等等。因此，您可以讓一個(gè)類別頁面生成大量URL。

2.搜索結(jié)果頁面（Search results pages）

經(jīng)常出現(xiàn)的其他一些事情是來自內(nèi)部站點(diǎn)搜索的搜索結(jié)果頁面通常可以，特別是如果它們是分頁的，它們可能會(huì)生成許多不同的URL。

3.列表頁面（Listings pages）

如果您允許用戶上傳他們自己的列表或內(nèi)容，那么隨著時(shí)間的推移，如果您考慮工作板或eBay之類的東西，并且它可能有大量頁面，那么這可能會(huì)累積成大量的URL。

修復(fù)抓取預(yù)算問題

那么，您可以使用哪些工具來解決這些問題并充分利用您的抓取預(yù)算？作為基準(zhǔn)，如果我們考慮正常URL與Googlebot的行為方式，我們會(huì)說，是的，它可以被抓取，是的，它可以被編入索引，是的，它通過了PageRank。所以像這樣的URL，如果我鏈接到我網(wǎng)站上的某個(gè)地方，然后谷歌遵循該鏈接并索引這些頁面，這些可能仍然具有頂部導(dǎo)航和站點(diǎn)范圍的導(dǎo)航。

因此，實(shí)際上傳遞到這些頁面的鏈接將被循環(huán)使用。當(dāng)我們通過這么多不同的頁面和這么多不同的過濾器進(jìn)行鏈接時(shí)，會(huì)由于稀釋而造成一些損失。但最終，我們正在回收這個(gè)。沒有泄漏的PageRank的黑洞損失。

1.Robots.txt

現(xiàn)在處于相反的極端，您可以采用的最極端的抓取預(yù)算解決方案是robots.txt文件。如果你在robots.txt中屏蔽了一個(gè)頁面，那么它就無法被抓取。從技術(shù)上講，robots.txt中阻止的站點(diǎn)和頁面可以編入索引。您有時(shí)會(huì)看到網(wǎng)站顯示或SERP中顯示的帶有此元描述的頁面無法顯示，因?yàn)樵擁撁嬖趓obots.txt或此類消息中被阻止。

所以從技術(shù)上講，它們可以被索引，但在功能上，它們不會(huì)對任何東西或至少任何有效的東西進(jìn)行排名。所以從技術(shù)上講，他們沒有通過PageRank。當(dāng)我們鏈接到這樣的頁面時(shí)，我們?nèi)栽趥鬟fPageRank。但是，如果它隨后在robots.txt中被阻止，則PageRank不會(huì)再進(jìn)一步。所以我們創(chuàng)造了一個(gè)泄漏和一個(gè)黑洞。所以這是一個(gè)相當(dāng)嚴(yán)厲的解決方案，盡管它很容易實(shí)現(xiàn)。

2.Link-level nofollow

如果我們在主要筆記本電腦類別頁面上獲取指向這些方面的鏈接，并且我們在這些鏈接內(nèi)部放置了一個(gè)nofollow屬性，那么這將有一些優(yōu)點(diǎn)和缺點(diǎn)。我認(rèn)為更好的用例實(shí)際上會(huì)更多地出現(xiàn)在列表案例中。所以想象一下，如果我們經(jīng)營一個(gè)二手車網(wǎng)站，我們有數(shù)百萬種不同的二手車產(chǎn)品列表?，F(xiàn)在我們真的不希望谷歌在這些單獨(dú)的列表上浪費(fèi)時(shí)間，這可能取決于我們網(wǎng)站的規(guī)模。

但偶爾名人可能會(huì)上傳他們的汽車或類似的東西，或者可能會(huì)上傳非常稀有的汽車，這將開始獲得媒體鏈接。所以我們不想在robots.txt中阻止該頁面，因?yàn)樵谶@種情況下我們會(huì)浪費(fèi)這些外部鏈接。因此，我們可能會(huì)在指向該頁面的內(nèi)部鏈接上做些什么，我們可能會(huì)在內(nèi)部不關(guān)注該鏈接。所以這意味著它可以被抓取，但前提是它被找到了，只有當(dāng)谷歌以其他方式找到它時(shí)，比如通過外部鏈接或類似的東西。

我們在這里有一個(gè)中途之家?，F(xiàn)在從技術(shù)上講，這些nofollow是一個(gè)提示。根據(jù)我的經(jīng)驗(yàn)，Google不會(huì)抓取僅通過內(nèi)部nofollow鏈接的頁面。如果它以其他方式找到頁面，顯然它仍然會(huì)抓取它。但總的來說，這可以作為一種限制爬網(wǎng)預(yù)算的有效方式，或者我應(yīng)該說使用爬網(wǎng)預(yù)算更有效。該頁面仍然可以被索引。

這就是我們在該示例中試圖實(shí)現(xiàn)的目標(biāo)。它仍然可以通過PageRank。這是我們試圖實(shí)現(xiàn)的另一件事。盡管您仍然通過此nofollow鏈接失去了一些PageRank。這仍然算作一個(gè)鏈接，因此您將失去一些原本會(huì)被傳送到該后續(xù)鏈接的PageRank。

3.Noindex,nofollow

noindex和nofollow對于ecomm網(wǎng)站上的這些頁面來說，顯然是一個(gè)非常常見的解決方案。在這種情況下，可以抓取頁面。但是一旦谷歌到達(dá)那個(gè)頁面，它會(huì)發(fā)現(xiàn)它是noindex，隨著時(shí)間的推移它會(huì)抓取它的次數(shù)會(huì)少得多，因?yàn)樽トoindex頁面的意義不大。再說一次，我們在這里有一個(gè)中途之家。

顯然，它不能被索引。它沒有索引。它不會(huì)向外傳遞PageRank。PageRank仍然傳遞到這個(gè)頁面，但因?yàn)樗趆ead部分有一個(gè)nofollow，它不會(huì)向外傳遞PageRank。這不是一個(gè)很好的解決方案。為了節(jié)省抓取預(yù)算，我們必須在此處達(dá)成一些妥協(xié)。

4.Noindex,follow

所以很多人曾經(jīng)認(rèn)為，哦，好吧，解決這個(gè)問題的方法是使用noindex follow作為兩者的最佳選擇。所以你在其中一個(gè)頁面的頭部放置了一個(gè)noindex follow標(biāo)簽，哦，是的，每個(gè)人都是贏家，因?yàn)槲覀內(nèi)匀坏玫搅送瑯拥呐佬泻锰帯Ｎ覀內(nèi)匀粵]有索引這種我們不想索引的新重復(fù)頁面，但PageRank解決方案是固定的。

幾年前，谷歌出來說，“哦，我們自己沒有意識到這一點(diǎn)，但實(shí)際上，隨著時(shí)間的推移，我們越來越少地抓取這個(gè)頁面，我們將不再看到鏈接，然后它就不會(huì)了。”所以他們有點(diǎn)暗示這不再是一種仍然通過PageRank的方式，最終它會(huì)被視為noindex和nofollow。再說一次，我們在那里有一種稍微妥協(xié)的解決方案。

5.規(guī)范（Canonical）

所有世界中真正最好的可能是規(guī)范的。使用規(guī)范標(biāo)簽，隨著時(shí)間的推移，它仍然會(huì)被抓取得少一點(diǎn)，規(guī)范化的版本，很棒。它仍然不會(huì)被索引，規(guī)范化的版本，很好，它仍然通過PageRank。所以這看起來很棒。在很多情況下，這似乎是完美的。但這只有在頁面接近足夠重復(fù)的情況下才有效，谷歌愿意將它們視為重復(fù)并尊重規(guī)范。如果他們不愿意將它們視為重復(fù)項(xiàng)，那么您可能不得不重新使用noindex。或者，如果您認(rèn)為實(shí)際上這個(gè)URL根本沒有存在的理由，我不知道這種錯(cuò)誤的順序組合是如何產(chǎn)生的，但這似乎毫無意義。

6.301

我不會(huì)再鏈接到它了。但是，如果有些人仍然以某種方式找到URL，我們可以使用301作為一種經(jīng)濟(jì)，最終會(huì)表現(xiàn)得非常好......我會(huì)說比規(guī)范和noindex更能節(jié)省抓取預(yù)算，因?yàn)楣雀铔]有甚至不必在極少數(shù)情況下查看頁面，它確實(shí)會(huì)檢查它，因?yàn)樗皇亲裱?01。它將解決我們的索引問題，并且將通過PageRank。但顯然，這里的權(quán)衡是用戶也不能訪問這個(gè)URL，所以我們必須接受。

實(shí)施爬網(wǎng)預(yù)算策略

綜上所述，我們將如何實(shí)際使用這些策略？那么，如果您想進(jìn)行爬網(wǎng)預(yù)算項(xiàng)目，我會(huì)推薦哪些活動(dòng)？不太直觀的一種是速度。就像我之前說的，谷歌正在分配一定量的時(shí)間或資源來抓取給定的網(wǎng)站。因此，如果您的站點(diǎn)非?？?，如果您的服務(wù)器響應(yīng)時(shí)間很短，如果您使用輕量級HTML，它們將在相同的時(shí)間內(nèi)瀏覽更多頁面。

所以這違反直覺是解決這個(gè)問題的好方法。日志分析，這有點(diǎn)傳統(tǒng)。通常，您網(wǎng)站上的哪些頁面或哪些參數(shù)實(shí)際上消耗了您所有的抓取預(yù)算是非常不直觀的。大型站點(diǎn)上的日志分析通常會(huì)產(chǎn)生令人驚訝的結(jié)果，因此您可能會(huì)考慮這一點(diǎn)。然后實(shí)際使用其中一些工具。

因此，我們認(rèn)為用戶甚至不需要查看的冗余URL，我們可以301。用戶確實(shí)需要查看的變體，我們可以查看規(guī)范或noindex標(biāo)簽。但我們也可能希望首先避免鏈接到它們，這樣我們就不會(huì)因?yàn)橄♂尰蛩篮鴮⒛撤N程度的PageRank丟失到那些規(guī)范化或無索引變體中。

Robots.txt和nofollow，正如我在瀏覽它時(shí)暗示的那樣，這些是您希望非常謹(jǐn)慎地使用的策略，因?yàn)樗鼈兇_實(shí)會(huì)造成這些PageRank的死胡同。如果您的網(wǎng)站上有一個(gè)您只使用的站點(diǎn)地圖對于新鮮或最近的URL，您最近更改的URL，然后因?yàn)镚ooglebot如此渴望，就像我說的那樣，對新鮮內(nèi)容，他們將開始頻繁地抓取此站點(diǎn)地圖。因此，您可以使用這種策略將抓取預(yù)算定向到新的URL，這樣每個(gè)人都會(huì)贏。

Googlebot只想查看新的網(wǎng)址。您可能只想讓Googlebot看到新的網(wǎng)址。因此，如果您有一個(gè)僅用于該目的的站點(diǎn)地圖，那么每個(gè)人都會(huì)獲勝，這可能是一個(gè)很好且易于實(shí)施的技巧。所以這就是全部。

Google SEO 谷歌

上一篇：2022年我們可以運(yùn)營的頂級SEO策略

原文鏈接：點(diǎn)擊前往 >

文章來源：數(shù)聚梨海外營銷獨(dú)立站跨境電商

版權(quán)說明：本文內(nèi)容來自于數(shù)聚梨海外營銷獨(dú)立站跨境電商，本站不擁有所有權(quán)，不承擔(dān)相關(guān)法律責(zé)任。文章內(nèi)容系作者個(gè)人觀點(diǎn)，不代表快出海對觀點(diǎn)贊同或支持。如有侵權(quán)，請聯(lián)系管理員（zzx@kchuhai.com）刪除！

相關(guān)文章