抓取預算是搜索引擎想要在您的網站上抓取的速度和頁面數(shù)量。它受爬網程序要在您的網站上使用的資源數(shù)量以及服務器支持的爬網數(shù)量的影響。更多的抓取并不意味著你的排名會更好,但如果你的頁面沒有被抓取和索引,它們根本就不會排名。大多數(shù)網站不需要擔心抓取預算,但在少數(shù)情況下您可能需要查看一下。讓我們來看看其中的一些案例。
1.您何時應該擔心搜尋預算?
您通常不必擔心熱門頁面上的抓取預算。通常是較新的頁面、沒有很好鏈接的頁面,或者不經常抓取的頁面變化不大。對于較新的網站,尤其是那些頁面較多的網站,抓取預算可能是一個問題。您的服務器可能能夠支持更多的爬網,但是由于您的網站是新的,并且可能還不太流行,因此搜索引擎可能不想太多地對您的網站進行爬網。
這主要是期望的脫節(jié)。您希望對您的網頁進行抓取和編入索引,但Google不知道是否值得將您的網頁編入索引,并且可能不想抓取您希望的網頁數(shù)量。對于擁有數(shù)百萬個頁面或經常更新的網站的大型網站,抓取預算也可能是一個問題。通常,如果您有很多頁面沒有按需進行爬網或更新,則可能需要考慮加快爬網速度。我們將在本文后面討論如何做到這一點。
2.如何查看爬蟲活動
如果您想查看Google抓取活動的概述以及他們發(fā)現(xiàn)的任何問題,最好的查看位置是Google Search Console中的抓取統(tǒng)計報告。如果您想查看來自所有機器人和用戶的點擊,您需要訪問您的日志文件。根據(jù)托管和設置,您可能可以訪問Awstats和Webalizer等工具,如此處在具有cPanel的共享主機上所見。這些工具會顯示日志文件中的一些匯總數(shù)據(jù)。
或更復雜的設置,您必須訪問和存儲原始日志文件中的數(shù)據(jù),可能來自多個來源。對于大型項目,您可能還需要專門的工具,例如ELK(elasticsearch、logstash、kibana)堆棧,它允許存儲、處理和可視化日志文件。還有Splunk等日志分析工具。
3.什么會計入抓取預算?
所有URL和請求都計入您的抓取預算。這包括備用URL,如AMP或m-dot頁面、hreflang、CSS和JavaScript,包括XHR請求。這些URL可以通過抓取和解析頁面找到,也可以從各種其他來源(包括站點地圖、RSS提要、提交URL以在Google Search Console中編入索引)或使用索引API找到。還有多個Googlebot共享抓取預算。您可以在GSC的抓取統(tǒng)計報告中找到抓取您網站的各種Googlebot的列表。
A)Google調整抓取方式
每個網站都有不同的抓取預算,由幾個不同的輸入組成。
B)爬取需求
抓取需求就是Google想要在您的網站上抓取多少。更受歡迎的頁面和經歷重大變化的頁面將被抓取更多。熱門頁面或指向它們的鏈接較多的頁面通常將比其他頁面具有優(yōu)先權。請記住,Google必須以某種方式優(yōu)先抓取您的網頁,而鏈接是一種確定您網站上哪些網頁更受歡迎的簡單方法。不僅僅是你的網站,谷歌必須弄清楚如何優(yōu)先考慮互聯(lián)網上所有網站上的所有頁面。
您可以使用Site Explorer中的Best by links報告來指示哪些頁面可能被更頻繁地抓取。它還顯示Ahrefs上次抓取您的頁面的時間。還有一個過時的概念。如果谷歌發(fā)現(xiàn)頁面沒有變化,他們就會降低抓取頁面的頻率。例如,如果他們抓取一個頁面,一天后沒有看到任何變化,他們可能會等待三天再抓取,下一次十天,30天,100天等。他們在兩次抓取之間沒有實際設定的等待時間,但隨著時間的推移,它會變得越來越少。但是,如果Google看到整個網站發(fā)生了巨大變化或網站發(fā)生了重大變化,他們通常會提高抓取速度,至少是暫時的。
C)抓取速度限制
抓取速度限制是您的網站可以支持的抓取量。在出現(xiàn)服務器穩(wěn)定性問題(如速度減慢或錯誤)之前,網站可以進行一定量的抓取。如果大多數(shù)爬蟲開始看到這些問題,它們就會停止爬行,以免損害站點。Google會根據(jù)網站的抓取健康狀況進行調整。如果該站點在爬行次數(shù)更多時正常,則限制將增加。如果網站有問題,那么谷歌會減慢他們的抓取速度。
4.如何讓Google抓取速度更快?
您可以采取一些措施來確保您的網站能夠支持額外的抓取并增加您網站的抓取需求。讓我們看看其中的一些選項。
A)加速您的服務器/增加資源
Google抓取頁面的方式基本上是下載資源,然后在它們的一端進行處理。用戶感知的頁面速度并不完全相同。影響抓取預算的是谷歌連接和下載資源的速度,這更多地與服務器和資源有關。
B)更多鏈接,外部和內部
請記住,抓取需求通?;诹餍卸然蜴溄印D梢酝ㄟ^增加外部鏈接和/或內部鏈接的數(shù)量來增加預算。由于您控制網站,因此內部鏈接更容易。您可以在“網站審核”的“鏈接機會”報告中找到建議的內部鏈接,該報告還包括一個說明其工作原理的教程。
C)修復損壞和重定向的鏈接
保持站點上損壞或重定向頁面的鏈接處于活動狀態(tài)將對抓取預算產生很小的影響。通常,此處鏈接的頁面的優(yōu)先級相當?shù)停驗樗鼈兛赡芤呀浻幸欢螘r間沒有更改了,但清理任何問題通常對網站維護有益,并且會稍微幫助您的抓取預算。
您可以在站點審核的內部頁面報告中輕松找到站點上的損壞(4xx)和重定向(3xx)鏈接。對于站點地圖中損壞或重定向的鏈接,請檢查“站點地圖中的3XX重定向”和“站點地圖中的4XX頁面”問題的所有問題報告。
D)盡可能使用GET而不是POST
這個有點技術性,因為它涉及HTTP請求方法。不要在GET請求有效的地方使用POST請求。它基本上是GET(拉)與POST(推)。POST請求不會被緩存,因此會影響抓取預算,但是GET請求可以被緩存。
E)使用索引API
如果您需要更快地抓取頁面,請檢查您是否有資格使用Google的索引API。目前,這僅適用于少數(shù)用例,例如職位發(fā)布或實時視頻。Bing還提供了所有人均可使用的Indexing API。
5.什么改動是無效的?
人們有時會嘗試一些對您的抓取預算實際上無濟于事的事情。
·網站的小改動。對頁面進行小的更改,例如更新日期、空格或標點符號,以希望更頻繁地抓取頁面。Google非常擅長確定更改是否重要,因此這些小的更改不太可能對抓取產生任何影響。
·robots.txt中的抓取延遲指令。該指令將減慢許多機器人的速度。但是Googlebot不使用它,因此不會產生影響。
·刪除第三方腳本。第三方腳本不計入您的抓取預算,因此刪除它們無濟于事。
·Nofollow。好吧,這個有問題。過去,nofollow鏈接不會使用抓取預算。但是,nofollow現(xiàn)在被視為提示,因此Google可能會選擇抓取這些鏈接。
6.如何讓Google抓取速度變慢?
有幾個好方法可以讓Google抓取速度變慢。從技術上講,您還可以進行一些其他調整,例如降低網站速度,但我不推薦這些方法。
調整緩慢,但有保證
Google提供給我們的主要控制是讓我們爬得更慢,這是Google Search Console中的速率限制器。您可以使用該工具降低抓取速度,但最多可能需要兩天的時間才能生效。
快速調整,但有風險
如果您需要更直接的解決方案,則可以利用Google與網站運行狀況相關的抓取速度調整。如果您在頁面上向Googlebot提供“503服務不可用”或“429請求過多”狀態(tài)代碼,它們的抓取速度將開始變慢或可能會暫時停止抓取。但是,您不希望這樣做超過幾天,否則他們可能會開始從索引中刪除頁面。
寫在最后
再次重申,抓取預算不是大多數(shù)人需要擔心的。如果您確實有疑慮,我希望本指南對您有所幫助。我通常只在頁面沒有被爬取和建立索引的問題時才進行調查,我需要解釋為什么不應該擔心它,或者在Google Search Console的爬網統(tǒng)計報告中碰巧看到與我有關的問題。