抓取預(yù)算是搜索引擎想要在您的網(wǎng)站上抓取的速度和頁面數(shù)量。它受爬網(wǎng)程序要在您的網(wǎng)站上使用的資源數(shù)量以及服務(wù)器支持的爬網(wǎng)數(shù)量的影響。更多的抓取并不意味著你的排名會更好,但如果你的頁面沒有被抓取和索引,它們根本就不會排名。大多數(shù)網(wǎng)站不需要擔(dān)心抓取預(yù)算,但在少數(shù)情況下您可能需要查看一下。讓我們來看看其中的一些案例。
1.您何時應(yīng)該擔(dān)心搜尋預(yù)算?
您通常不必?fù)?dān)心熱門頁面上的抓取預(yù)算。通常是較新的頁面、沒有很好鏈接的頁面,或者不經(jīng)常抓取的頁面變化不大。對于較新的網(wǎng)站,尤其是那些頁面較多的網(wǎng)站,抓取預(yù)算可能是一個問題。您的服務(wù)器可能能夠支持更多的爬網(wǎng),但是由于您的網(wǎng)站是新的,并且可能還不太流行,因此搜索引擎可能不想太多地對您的網(wǎng)站進(jìn)行爬網(wǎng)。
這主要是期望的脫節(jié)。您希望對您的網(wǎng)頁進(jìn)行抓取和編入索引,但Google不知道是否值得將您的網(wǎng)頁編入索引,并且可能不想抓取您希望的網(wǎng)頁數(shù)量。對于擁有數(shù)百萬個頁面或經(jīng)常更新的網(wǎng)站的大型網(wǎng)站,抓取預(yù)算也可能是一個問題。通常,如果您有很多頁面沒有按需進(jìn)行爬網(wǎng)或更新,則可能需要考慮加快爬網(wǎng)速度。我們將在本文后面討論如何做到這一點(diǎn)。
2.如何查看爬蟲活動
如果您想查看Google抓取活動的概述以及他們發(fā)現(xiàn)的任何問題,最好的查看位置是Google Search Console中的抓取統(tǒng)計報告。如果您想查看來自所有機(jī)器人和用戶的點(diǎn)擊,您需要訪問您的日志文件。根據(jù)托管和設(shè)置,您可能可以訪問Awstats和Webalizer等工具,如此處在具有cPanel的共享主機(jī)上所見。這些工具會顯示日志文件中的一些匯總數(shù)據(jù)。
或更復(fù)雜的設(shè)置,您必須訪問和存儲原始日志文件中的數(shù)據(jù),可能來自多個來源。對于大型項目,您可能還需要專門的工具,例如ELK(elasticsearch、logstash、kibana)堆棧,它允許存儲、處理和可視化日志文件。還有Splunk等日志分析工具。
3.什么會計入抓取預(yù)算?
所有URL和請求都計入您的抓取預(yù)算。這包括備用URL,如AMP或m-dot頁面、hreflang、CSS和JavaScript,包括XHR請求。這些URL可以通過抓取和解析頁面找到,也可以從各種其他來源(包括站點(diǎn)地圖、RSS提要、提交URL以在Google Search Console中編入索引)或使用索引API找到。還有多個Googlebot共享抓取預(yù)算。您可以在GSC的抓取統(tǒng)計報告中找到抓取您網(wǎng)站的各種Googlebot的列表。
A)Google調(diào)整抓取方式
每個網(wǎng)站都有不同的抓取預(yù)算,由幾個不同的輸入組成。
B)爬取需求
抓取需求就是Google想要在您的網(wǎng)站上抓取多少。更受歡迎的頁面和經(jīng)歷重大變化的頁面將被抓取更多。熱門頁面或指向它們的鏈接較多的頁面通常將比其他頁面具有優(yōu)先權(quán)。請記住,Google必須以某種方式優(yōu)先抓取您的網(wǎng)頁,而鏈接是一種確定您網(wǎng)站上哪些網(wǎng)頁更受歡迎的簡單方法。不僅僅是你的網(wǎng)站,谷歌必須弄清楚如何優(yōu)先考慮互聯(lián)網(wǎng)上所有網(wǎng)站上的所有頁面。
您可以使用Site Explorer中的Best by links報告來指示哪些頁面可能被更頻繁地抓取。它還顯示Ahrefs上次抓取您的頁面的時間。還有一個過時的概念。如果谷歌發(fā)現(xiàn)頁面沒有變化,他們就會降低抓取頁面的頻率。例如,如果他們抓取一個頁面,一天后沒有看到任何變化,他們可能會等待三天再抓取,下一次十天,30天,100天等。他們在兩次抓取之間沒有實(shí)際設(shè)定的等待時間,但隨著時間的推移,它會變得越來越少。但是,如果Google看到整個網(wǎng)站發(fā)生了巨大變化或網(wǎng)站發(fā)生了重大變化,他們通常會提高抓取速度,至少是暫時的。
C)抓取速度限制
抓取速度限制是您的網(wǎng)站可以支持的抓取量。在出現(xiàn)服務(wù)器穩(wěn)定性問題(如速度減慢或錯誤)之前,網(wǎng)站可以進(jìn)行一定量的抓取。如果大多數(shù)爬蟲開始看到這些問題,它們就會停止爬行,以免損害站點(diǎn)。Google會根據(jù)網(wǎng)站的抓取健康狀況進(jìn)行調(diào)整。如果該站點(diǎn)在爬行次數(shù)更多時正常,則限制將增加。如果網(wǎng)站有問題,那么谷歌會減慢他們的抓取速度。
4.如何讓Google抓取速度更快?
您可以采取一些措施來確保您的網(wǎng)站能夠支持額外的抓取并增加您網(wǎng)站的抓取需求。讓我們看看其中的一些選項。
A)加速您的服務(wù)器/增加資源
Google抓取頁面的方式基本上是下載資源,然后在它們的一端進(jìn)行處理。用戶感知的頁面速度并不完全相同。影響抓取預(yù)算的是谷歌連接和下載資源的速度,這更多地與服務(wù)器和資源有關(guān)。
B)更多鏈接,外部和內(nèi)部
請記住,抓取需求通常基于流行度或鏈接。您可以通過增加外部鏈接和/或內(nèi)部鏈接的數(shù)量來增加預(yù)算。由于您控制網(wǎng)站,因此內(nèi)部鏈接更容易。您可以在“網(wǎng)站審核”的“鏈接機(jī)會”報告中找到建議的內(nèi)部鏈接,該報告還包括一個說明其工作原理的教程。
C)修復(fù)損壞和重定向的鏈接
保持站點(diǎn)上損壞或重定向頁面的鏈接處于活動狀態(tài)將對抓取預(yù)算產(chǎn)生很小的影響。通常,此處鏈接的頁面的優(yōu)先級相當(dāng)?shù)?,因為它們可能已?jīng)有一段時間沒有更改了,但清理任何問題通常對網(wǎng)站維護(hù)有益,并且會稍微幫助您的抓取預(yù)算。
您可以在站點(diǎn)審核的內(nèi)部頁面報告中輕松找到站點(diǎn)上的損壞(4xx)和重定向(3xx)鏈接。對于站點(diǎn)地圖中損壞或重定向的鏈接,請檢查“站點(diǎn)地圖中的3XX重定向”和“站點(diǎn)地圖中的4XX頁面”問題的所有問題報告。
D)盡可能使用GET而不是POST
這個有點(diǎn)技術(shù)性,因為它涉及HTTP請求方法。不要在GET請求有效的地方使用POST請求。它基本上是GET(拉)與POST(推)。POST請求不會被緩存,因此會影響抓取預(yù)算,但是GET請求可以被緩存。
E)使用索引API
如果您需要更快地抓取頁面,請檢查您是否有資格使用Google的索引API。目前,這僅適用于少數(shù)用例,例如職位發(fā)布或?qū)崟r視頻。Bing還提供了所有人均可使用的Indexing API。
5.什么改動是無效的?
人們有時會嘗試一些對您的抓取預(yù)算實(shí)際上無濟(jì)于事的事情。
·網(wǎng)站的小改動。對頁面進(jìn)行小的更改,例如更新日期、空格或標(biāo)點(diǎn)符號,以希望更頻繁地抓取頁面。Google非常擅長確定更改是否重要,因此這些小的更改不太可能對抓取產(chǎn)生任何影響。
·robots.txt中的抓取延遲指令。該指令將減慢許多機(jī)器人的速度。但是Googlebot不使用它,因此不會產(chǎn)生影響。
·刪除第三方腳本。第三方腳本不計入您的抓取預(yù)算,因此刪除它們無濟(jì)于事。
·Nofollow。好吧,這個有問題。過去,nofollow鏈接不會使用抓取預(yù)算。但是,nofollow現(xiàn)在被視為提示,因此Google可能會選擇抓取這些鏈接。
6.如何讓Google抓取速度變慢?
有幾個好方法可以讓Google抓取速度變慢。從技術(shù)上講,您還可以進(jìn)行一些其他調(diào)整,例如降低網(wǎng)站速度,但我不推薦這些方法。
調(diào)整緩慢,但有保證
Google提供給我們的主要控制是讓我們爬得更慢,這是Google Search Console中的速率限制器。您可以使用該工具降低抓取速度,但最多可能需要兩天的時間才能生效。
快速調(diào)整,但有風(fēng)險
如果您需要更直接的解決方案,則可以利用Google與網(wǎng)站運(yùn)行狀況相關(guān)的抓取速度調(diào)整。如果您在頁面上向Googlebot提供“503服務(wù)不可用”或“429請求過多”狀態(tài)代碼,它們的抓取速度將開始變慢或可能會暫時停止抓取。但是,您不希望這樣做超過幾天,否則他們可能會開始從索引中刪除頁面。
寫在最后
再次重申,抓取預(yù)算不是大多數(shù)人需要擔(dān)心的。如果您確實(shí)有疑慮,我希望本指南對您有所幫助。我通常只在頁面沒有被爬取和建立索引的問題時才進(jìn)行調(diào)查,我需要解釋為什么不應(yīng)該擔(dān)心它,或者在Google Search Console的爬網(wǎng)統(tǒng)計報告中碰巧看到與我有關(guān)的問題。