抓取預(yù)算(crawl budget)是指Google愿意花在抓取給定網(wǎng)站上的時(shí)間。雖然看起來谷歌有點(diǎn)全能,但他們的資源有限,而且網(wǎng)絡(luò)龐大。因此,他們必須以某種方式確定優(yōu)先級(jí)并分配一定的時(shí)間或資源來抓取給定的網(wǎng)站?,F(xiàn)在他們根據(jù)網(wǎng)站在用戶中的受歡迎程度和內(nèi)容的新鮮度來確定優(yōu)先級(jí),因?yàn)楣雀铏C(jī)器人有點(diǎn)渴望新的、前所未見的URL。今天,我們將專注于如何充分利用您擁有的抓取預(yù)算,這通常在任何情況下都是一個(gè)更容易使用的杠桿。
抓取預(yù)算問題的原因
那么抓取預(yù)算問題實(shí)際上是如何產(chǎn)生的呢?
1.刻面(facet)
現(xiàn)在我認(rèn)為網(wǎng)站上可能導(dǎo)致抓取預(yù)算問題的主要問題首先是方面。所以你可以想象在一個(gè)電子通信網(wǎng)站上,想象我們有一個(gè)筆記本電腦頁(yè)面。我們也許可以按大小過濾它。您有一個(gè)15英寸的屏幕和16 GB的RAM。那里可能有很多不同的排列,可能會(huì)導(dǎo)致大量的URL,而實(shí)際上我們只有一個(gè)頁(yè)面或一個(gè)類別——筆記本電腦頁(yè)面。然后可以對(duì)這些重新排序以創(chuàng)建其他執(zhí)行完全相同操作但必須單獨(dú)抓取的URL。同樣,它們的排序可能不同??赡軙?huì)有分頁(yè)等等。因此,您可以讓一個(gè)類別頁(yè)面生成大量URL。
2.搜索結(jié)果頁(yè)面(Search results pages)
經(jīng)常出現(xiàn)的其他一些事情是來自內(nèi)部站點(diǎn)搜索的搜索結(jié)果頁(yè)面通??梢裕貏e是如果它們是分頁(yè)的,它們可能會(huì)生成許多不同的URL。
3.列表頁(yè)面(Listings pages)
如果您允許用戶上傳他們自己的列表或內(nèi)容,那么隨著時(shí)間的推移,如果您考慮工作板或eBay之類的東西,并且它可能有大量頁(yè)面,那么這可能會(huì)累積成大量的URL。
修復(fù)抓取預(yù)算問題
那么,您可以使用哪些工具來解決這些問題并充分利用您的抓取預(yù)算?作為基準(zhǔn),如果我們考慮正常URL與Googlebot的行為方式,我們會(huì)說,是的,它可以被抓取,是的,它可以被編入索引,是的,它通過了PageRank。所以像這樣的URL,如果我鏈接到我網(wǎng)站上的某個(gè)地方,然后谷歌遵循該鏈接并索引這些頁(yè)面,這些可能仍然具有頂部導(dǎo)航和站點(diǎn)范圍的導(dǎo)航。
因此,實(shí)際上傳遞到這些頁(yè)面的鏈接將被循環(huán)使用。當(dāng)我們通過這么多不同的頁(yè)面和這么多不同的過濾器進(jìn)行鏈接時(shí),會(huì)由于稀釋而造成一些損失。但最終,我們正在回收這個(gè)。沒有泄漏的PageRank的黑洞損失。
1.Robots.txt
現(xiàn)在處于相反的極端,您可以采用的最極端的抓取預(yù)算解決方案是robots.txt文件。如果你在robots.txt中屏蔽了一個(gè)頁(yè)面,那么它就無法被抓取。從技術(shù)上講,robots.txt中阻止的站點(diǎn)和頁(yè)面可以編入索引。您有時(shí)會(huì)看到網(wǎng)站顯示或SERP中顯示的帶有此元描述的頁(yè)面無法顯示,因?yàn)樵擁?yè)面在robots.txt或此類消息中被阻止。
所以從技術(shù)上講,它們可以被索引,但在功能上,它們不會(huì)對(duì)任何東西或至少任何有效的東西進(jìn)行排名。所以從技術(shù)上講,他們沒有通過PageRank。當(dāng)我們鏈接到這樣的頁(yè)面時(shí),我們?nèi)栽趥鬟fPageRank。但是,如果它隨后在robots.txt中被阻止,則PageRank不會(huì)再進(jìn)一步。所以我們創(chuàng)造了一個(gè)泄漏和一個(gè)黑洞。所以這是一個(gè)相當(dāng)嚴(yán)厲的解決方案,盡管它很容易實(shí)現(xiàn)。
2.Link-level nofollow
如果我們?cè)谥饕P記本電腦類別頁(yè)面上獲取指向這些方面的鏈接,并且我們?cè)谶@些鏈接內(nèi)部放置了一個(gè)nofollow屬性,那么這將有一些優(yōu)點(diǎn)和缺點(diǎn)。我認(rèn)為更好的用例實(shí)際上會(huì)更多地出現(xiàn)在列表案例中。所以想象一下,如果我們經(jīng)營(yíng)一個(gè)二手車網(wǎng)站,我們有數(shù)百萬種不同的二手車產(chǎn)品列表?,F(xiàn)在我們真的不希望谷歌在這些單獨(dú)的列表上浪費(fèi)時(shí)間,這可能取決于我們網(wǎng)站的規(guī)模。
但偶爾名人可能會(huì)上傳他們的汽車或類似的東西,或者可能會(huì)上傳非常稀有的汽車,這將開始獲得媒體鏈接。所以我們不想在robots.txt中阻止該頁(yè)面,因?yàn)樵谶@種情況下我們會(huì)浪費(fèi)這些外部鏈接。因此,我們可能會(huì)在指向該頁(yè)面的內(nèi)部鏈接上做些什么,我們可能會(huì)在內(nèi)部不關(guān)注該鏈接。所以這意味著它可以被抓取,但前提是它被找到了,只有當(dāng)谷歌以其他方式找到它時(shí),比如通過外部鏈接或類似的東西。
我們?cè)谶@里有一個(gè)中途之家?,F(xiàn)在從技術(shù)上講,這些nofollow是一個(gè)提示。根據(jù)我的經(jīng)驗(yàn),Google不會(huì)抓取僅通過內(nèi)部nofollow鏈接的頁(yè)面。如果它以其他方式找到頁(yè)面,顯然它仍然會(huì)抓取它。但總的來說,這可以作為一種限制爬網(wǎng)預(yù)算的有效方式,或者我應(yīng)該說使用爬網(wǎng)預(yù)算更有效。該頁(yè)面仍然可以被索引。
這就是我們?cè)谠撌纠性噲D實(shí)現(xiàn)的目標(biāo)。它仍然可以通過PageRank。這是我們?cè)噲D實(shí)現(xiàn)的另一件事。盡管您仍然通過此nofollow鏈接失去了一些PageRank。這仍然算作一個(gè)鏈接,因此您將失去一些原本會(huì)被傳送到該后續(xù)鏈接的PageRank。
3.Noindex,nofollow
noindex和nofollow對(duì)于ecomm網(wǎng)站上的這些頁(yè)面來說,顯然是一個(gè)非常常見的解決方案。在這種情況下,可以抓取頁(yè)面。但是一旦谷歌到達(dá)那個(gè)頁(yè)面,它會(huì)發(fā)現(xiàn)它是noindex,隨著時(shí)間的推移它會(huì)抓取它的次數(shù)會(huì)少得多,因?yàn)樽トoindex頁(yè)面的意義不大。再說一次,我們?cè)谶@里有一個(gè)中途之家。
顯然,它不能被索引。它沒有索引。它不會(huì)向外傳遞PageRank。PageRank仍然傳遞到這個(gè)頁(yè)面,但因?yàn)樗趆ead部分有一個(gè)nofollow,它不會(huì)向外傳遞PageRank。這不是一個(gè)很好的解決方案。為了節(jié)省抓取預(yù)算,我們必須在此處達(dá)成一些妥協(xié)。
4.Noindex,follow
所以很多人曾經(jīng)認(rèn)為,哦,好吧,解決這個(gè)問題的方法是使用noindex follow作為兩者的最佳選擇。所以你在其中一個(gè)頁(yè)面的頭部放置了一個(gè)noindex follow標(biāo)簽,哦,是的,每個(gè)人都是贏家,因?yàn)槲覀內(nèi)匀坏玫搅送瑯拥呐佬泻锰?。我們?nèi)匀粵]有索引這種我們不想索引的新重復(fù)頁(yè)面,但PageRank解決方案是固定的。
幾年前,谷歌出來說,“哦,我們自己沒有意識(shí)到這一點(diǎn),但實(shí)際上,隨著時(shí)間的推移,我們?cè)絹碓缴俚刈ト∵@個(gè)頁(yè)面,我們將不再看到鏈接,然后它就不會(huì)了?!彼运麄冇悬c(diǎn)暗示這不再是一種仍然通過PageRank的方式,最終它會(huì)被視為noindex和nofollow。再說一次,我們?cè)谀抢镉幸环N稍微妥協(xié)的解決方案。
5.規(guī)范(Canonical)
所有世界中真正最好的可能是規(guī)范的。使用規(guī)范標(biāo)簽,隨著時(shí)間的推移,它仍然會(huì)被抓取得少一點(diǎn),規(guī)范化的版本,很棒。它仍然不會(huì)被索引,規(guī)范化的版本,很好,它仍然通過PageRank。所以這看起來很棒。在很多情況下,這似乎是完美的。但這只有在頁(yè)面接近足夠重復(fù)的情況下才有效,谷歌愿意將它們視為重復(fù)并尊重規(guī)范。如果他們不愿意將它們視為重復(fù)項(xiàng),那么您可能不得不重新使用noindex?;蛘撸绻J(rèn)為實(shí)際上這個(gè)URL根本沒有存在的理由,我不知道這種錯(cuò)誤的順序組合是如何產(chǎn)生的,但這似乎毫無意義。
6.301
我不會(huì)再鏈接到它了。但是,如果有些人仍然以某種方式找到URL,我們可以使用301作為一種經(jīng)濟(jì),最終會(huì)表現(xiàn)得非常好......我會(huì)說比規(guī)范和noindex更能節(jié)省抓取預(yù)算,因?yàn)楣雀铔]有甚至不必在極少數(shù)情況下查看頁(yè)面,它確實(shí)會(huì)檢查它,因?yàn)樗皇亲裱?01。它將解決我們的索引問題,并且將通過PageRank。但顯然,這里的權(quán)衡是用戶也不能訪問這個(gè)URL,所以我們必須接受。
實(shí)施爬網(wǎng)預(yù)算策略
綜上所述,我們將如何實(shí)際使用這些策略?那么,如果您想進(jìn)行爬網(wǎng)預(yù)算項(xiàng)目,我會(huì)推薦哪些活動(dòng)?不太直觀的一種是速度。就像我之前說的,谷歌正在分配一定量的時(shí)間或資源來抓取給定的網(wǎng)站。因此,如果您的站點(diǎn)非???,如果您的服務(wù)器響應(yīng)時(shí)間很短,如果您使用輕量級(jí)HTML,它們將在相同的時(shí)間內(nèi)瀏覽更多頁(yè)面。
所以這違反直覺是解決這個(gè)問題的好方法。日志分析,這有點(diǎn)傳統(tǒng)。通常,您網(wǎng)站上的哪些頁(yè)面或哪些參數(shù)實(shí)際上消耗了您所有的抓取預(yù)算是非常不直觀的。大型站點(diǎn)上的日志分析通常會(huì)產(chǎn)生令人驚訝的結(jié)果,因此您可能會(huì)考慮這一點(diǎn)。然后實(shí)際使用其中一些工具。
因此,我們認(rèn)為用戶甚至不需要查看的冗余URL,我們可以301。用戶確實(shí)需要查看的變體,我們可以查看規(guī)范或noindex標(biāo)簽。但我們也可能希望首先避免鏈接到它們,這樣我們就不會(huì)因?yàn)橄♂尰蛩篮鴮⒛撤N程度的PageRank丟失到那些規(guī)范化或無索引變體中。
Robots.txt和nofollow,正如我在瀏覽它時(shí)暗示的那樣,這些是您希望非常謹(jǐn)慎地使用的策略,因?yàn)樗鼈兇_實(shí)會(huì)造成這些PageRank的死胡同。如果您的網(wǎng)站上有一個(gè)您只使用的站點(diǎn)地圖對(duì)于新鮮或最近的URL,您最近更改的URL,然后因?yàn)镚ooglebot如此渴望,就像我說的那樣,對(duì)新鮮內(nèi)容,他們將開始頻繁地抓取此站點(diǎn)地圖。因此,您可以使用這種策略將抓取預(yù)算定向到新的URL,這樣每個(gè)人都會(huì)贏。
Googlebot只想查看新的網(wǎng)址。您可能只想讓Googlebot看到新的網(wǎng)址。因此,如果您有一個(gè)僅用于該目的的站點(diǎn)地圖,那么每個(gè)人都會(huì)獲勝,這可能是一個(gè)很好且易于實(shí)施的技巧。所以這就是全部。