網(wǎng)絡(luò)爬蟲(也稱為蜘蛛或機(jī)器人)是訪問(或“爬行”)網(wǎng)絡(luò)頁面的程序。搜索引擎使用爬蟲來發(fā)現(xiàn)內(nèi)容,然后將其編入索引,即存儲(chǔ)在其龐大的數(shù)據(jù)庫中。這些程序通過跟蹤您網(wǎng)站上的鏈接來發(fā)現(xiàn)您的內(nèi)容。但由于抓取錯(cuò)誤,這個(gè)過程并不總是順利。在我們深入研究這些錯(cuò)誤以及如何解決它們之前,讓我們先從基礎(chǔ)知識(shí)開始。
什么是抓取錯(cuò)誤?
當(dāng)搜索引擎抓取工具無法按照正常方式瀏覽您的網(wǎng)頁時(shí),就會(huì)出現(xiàn)抓取錯(cuò)誤。發(fā)生這種情況時(shí),Google等搜索引擎無法充分探索和理解您網(wǎng)站的內(nèi)容或結(jié)構(gòu)。這是一個(gè)問題,因?yàn)樽ト″e(cuò)誤可能會(huì)阻止您的頁面被發(fā)現(xiàn)。這意味著它們無法被編入索引、出現(xiàn)在搜索結(jié)果中或?yàn)槟木W(wǎng)站帶來自然(免費(fèi))流量。Google將抓取錯(cuò)誤分為兩類:網(wǎng)站錯(cuò)誤和URL錯(cuò)誤。讓我們來探討一下。
1.站點(diǎn)錯(cuò)誤
網(wǎng)站錯(cuò)誤是可能影響整個(gè)網(wǎng)站的抓取錯(cuò)誤。服務(wù)器、DNS和robots.txt錯(cuò)誤是最常見的。
2.服務(wù)器錯(cuò)誤
當(dāng)服務(wù)器阻止頁面加載時(shí),會(huì)發(fā)生服務(wù)器錯(cuò)誤(返回5xx HTTP狀態(tài)代碼)。以下是最常見的服務(wù)器錯(cuò)誤:
·內(nèi)部服務(wù)器錯(cuò)誤(500):服務(wù)器無法完成請(qǐng)求。但當(dāng)無法獲得更具體的錯(cuò)誤時(shí),也可以觸發(fā)它。
·錯(cuò)誤網(wǎng)關(guān)錯(cuò)誤(502):一臺(tái)服務(wù)器充當(dāng)網(wǎng)關(guān)并從另一臺(tái)服務(wù)器接收到無效響應(yīng)
·服務(wù)不可用錯(cuò)誤(503):服務(wù)器當(dāng)前不可用,通常是在服務(wù)器正在修復(fù)或更新時(shí)
·網(wǎng)關(guān)超時(shí)錯(cuò)誤(504):一臺(tái)服務(wù)器充當(dāng)網(wǎng)關(guān),沒有及時(shí)收到另一臺(tái)服務(wù)器的響應(yīng)。就像網(wǎng)站流量過多時(shí)一樣。
當(dāng)搜索引擎不斷遇到5xx錯(cuò)誤時(shí),它們會(huì)降低網(wǎng)站的抓取速度。這意味著像Google這樣的搜索引擎可能無法發(fā)現(xiàn)并索引您的所有內(nèi)容。Google可能會(huì)從其索引中刪除經(jīng)常出現(xiàn)5xx問題的網(wǎng)址。因此,請(qǐng)務(wù)必使用站點(diǎn)審核來跟蹤任何5xx錯(cuò)誤
3.DNS錯(cuò)誤
域名系統(tǒng)(DNS)錯(cuò)誤是指搜索引擎無法連接到您的域。所有網(wǎng)站和設(shè)備都至少有一個(gè)互聯(lián)網(wǎng)協(xié)議(IP)地址,用于在網(wǎng)絡(luò)上唯一標(biāo)識(shí)它們。DNS通過將域名與IP地址進(jìn)行匹配,使人和計(jì)算機(jī)能夠更輕松地相互通信。如果沒有DNS,我們將手動(dòng)輸入網(wǎng)站的IP地址,而不是鍵入其URL。DNS錯(cuò)誤比服務(wù)器錯(cuò)誤少見,但您可能會(huì)遇到以下情況:
·DNS超時(shí):您的DNS服務(wù)器沒有及時(shí)回復(fù)搜索引擎的請(qǐng)求
·DNS查找:搜索引擎無法訪問您的網(wǎng)站,因?yàn)槟腄NS服務(wù)器無法找到您的域名
4.Robots.txt錯(cuò)誤
當(dāng)搜索引擎無法檢索您的robots.txt文件時(shí),就會(huì)出現(xiàn)Robots.txt錯(cuò)誤。您的robots.txt文件告訴搜索引擎可以抓取哪些頁面以及不能抓取哪些頁面。以下是該文件的三個(gè)主要部分以及每個(gè)部分的作用:
·用戶代理:這一行標(biāo)識(shí)爬蟲?!?”表示該規(guī)則適用于所有搜索引擎機(jī)器人。
·禁止/允許:此行告訴搜索引擎機(jī)器人是否應(yīng)該抓取您的網(wǎng)站或網(wǎng)站的某些部分
·站點(diǎn)地圖:此行指示您的站點(diǎn)地圖位置
將站點(diǎn)地圖索引URL(包含所有站點(diǎn)地圖的主站點(diǎn)地圖)添加到robots.txt文件中。幫助爬蟲更快地發(fā)現(xiàn)和理解您網(wǎng)站的結(jié)構(gòu)。
5.網(wǎng)址錯(cuò)誤
與網(wǎng)站錯(cuò)誤不同,URL錯(cuò)誤僅影響網(wǎng)站上特定頁面的可抓取性。
6.404錯(cuò)誤
404錯(cuò)誤意味著搜索引擎機(jī)器人無法找到該URL,這是最常見的URL錯(cuò)誤之一。它發(fā)生在以下情況:
·您更改了頁面的URL,但未更新指向該頁面的舊鏈接
·您已從網(wǎng)站中刪除了頁面或文章,但未添加重定向
·您的鏈接已損壞——例如,URL中有錯(cuò)誤
如今大多數(shù)公司都使用自定義404頁面。這些自定義頁面改善了用戶體驗(yàn)。并讓您與網(wǎng)站的設(shè)計(jì)和品牌保持一致。
7.403禁止錯(cuò)誤
403禁止錯(cuò)誤意味著服務(wù)器拒絕了爬蟲的請(qǐng)求。這意味著服務(wù)器理解該請(qǐng)求,但爬蟲無法訪問該URL。服務(wù)器權(quán)限問題是403錯(cuò)誤背后的主要原因。服務(wù)器權(quán)限定義用戶和管理員對(duì)文件夾或文件的權(quán)限。我們可以將權(quán)限分為三類:讀、寫、執(zhí)行。例如,如果您沒有讀取權(quán)限,您將無法訪問URL。
有故障的.htaccess文件是403錯(cuò)誤的另一個(gè)經(jīng)常出現(xiàn)的原因。.htaccess文件是Apache服務(wù)器上使用的配置文件。它對(duì)于配置設(shè)置和實(shí)施重定向很有幫助。但是.htaccess文件中的任何錯(cuò)誤都可能導(dǎo)致403錯(cuò)誤等問題。
8.重定向循環(huán)
當(dāng)頁面A重定向到頁面B,頁面B重定向到頁面A時(shí),就會(huì)發(fā)生重定向循環(huán)。結(jié)果就是無限循環(huán)的重定向會(huì)阻止訪問者和爬蟲訪問您的內(nèi)容。這可能會(huì)阻礙你的排名。
如何查找抓取錯(cuò)誤?
Google Search Console是一款出色的工具,可為識(shí)別抓取錯(cuò)誤提供寶貴的幫助。
·前往您的GSC帳戶,然后單擊左側(cè)邊欄上的“設(shè)置”。
·然后,單擊“抓取統(tǒng)計(jì)”選項(xiàng)卡旁邊的“打開報(bào)告”。
·向下滾動(dòng)查看Google是否注意到您網(wǎng)站上的抓取問題。
·單擊任何問題,例如5xx服務(wù)器錯(cuò)誤。
·您將看到與您選擇的錯(cuò)誤匹配的URL的完整列表。
現(xiàn)在,您可以一一解決它們。
如何修復(fù)抓取錯(cuò)誤?
我們現(xiàn)在知道如何識(shí)別抓取錯(cuò)誤,下一步是更好地了解如何修復(fù)它們。您可能會(huì)經(jīng)常遇到404錯(cuò)誤,好消息是它們很容易修復(fù)。您可以使用重定向來修復(fù)404錯(cuò)誤。使用301重定向進(jìn)行永久重定向,因?yàn)樗鼈冊(cè)试S您保留一些原始頁面的權(quán)限。并使用302重定向進(jìn)行臨時(shí)重定向。
如何選擇重定向的目標(biāo)URL?
以下是一些最佳實(shí)踐:
·如果內(nèi)容仍然存在,則添加到新URL的重定向
·如果內(nèi)容不再存在,則添加重定向到處理相同或高度相似主題的頁面
部署重定向有三種主要方法。
第一種方法是使用插件。
以下是一些最流行的WordPress重定向插件:
·重定向
·Yoast SEO(僅適用于高級(jí)計(jì)劃)
·301重定向
第二種方法是直接在服務(wù)器配置文件中添加重定向。
以下是Apache服務(wù)器上.htaccess文件上的301重定向的樣子。
重定向301 https://www.yoursite.com/old-page/https://www.yoursite.com/new-page/
您可以將此行分為四個(gè)部分:
·重定向:指定我們要重定向流量
·301:表示重定向代碼,說明這是一個(gè)永久重定向
·https://www.yoursite.com/old-page/:標(biāo)識(shí)要重定向的URL
·https://www.yoursite.com/new-page/:標(biāo)識(shí)要重定向到的URL
如果您是初學(xué)者,我們不推薦此選項(xiàng)。因?yàn)槿绻淮_定自己在做什么,可能會(huì)對(duì)您的網(wǎng)站產(chǎn)生負(fù)面影響。因此,如果您選擇走這條路,請(qǐng)務(wù)必與開發(fā)人員合作。最后,如果您使用Wix或Shopify,則可以直接從后端添加重定向。如果您使用的是Wix,請(qǐng)滾動(dòng)到網(wǎng)站控制面板的底部--然后點(diǎn)擊“營銷和搜索引擎優(yōu)化”下的“搜索引擎優(yōu)化”--單擊“工具和設(shè)置”部分下的“轉(zhuǎn)到URL重定向管理器”--然后,單擊右上角的“+新重定向”按鈕將顯示一個(gè)彈出窗口。在這里,您可以選擇重定向類型,輸入要重定向的舊URL以及要定向到的新URL。
如果您使用Shopify,請(qǐng)遵循以下步驟:
·登錄您的帳戶,然后點(diǎn)擊“銷售渠道”下的“在線商店”。
·然后,選擇“導(dǎo)航”。
·從這里,轉(zhuǎn)到“查看URL重定向”。
·單擊“創(chuàng)建URL重定向”按鈕。
·輸入您希望將訪問者重定向至的舊URL以及要將訪問者重定向至的新URL。“輸入“/”以定位您商店的主頁。)
·最后,保存重定向。
損壞的鏈接(指向無法找到的頁面的鏈接)也可能是404錯(cuò)誤背后的原因。那么,讓我們看看如何使用站點(diǎn)審核工具快速識(shí)別損壞的鏈接并修復(fù)它們。
損壞的鏈接指向不存在的頁面或資源。假設(shè)您正在撰寫一篇新文章,并且想要添加一個(gè)指向“yoursite.com/about”的“關(guān)于”頁面的內(nèi)部鏈接。鏈接上的任何拼寫錯(cuò)誤都會(huì)創(chuàng)建損壞的鏈接。因此,如果您忘記了字母“b”并輸入“yoursite.com/aout”而不是“yoursite.com/about”,您將收到斷開鏈接錯(cuò)誤。損壞的鏈接可能是內(nèi)部(指向您網(wǎng)站上的另一個(gè)頁面)或外部(指向另一個(gè)網(wǎng)站)。
要查找損壞的鏈接,請(qǐng)配置站點(diǎn)審核(如果尚未配置)。然后,轉(zhuǎn)到“問題”選項(xiàng)卡。現(xiàn)在,在表格頂部的搜索欄中輸入“內(nèi)部鏈接”,以查找與損壞鏈接相關(guān)的問題。單擊問題中的藍(lán)色可點(diǎn)擊文本即可查看受影響URL的完整列表。要修復(fù)這些問題,請(qǐng)更改鏈接、恢復(fù)丟失的頁面或?qū)?01重定向添加到網(wǎng)站上的另一個(gè)相關(guān)頁面。
寫在最后
為了確保您的網(wǎng)站可以被抓?。ú⒔⑺饕团琶?,您應(yīng)該首先使其對(duì)搜索引擎友好。如果不是,您的頁面可能不會(huì)顯示在搜索結(jié)果中。因此,您不會(huì)帶來任何自然流量。使用站點(diǎn)審核工具可以輕松查找和修復(fù)可爬行性和可索引性問題。您甚至可以將其設(shè)置為定期自動(dòng)抓取您的網(wǎng)站。確保您隨時(shí)了解需要解決的任何爬網(wǎng)錯(cuò)誤。