網(wǎng)絡爬蟲(也稱為蜘蛛或機器人)是訪問(或“爬行”)網(wǎng)絡頁面的程序。搜索引擎使用爬蟲來發(fā)現(xiàn)內(nèi)容,然后將其編入索引,即存儲在其龐大的數(shù)據(jù)庫中。這些程序通過跟蹤您網(wǎng)站上的鏈接來發(fā)現(xiàn)您的內(nèi)容。但由于抓取錯誤,這個過程并不總是順利。在我們深入研究這些錯誤以及如何解決它們之前,讓我們先從基礎知識開始。
什么是抓取錯誤?
當搜索引擎抓取工具無法按照正常方式瀏覽您的網(wǎng)頁時,就會出現(xiàn)抓取錯誤。發(fā)生這種情況時,Google等搜索引擎無法充分探索和理解您網(wǎng)站的內(nèi)容或結構。這是一個問題,因為抓取錯誤可能會阻止您的頁面被發(fā)現(xiàn)。這意味著它們無法被編入索引、出現(xiàn)在搜索結果中或為您的網(wǎng)站帶來自然(免費)流量。Google將抓取錯誤分為兩類:網(wǎng)站錯誤和URL錯誤。讓我們來探討一下。
1.站點錯誤
網(wǎng)站錯誤是可能影響整個網(wǎng)站的抓取錯誤。服務器、DNS和robots.txt錯誤是最常見的。
2.服務器錯誤
當服務器阻止頁面加載時,會發(fā)生服務器錯誤(返回5xx HTTP狀態(tài)代碼)。以下是最常見的服務器錯誤:
·內(nèi)部服務器錯誤(500):服務器無法完成請求。但當無法獲得更具體的錯誤時,也可以觸發(fā)它。
·錯誤網(wǎng)關錯誤(502):一臺服務器充當網(wǎng)關并從另一臺服務器接收到無效響應
·服務不可用錯誤(503):服務器當前不可用,通常是在服務器正在修復或更新時
·網(wǎng)關超時錯誤(504):一臺服務器充當網(wǎng)關,沒有及時收到另一臺服務器的響應。就像網(wǎng)站流量過多時一樣。
當搜索引擎不斷遇到5xx錯誤時,它們會降低網(wǎng)站的抓取速度。這意味著像Google這樣的搜索引擎可能無法發(fā)現(xiàn)并索引您的所有內(nèi)容。Google可能會從其索引中刪除經(jīng)常出現(xiàn)5xx問題的網(wǎng)址。因此,請務必使用站點審核來跟蹤任何5xx錯誤
3.DNS錯誤
域名系統(tǒng)(DNS)錯誤是指搜索引擎無法連接到您的域。所有網(wǎng)站和設備都至少有一個互聯(lián)網(wǎng)協(xié)議(IP)地址,用于在網(wǎng)絡上唯一標識它們。DNS通過將域名與IP地址進行匹配,使人和計算機能夠更輕松地相互通信。如果沒有DNS,我們將手動輸入網(wǎng)站的IP地址,而不是鍵入其URL。DNS錯誤比服務器錯誤少見,但您可能會遇到以下情況:
·DNS超時:您的DNS服務器沒有及時回復搜索引擎的請求
·DNS查找:搜索引擎無法訪問您的網(wǎng)站,因為您的DNS服務器無法找到您的域名
4.Robots.txt錯誤
當搜索引擎無法檢索您的robots.txt文件時,就會出現(xiàn)Robots.txt錯誤。您的robots.txt文件告訴搜索引擎可以抓取哪些頁面以及不能抓取哪些頁面。以下是該文件的三個主要部分以及每個部分的作用:
·用戶代理:這一行標識爬蟲?!?”表示該規(guī)則適用于所有搜索引擎機器人。
·禁止/允許:此行告訴搜索引擎機器人是否應該抓取您的網(wǎng)站或網(wǎng)站的某些部分
·站點地圖:此行指示您的站點地圖位置
將站點地圖索引URL(包含所有站點地圖的主站點地圖)添加到robots.txt文件中。幫助爬蟲更快地發(fā)現(xiàn)和理解您網(wǎng)站的結構。
5.網(wǎng)址錯誤
與網(wǎng)站錯誤不同,URL錯誤僅影響網(wǎng)站上特定頁面的可抓取性。
6.404錯誤
404錯誤意味著搜索引擎機器人無法找到該URL,這是最常見的URL錯誤之一。它發(fā)生在以下情況:
·您更改了頁面的URL,但未更新指向該頁面的舊鏈接
·您已從網(wǎng)站中刪除了頁面或文章,但未添加重定向
·您的鏈接已損壞——例如,URL中有錯誤
如今大多數(shù)公司都使用自定義404頁面。這些自定義頁面改善了用戶體驗。并讓您與網(wǎng)站的設計和品牌保持一致。
7.403禁止錯誤
403禁止錯誤意味著服務器拒絕了爬蟲的請求。這意味著服務器理解該請求,但爬蟲無法訪問該URL。服務器權限問題是403錯誤背后的主要原因。服務器權限定義用戶和管理員對文件夾或文件的權限。我們可以將權限分為三類:讀、寫、執(zhí)行。例如,如果您沒有讀取權限,您將無法訪問URL。
有故障的.htaccess文件是403錯誤的另一個經(jīng)常出現(xiàn)的原因。.htaccess文件是Apache服務器上使用的配置文件。它對于配置設置和實施重定向很有幫助。但是.htaccess文件中的任何錯誤都可能導致403錯誤等問題。
8.重定向循環(huán)
當頁面A重定向到頁面B,頁面B重定向到頁面A時,就會發(fā)生重定向循環(huán)。結果就是無限循環(huán)的重定向會阻止訪問者和爬蟲訪問您的內(nèi)容。這可能會阻礙你的排名。
如何查找抓取錯誤?
Google Search Console是一款出色的工具,可為識別抓取錯誤提供寶貴的幫助。
·前往您的GSC帳戶,然后單擊左側邊欄上的“設置”。
·然后,單擊“抓取統(tǒng)計”選項卡旁邊的“打開報告”。
·向下滾動查看Google是否注意到您網(wǎng)站上的抓取問題。
·單擊任何問題,例如5xx服務器錯誤。
·您將看到與您選擇的錯誤匹配的URL的完整列表。
現(xiàn)在,您可以一一解決它們。
如何修復抓取錯誤?
我們現(xiàn)在知道如何識別抓取錯誤,下一步是更好地了解如何修復它們。您可能會經(jīng)常遇到404錯誤,好消息是它們很容易修復。您可以使用重定向來修復404錯誤。使用301重定向進行永久重定向,因為它們允許您保留一些原始頁面的權限。并使用302重定向進行臨時重定向。
如何選擇重定向的目標URL?
以下是一些最佳實踐:
·如果內(nèi)容仍然存在,則添加到新URL的重定向
·如果內(nèi)容不再存在,則添加重定向到處理相同或高度相似主題的頁面
部署重定向有三種主要方法。
第一種方法是使用插件。
以下是一些最流行的WordPress重定向插件:
·重定向
·Yoast SEO(僅適用于高級計劃)
·301重定向
第二種方法是直接在服務器配置文件中添加重定向。
以下是Apache服務器上.htaccess文件上的301重定向的樣子。
重定向301 https://www.yoursite.com/old-page/https://www.yoursite.com/new-page/
您可以將此行分為四個部分:
·重定向:指定我們要重定向流量
·301:表示重定向代碼,說明這是一個永久重定向
·https://www.yoursite.com/old-page/:標識要重定向的URL
·https://www.yoursite.com/new-page/:標識要重定向到的URL
如果您是初學者,我們不推薦此選項。因為如果您不確定自己在做什么,可能會對您的網(wǎng)站產(chǎn)生負面影響。因此,如果您選擇走這條路,請務必與開發(fā)人員合作。最后,如果您使用Wix或Shopify,則可以直接從后端添加重定向。如果您使用的是Wix,請滾動到網(wǎng)站控制面板的底部--然后點擊“營銷和搜索引擎優(yōu)化”下的“搜索引擎優(yōu)化”--單擊“工具和設置”部分下的“轉到URL重定向管理器”--然后,單擊右上角的“+新重定向”按鈕將顯示一個彈出窗口。在這里,您可以選擇重定向類型,輸入要重定向的舊URL以及要定向到的新URL。
如果您使用Shopify,請遵循以下步驟:
·登錄您的帳戶,然后點擊“銷售渠道”下的“在線商店”。
·然后,選擇“導航”。
·從這里,轉到“查看URL重定向”。
·單擊“創(chuàng)建URL重定向”按鈕。
·輸入您希望將訪問者重定向至的舊URL以及要將訪問者重定向至的新URL?!拜斎搿?”以定位您商店的主頁。)
·最后,保存重定向。
損壞的鏈接(指向無法找到的頁面的鏈接)也可能是404錯誤背后的原因。那么,讓我們看看如何使用站點審核工具快速識別損壞的鏈接并修復它們。
損壞的鏈接指向不存在的頁面或資源。假設您正在撰寫一篇新文章,并且想要添加一個指向“yoursite.com/about”的“關于”頁面的內(nèi)部鏈接。鏈接上的任何拼寫錯誤都會創(chuàng)建損壞的鏈接。因此,如果您忘記了字母“b”并輸入“yoursite.com/aout”而不是“yoursite.com/about”,您將收到斷開鏈接錯誤。損壞的鏈接可能是內(nèi)部(指向您網(wǎng)站上的另一個頁面)或外部(指向另一個網(wǎng)站)。
要查找損壞的鏈接,請配置站點審核(如果尚未配置)。然后,轉到“問題”選項卡?,F(xiàn)在,在表格頂部的搜索欄中輸入“內(nèi)部鏈接”,以查找與損壞鏈接相關的問題。單擊問題中的藍色可點擊文本即可查看受影響URL的完整列表。要修復這些問題,請更改鏈接、恢復丟失的頁面或將301重定向添加到網(wǎng)站上的另一個相關頁面。
寫在最后
為了確保您的網(wǎng)站可以被抓?。ú⒔⑺饕团琶?,您應該首先使其對搜索引擎友好。如果不是,您的頁面可能不會顯示在搜索結果中。因此,您不會帶來任何自然流量。使用站點審核工具可以輕松查找和修復可爬行性和可索引性問題。您甚至可以將其設置為定期自動抓取您的網(wǎng)站。確保您隨時了解需要解決的任何爬網(wǎng)錯誤。