谷歌SEO:什么是抓取錯誤?

來源:數(shù)聚梨海外營銷獨立站跨境電商
作者:數(shù)聚梨海外營銷獨立站跨境電商
時間:2023-11-30
2944
網(wǎng)絡爬蟲(也稱為蜘蛛或機器人)是訪問(或“爬行”)網(wǎng)絡頁面的程序。搜索引擎使用爬蟲來發(fā)現(xiàn)內(nèi)容,然后將其編入索引,即存儲在其龐大的數(shù)據(jù)庫中。

640

網(wǎng)絡爬蟲(也稱為蜘蛛或機器人)是訪問(或“爬行”)網(wǎng)絡頁面的程序。搜索引擎使用爬蟲來發(fā)現(xiàn)內(nèi)容,然后將其編入索引,即存儲在其龐大的數(shù)據(jù)庫中。這些程序通過跟蹤您網(wǎng)站上的鏈接來發(fā)現(xiàn)您的內(nèi)容。但由于抓取錯誤,這個過程并不總是順利。在我們深入研究這些錯誤以及如何解決它們之前,讓我們先從基礎知識開始。

什么是抓取錯誤?

當搜索引擎抓取工具無法按照正常方式瀏覽您的網(wǎng)頁時,就會出現(xiàn)抓取錯誤。發(fā)生這種情況時,Google等搜索引擎無法充分探索和理解您網(wǎng)站的內(nèi)容或結構。這是一個問題,因為抓取錯誤可能會阻止您的頁面被發(fā)現(xiàn)。這意味著它們無法被編入索引、出現(xiàn)在搜索結果中或為您的網(wǎng)站帶來自然(免費)流量。Google將抓取錯誤分為兩類:網(wǎng)站錯誤和URL錯誤。讓我們來探討一下。

1.站點錯誤

網(wǎng)站錯誤是可能影響整個網(wǎng)站的抓取錯誤。服務器、DNS和robots.txt錯誤是最常見的。

2.服務器錯誤

當服務器阻止頁面加載時,會發(fā)生服務器錯誤(返回5xx HTTP狀態(tài)代碼)。以下是最常見的服務器錯誤:

·內(nèi)部服務器錯誤(500):服務器無法完成請求。但當無法獲得更具體的錯誤時,也可以觸發(fā)它。

·錯誤網(wǎng)關錯誤(502):一臺服務器充當網(wǎng)關并從另一臺服務器接收到無效響應

·服務不可用錯誤(503):服務器當前不可用,通常是在服務器正在修復或更新時

·網(wǎng)關超時錯誤(504):一臺服務器充當網(wǎng)關,沒有及時收到另一臺服務器的響應。就像網(wǎng)站流量過多時一樣。

當搜索引擎不斷遇到5xx錯誤時,它們會降低網(wǎng)站的抓取速度。這意味著像Google這樣的搜索引擎可能無法發(fā)現(xiàn)并索引您的所有內(nèi)容。Google可能會從其索引中刪除經(jīng)常出現(xiàn)5xx問題的網(wǎng)址。因此,請務必使用站點審核來跟蹤任何5xx錯誤

3.DNS錯誤

域名系統(tǒng)(DNS)錯誤是指搜索引擎無法連接到您的域。所有網(wǎng)站和設備都至少有一個互聯(lián)網(wǎng)協(xié)議(IP)地址,用于在網(wǎng)絡上唯一標識它們。DNS通過將域名與IP地址進行匹配,使人和計算機能夠更輕松地相互通信。如果沒有DNS,我們將手動輸入網(wǎng)站的IP地址,而不是鍵入其URL。DNS錯誤比服務器錯誤少見,但您可能會遇到以下情況:

·DNS超時:您的DNS服務器沒有及時回復搜索引擎的請求

·DNS查找:搜索引擎無法訪問您的網(wǎng)站,因為您的DNS服務器無法找到您的域名

4.Robots.txt錯誤

當搜索引擎無法檢索您的robots.txt文件時,就會出現(xiàn)Robots.txt錯誤。您的robots.txt文件告訴搜索引擎可以抓取哪些頁面以及不能抓取哪些頁面。以下是該文件的三個主要部分以及每個部分的作用:

·用戶代理:這一行標識爬蟲?!?”表示該規(guī)則適用于所有搜索引擎機器人。

·禁止/允許:此行告訴搜索引擎機器人是否應該抓取您的網(wǎng)站或網(wǎng)站的某些部分

·站點地圖:此行指示您的站點地圖位置

將站點地圖索引URL(包含所有站點地圖的主站點地圖)添加到robots.txt文件中。幫助爬蟲更快地發(fā)現(xiàn)和理解您網(wǎng)站的結構。

5.網(wǎng)址錯誤

與網(wǎng)站錯誤不同,URL錯誤僅影響網(wǎng)站上特定頁面的可抓取性。

6.404錯誤

404錯誤意味著搜索引擎機器人無法找到該URL,這是最常見的URL錯誤之一。它發(fā)生在以下情況:

·您更改了頁面的URL,但未更新指向該頁面的舊鏈接

·您已從網(wǎng)站中刪除了頁面或文章,但未添加重定向

·您的鏈接已損壞——例如,URL中有錯誤

如今大多數(shù)公司都使用自定義404頁面。這些自定義頁面改善了用戶體驗。并讓您與網(wǎng)站的設計和品牌保持一致。

7.403禁止錯誤

403禁止錯誤意味著服務器拒絕了爬蟲的請求。這意味著服務器理解該請求,但爬蟲無法訪問該URL。服務器權限問題是403錯誤背后的主要原因。服務器權限定義用戶和管理員對文件夾或文件的權限。我們可以將權限分為三類:讀、寫、執(zhí)行。例如,如果您沒有讀取權限,您將無法訪問URL。

有故障的.htaccess文件是403錯誤的另一個經(jīng)常出現(xiàn)的原因。.htaccess文件是Apache服務器上使用的配置文件。它對于配置設置和實施重定向很有幫助。但是.htaccess文件中的任何錯誤都可能導致403錯誤等問題。

8.重定向循環(huán)

當頁面A重定向到頁面B,頁面B重定向到頁面A時,就會發(fā)生重定向循環(huán)。結果就是無限循環(huán)的重定向會阻止訪問者和爬蟲訪問您的內(nèi)容。這可能會阻礙你的排名。

如何查找抓取錯誤?

Google Search Console是一款出色的工具,可為識別抓取錯誤提供寶貴的幫助。

·前往您的GSC帳戶,然后單擊左側邊欄上的“設置”。

·然后,單擊“抓取統(tǒng)計”選項卡旁邊的“打開報告”。

·向下滾動查看Google是否注意到您網(wǎng)站上的抓取問題。

·單擊任何問題,例如5xx服務器錯誤。

·您將看到與您選擇的錯誤匹配的URL的完整列表。

現(xiàn)在,您可以一一解決它們。

如何修復抓取錯誤?

我們現(xiàn)在知道如何識別抓取錯誤,下一步是更好地了解如何修復它們。您可能會經(jīng)常遇到404錯誤,好消息是它們很容易修復。您可以使用重定向來修復404錯誤。使用301重定向進行永久重定向,因為它們允許您保留一些原始頁面的權限。并使用302重定向進行臨時重定向。

如何選擇重定向的目標URL?

以下是一些最佳實踐:

·如果內(nèi)容仍然存在,則添加到新URL的重定向

·如果內(nèi)容不再存在,則添加重定向到處理相同或高度相似主題的頁面

部署重定向有三種主要方法。

第一種方法是使用插件。

以下是一些最流行的WordPress重定向插件:

·重定向

·Yoast SEO(僅適用于高級計劃)

·301重定向

第二種方法是直接在服務器配置文件中添加重定向。

以下是Apache服務器上.htaccess文件上的301重定向的樣子。

重定向301 https://www.yoursite.com/old-page/https://www.yoursite.com/new-page/

您可以將此行分為四個部分:

·重定向:指定我們要重定向流量

·301:表示重定向代碼,說明這是一個永久重定向

·https://www.yoursite.com/old-page/:標識要重定向的URL

·https://www.yoursite.com/new-page/:標識要重定向到的URL

如果您是初學者,我們不推薦此選項。因為如果您不確定自己在做什么,可能會對您的網(wǎng)站產(chǎn)生負面影響。因此,如果您選擇走這條路,請務必與開發(fā)人員合作。最后,如果您使用Wix或Shopify,則可以直接從后端添加重定向。如果您使用的是Wix,請滾動到網(wǎng)站控制面板的底部--然后點擊“營銷和搜索引擎優(yōu)化”下的“搜索引擎優(yōu)化”--單擊“工具和設置”部分下的“轉到URL重定向管理器”--然后,單擊右上角的“+新重定向”按鈕將顯示一個彈出窗口。在這里,您可以選擇重定向類型,輸入要重定向的舊URL以及要定向到的新URL。

如果您使用Shopify,請遵循以下步驟:

·登錄您的帳戶,然后點擊“銷售渠道”下的“在線商店”。

·然后,選擇“導航”。

·從這里,轉到“查看URL重定向”。

·單擊“創(chuàng)建URL重定向”按鈕。

·輸入您希望將訪問者重定向至的舊URL以及要將訪問者重定向至的新URL?!拜斎搿?”以定位您商店的主頁。)

·最后,保存重定向。

損壞的鏈接(指向無法找到的頁面的鏈接)也可能是404錯誤背后的原因。那么,讓我們看看如何使用站點審核工具快速識別損壞的鏈接并修復它們。

損壞的鏈接指向不存在的頁面或資源。假設您正在撰寫一篇新文章,并且想要添加一個指向“yoursite.com/about”的“關于”頁面的內(nèi)部鏈接。鏈接上的任何拼寫錯誤都會創(chuàng)建損壞的鏈接。因此,如果您忘記了字母“b”并輸入“yoursite.com/aout”而不是“yoursite.com/about”,您將收到斷開鏈接錯誤。損壞的鏈接可能是內(nèi)部(指向您網(wǎng)站上的另一個頁面)或外部(指向另一個網(wǎng)站)。

要查找損壞的鏈接,請配置站點審核(如果尚未配置)。然后,轉到“問題”選項卡?,F(xiàn)在,在表格頂部的搜索欄中輸入“內(nèi)部鏈接”,以查找與損壞鏈接相關的問題。單擊問題中的藍色可點擊文本即可查看受影響URL的完整列表。要修復這些問題,請更改鏈接、恢復丟失的頁面或將301重定向添加到網(wǎng)站上的另一個相關頁面。

寫在最后

為了確保您的網(wǎng)站可以被抓?。ú⒔⑺饕团琶?,您應該首先使其對搜索引擎友好。如果不是,您的頁面可能不會顯示在搜索結果中。因此,您不會帶來任何自然流量。使用站點審核工具可以輕松查找和修復可爬行性和可索引性問題。您甚至可以將其設置為定期自動抓取您的網(wǎng)站。確保您隨時了解需要解決的任何爬網(wǎng)錯誤。

立即登錄,閱讀全文
原文鏈接:點擊前往 >
文章來源:數(shù)聚梨海外營銷獨立站跨境電商
版權說明:本文內(nèi)容來自于數(shù)聚梨海外營銷獨立站跨境電商,本站不擁有所有權,不承擔相關法律責任。文章內(nèi)容系作者個人觀點,不代表快出海對觀點贊同或支持。如有侵權,請聯(lián)系管理員(zzx@kchuhai.com)刪除!
優(yōu)質服務商推薦
更多
掃碼登錄
打開掃一掃, 關注公眾號后即可登錄/注冊
加載中
二維碼已失效 請重試
刷新
賬號登錄/注冊
小程序
快出海小程序
公眾號
快出海公眾號
商務合作
商務合作
投稿采訪
投稿采訪
出海管家
出海管家