在任何領域做出的最困難的決定之一是有意識地選擇錯過最后期限。在過去的幾個月中,由一些才華橫溢的工程師,數(shù)據(jù)科學家,項目經(jīng)理,編輯和市場人員組成的團隊努力于2020年9月30日發(fā)布新的Page Authority(PA)。幾乎在當前PA的所有方面都沒有,但是我們最近的質量控制措施顯示了一個我們無法忽視的異常。
因此,我們做出了艱難的決定,推遲了Page Authority 2.0的發(fā)布。因此,讓我花點時間回顧一下我們?nèi)绾蔚竭_這里,離開我們的地方以及我們打算如何進行的步驟。上一頁頁面授權模型針對SERP進行了訓練,試圖根據(jù)從鏈接資源管理器反向鏈接索引計算出的一組鏈接度量標準來預測一個URL是否會在另一個URL上排名。此類模型的關鍵問題在于,它無法有意義地解決一組特定鏈接指標的最大強度。
例如,想象一下Internet上最強大的URL,這些URL的鏈接是:Google,Youtube,F(xiàn)acebook的主頁,或跟隨的社交網(wǎng)絡按鈕的共享URL。沒有任何SERP可以使這些URL相互抵觸。取而代之的是,這些功能非常強大的URL通常排名第一,其后的指標則大大降低。試想一下,如果邁克爾·喬丹,科比·布萊恩特和勒布朗·詹姆斯各自對高中生都一對一地抓緊時間。每個人每次都會贏。但是,從邁克爾·喬丹,科比·布萊恩特或勒布朗·詹姆斯是否會在一對一的比賽中獲勝,我們很難從這些結果中推斷出來。
當負責重新訪問域授權時,我們最終選擇了一個擁有豐富經(jīng)驗的模型:原始的SERP培訓方法(盡管有很多調(diào)整)。借助Page Authority,我們決定通過預測哪個頁面的自然訪問量會更多,一起采用另一種培訓方法。該模型提供了一些有希望的品質,例如能夠比較不在同一SERP上出現(xiàn)的URL,但也帶來了其他困難,例如頁面具有較高的鏈接公平性,而只是處于不經(jīng)常搜索的主題區(qū)域。我們解決了許多此類問題,例如增強培訓集,以使用非鏈接指標來衡量競爭力。
衡量新的Page Authority的質量
結果是而且非常令人鼓舞。首先,新模型顯然預測了一頁將比另一頁擁有更多有價值的自然流量的可能性。這是預料之中的,因為新模型是針對此特定目標的,而當前的“頁面授權機構”僅試圖預測一個頁面是否會排在另一頁面之上。
其次,我們發(fā)現(xiàn),新模型預測的一頁是否比以前的Page Authority更好。這特別令人愉悅,因為它使我們許多擔憂,因為新的培訓模型使新模型在舊質量控制方面表現(xiàn)不佳。新模型在預測SERP方面比當前的PA好多少?在每個時間間隔(一直下降到位置4對5)上,新模型都與當前模型并列或表現(xiàn)不佳。它永遠不會丟失。
一切都很好。然后,我們開始分析異常值。我喜歡稱其為“看起來愚蠢嗎?”測試。機器學習會像人類一樣犯錯誤,但是人類傾向于以非常特殊的方式犯錯誤。當一個人犯了一個錯誤時,我們經(jīng)常會確切地理解為什么會犯錯。ML并非如此,尤其是神經(jīng)網(wǎng)絡。我們在新的模式下將碰巧具有零自然訪問量的URL的URL授予了URL,并將其包含在訓練集中以學習這些錯誤。我們很快就看到90+的奇異PA下降到了更合理的60和70年代……又是一個勝利。
品牌搜索的問題
網(wǎng)絡上一些最受歡迎的關鍵字是導航性的。人們在Google上搜索Facebook,Youtube,甚至Google本身。這些關鍵字相對于其他關鍵字的搜索量是天文數(shù)字。隨后,少數(shù)幾個強大的品牌可能會對將總搜索量作為其核心培訓目標一部分的模型產(chǎn)生巨大影響。最后一個測試包括將當前的頁面授權機構與新的頁面授權機構進行比較,以確定是否存在任何離奇的異常值(PA發(fā)生明顯變化且沒有明顯原因)。首先,讓我們看一下鏈接根域的LOG與頁面授權的簡單比較。
不是太寒酸。我們看到鏈接根域和頁面權限之間通常呈正相關。但是你能發(fā)現(xiàn)奇怪之處嗎?繼續(xù),花一點時間...此圖表中有兩個異?,F(xiàn)象:
·URL的主要分布與上方和下方的異常值之間存在一個奇怪的鴻溝。
·單個分數(shù)的最大差異是PA99。PA99的數(shù)量很多,具有廣泛的鏈接根域。
這是一個可視化視圖,將有助于找出這些異常:
綠色和紅色之間的灰色空間代表分布的大部分與離群值之間的奇數(shù)間隙。異常值(紅色)趨于聚集在一起,尤其是在主要分布上方。當然,我們可以看到PA 99s頂部的分布不均。請記住,這些問題不足以使新的Page Authority模型不如當前模型更準確。但是,在進一步檢查后,我們發(fā)現(xiàn)該模型確實產(chǎn)生的錯誤非常嚴重,足以對客戶的決策產(chǎn)生不利影響。最好有一個到處都有一點點偏差的模型(因為SEO所做的調(diào)整沒有令人難以置信的微調(diào)),比擁有一個大多數(shù)地方都適用但在少數(shù)情況下異常錯誤的模型要好。
幸運的是,我們對問題出在哪里很有信心。似乎首頁的PA膨脹得過高,可能的罪魁禍首是訓練集。在我們完成再培訓之前,我們無法確定這是原因,但這是一個強有力的線索。就目前而言,我們處于良好狀態(tài),因為我們擁有多個勝過現(xiàn)有Page Authority的候選模型。我們正處在漏洞壓縮階段,而不是模型構建階段。但是,除非我們有信心它將引導我們的顧客朝正確的方向發(fā)展,否則我們不會發(fā)布新的分數(shù)。我們高度重視客戶根據(jù)我們的指標做出的決策,而不僅僅是這些指標是否滿足某些統(tǒng)計標準。
考慮到所有這些,我們決定推遲啟動Page Authority 2.0。這將為我們提供必要的時間來解決這些主要問題并制定出出色的指標。令人沮喪嗎?是的,但也有必要。與往常一樣,我們感謝您的耐心配合,我們期待產(chǎn)生我們有史以來發(fā)布的最佳Page Authority指標。