在任何領(lǐng)域做出的最困難的決定之一是有意識地選擇錯過最后期限。在過去的幾個月中,由一些才華橫溢的工程師,數(shù)據(jù)科學(xué)家,項(xiàng)目經(jīng)理,編輯和市場人員組成的團(tuán)隊(duì)努力于2020年9月30日發(fā)布新的Page Authority(PA)。幾乎在當(dāng)前PA的所有方面都沒有,但是我們最近的質(zhì)量控制措施顯示了一個我們無法忽視的異常。
因此,我們做出了艱難的決定,推遲了Page Authority 2.0的發(fā)布。因此,讓我花點(diǎn)時間回顧一下我們?nèi)绾蔚竭_(dá)這里,離開我們的地方以及我們打算如何進(jìn)行的步驟。上一頁頁面授權(quán)模型針對SERP進(jìn)行了訓(xùn)練,試圖根據(jù)從鏈接資源管理器反向鏈接索引計(jì)算出的一組鏈接度量標(biāo)準(zhǔn)來預(yù)測一個URL是否會在另一個URL上排名。此類模型的關(guān)鍵問題在于,它無法有意義地解決一組特定鏈接指標(biāo)的最大強(qiáng)度。
例如,想象一下Internet上最強(qiáng)大的URL,這些URL的鏈接是:Google,Youtube,F(xiàn)acebook的主頁,或跟隨的社交網(wǎng)絡(luò)按鈕的共享URL。沒有任何SERP可以使這些URL相互抵觸。取而代之的是,這些功能非常強(qiáng)大的URL通常排名第一,其后的指標(biāo)則大大降低。試想一下,如果邁克爾·喬丹,科比·布萊恩特和勒布朗·詹姆斯各自對高中生都一對一地抓緊時間。每個人每次都會贏。但是,從邁克爾·喬丹,科比·布萊恩特或勒布朗·詹姆斯是否會在一對一的比賽中獲勝,我們很難從這些結(jié)果中推斷出來。
當(dāng)負(fù)責(zé)重新訪問域授權(quán)時,我們最終選擇了一個擁有豐富經(jīng)驗(yàn)的模型:原始的SERP培訓(xùn)方法(盡管有很多調(diào)整)。借助Page Authority,我們決定通過預(yù)測哪個頁面的自然訪問量會更多,一起采用另一種培訓(xùn)方法。該模型提供了一些有希望的品質(zhì),例如能夠比較不在同一SERP上出現(xiàn)的URL,但也帶來了其他困難,例如頁面具有較高的鏈接公平性,而只是處于不經(jīng)常搜索的主題區(qū)域。我們解決了許多此類問題,例如增強(qiáng)培訓(xùn)集,以使用非鏈接指標(biāo)來衡量競爭力。
衡量新的Page Authority的質(zhì)量
結(jié)果是而且非常令人鼓舞。首先,新模型顯然預(yù)測了一頁將比另一頁擁有更多有價值的自然流量的可能性。這是預(yù)料之中的,因?yàn)樾履P褪轻槍Υ颂囟繕?biāo)的,而當(dāng)前的“頁面授權(quán)機(jī)構(gòu)”僅試圖預(yù)測一個頁面是否會排在另一頁面之上。
其次,我們發(fā)現(xiàn),新模型預(yù)測的一頁是否比以前的Page Authority更好。這特別令人愉悅,因?yàn)樗刮覀冊S多擔(dān)憂,因?yàn)樾碌呐嘤?xùn)模型使新模型在舊質(zhì)量控制方面表現(xiàn)不佳。新模型在預(yù)測SERP方面比當(dāng)前的PA好多少?在每個時間間隔(一直下降到位置4對5)上,新模型都與當(dāng)前模型并列或表現(xiàn)不佳。它永遠(yuǎn)不會丟失。
一切都很好。然后,我們開始分析異常值。我喜歡稱其為“看起來愚蠢嗎?”測試。機(jī)器學(xué)習(xí)會像人類一樣犯錯誤,但是人類傾向于以非常特殊的方式犯錯誤。當(dāng)一個人犯了一個錯誤時,我們經(jīng)常會確切地理解為什么會犯錯。ML并非如此,尤其是神經(jīng)網(wǎng)絡(luò)。我們在新的模式下將碰巧具有零自然訪問量的URL的URL授予了URL,并將其包含在訓(xùn)練集中以學(xué)習(xí)這些錯誤。我們很快就看到90+的奇異PA下降到了更合理的60和70年代……又是一個勝利。
品牌搜索的問題
網(wǎng)絡(luò)上一些最受歡迎的關(guān)鍵字是導(dǎo)航性的。人們在Google上搜索Facebook,Youtube,甚至Google本身。這些關(guān)鍵字相對于其他關(guān)鍵字的搜索量是天文數(shù)字。隨后,少數(shù)幾個強(qiáng)大的品牌可能會對將總搜索量作為其核心培訓(xùn)目標(biāo)一部分的模型產(chǎn)生巨大影響。最后一個測試包括將當(dāng)前的頁面授權(quán)機(jī)構(gòu)與新的頁面授權(quán)機(jī)構(gòu)進(jìn)行比較,以確定是否存在任何離奇的異常值(PA發(fā)生明顯變化且沒有明顯原因)。首先,讓我們看一下鏈接根域的LOG與頁面授權(quán)的簡單比較。
不是太寒酸。我們看到鏈接根域和頁面權(quán)限之間通常呈正相關(guān)。但是你能發(fā)現(xiàn)奇怪之處嗎?繼續(xù),花一點(diǎn)時間...此圖表中有兩個異常現(xiàn)象:
·URL的主要分布與上方和下方的異常值之間存在一個奇怪的鴻溝。
·單個分?jǐn)?shù)的最大差異是PA99。PA99的數(shù)量很多,具有廣泛的鏈接根域。
這是一個可視化視圖,將有助于找出這些異常:
綠色和紅色之間的灰色空間代表分布的大部分與離群值之間的奇數(shù)間隙。異常值(紅色)趨于聚集在一起,尤其是在主要分布上方。當(dāng)然,我們可以看到PA 99s頂部的分布不均。請記住,這些問題不足以使新的Page Authority模型不如當(dāng)前模型更準(zhǔn)確。但是,在進(jìn)一步檢查后,我們發(fā)現(xiàn)該模型確實(shí)產(chǎn)生的錯誤非常嚴(yán)重,足以對客戶的決策產(chǎn)生不利影響。最好有一個到處都有一點(diǎn)點(diǎn)偏差的模型(因?yàn)镾EO所做的調(diào)整沒有令人難以置信的微調(diào)),比擁有一個大多數(shù)地方都適用但在少數(shù)情況下異常錯誤的模型要好。
幸運(yùn)的是,我們對問題出在哪里很有信心。似乎首頁的PA膨脹得過高,可能的罪魁禍?zhǔn)资怯?xùn)練集。在我們完成再培訓(xùn)之前,我們無法確定這是原因,但這是一個強(qiáng)有力的線索。就目前而言,我們處于良好狀態(tài),因?yàn)槲覀儞碛卸鄠€勝過現(xiàn)有Page Authority的候選模型。我們正處在漏洞壓縮階段,而不是模型構(gòu)建階段。但是,除非我們有信心它將引導(dǎo)我們的顧客朝正確的方向發(fā)展,否則我們不會發(fā)布新的分?jǐn)?shù)。我們高度重視客戶根據(jù)我們的指標(biāo)做出的決策,而不僅僅是這些指標(biāo)是否滿足某些統(tǒng)計(jì)標(biāo)準(zhǔn)。
考慮到所有這些,我們決定推遲啟動Page Authority 2.0。這將為我們提供必要的時間來解決這些主要問題并制定出出色的指標(biāo)。令人沮喪嗎?是的,但也有必要。與往常一樣,我們感謝您的耐心配合,我們期待產(chǎn)生我們有史以來發(fā)布的最佳Page Authority指標(biāo)。