當(dāng)今數(shù)字化時代,幾乎每個行業(yè)都意識到“流量”的重要性。以電商為例,流量意味著曝光量,意味著客戶感知度,意味著口碑,意味著潛在客戶,也意味著商機……
然而您所獲得的全部流量,真的就都是有益的,都能對業(yè)務(wù)產(chǎn)生積極影響嗎?那也未必!
爬蟲,流量獲取之路上一個繞不過的坎兒
作為全球領(lǐng)先的IT技術(shù)和服務(wù)提供商,Akamai致力于通過智能邊緣平臺為全球企業(yè)提供安全、流暢的數(shù)字化體驗。憑借遍及全球135個國家/地區(qū)的龐大規(guī)模與豐富服務(wù),Akamai目前已承載了30%的全球互聯(lián)網(wǎng)流量。經(jīng)分析發(fā)現(xiàn),這其中只有約60%的流量是真實用戶產(chǎn)生的,其余40%的流量都來自于各種爬蟲。
爬蟲又是什么?簡單來說,爬蟲是一種自動運行,在互聯(lián)網(wǎng)上檢索各類信息(這一過程也叫做“爬取”)的程序。例如每個人可能都會使用的搜索引擎,就是事先由搜索引擎的爬蟲程序爬取全網(wǎng)的網(wǎng)頁,了解不同網(wǎng)頁包含了哪些信息,隨后才能為我們提供搜索結(jié)果。
具體到電商領(lǐng)域而言,根據(jù)Akamai統(tǒng)計,電商行業(yè)所產(chǎn)生的流量中,來自真實用戶以及來自爬蟲的流量幾乎處于對半分的狀態(tài)。也就是說,電商IT系統(tǒng)所處理的流量,約有50%都來自于各類爬蟲程序。
其中包括來自搜索引擎、廣告平臺、社交媒體、測試平臺等商家真正需要的爬蟲(可稱為“善意爬蟲”);當(dāng)然,不可避免地會有競爭對手爬取商品價格庫存等信息,或惡意人員開展撞庫攻擊的,商家不需要并且希望盡可能避免的爬蟲(此類可叫做“惡意爬蟲”)。
惡意爬蟲的影響,往往是多方面的
從IT的視角來看,如果50%的電商流量都是爬蟲產(chǎn)生的,那么其中源自各類惡意爬蟲的流量占比也不會小。這意味著企業(yè)為應(yīng)對業(yè)務(wù)增長而準(zhǔn)備的IT容量中,很大一部分都被各類不需要的惡意爬蟲流量消耗了。換句話說,惡意爬蟲流量在影響Web系統(tǒng)性能的同時,也進(jìn)一步增加了基礎(chǔ)設(shè)施和運維等各方面成本。
從業(yè)務(wù)視角來看影響更大。競爭對手惡意爬取價格、庫存等信息,會直接削弱商家競爭力;“黃牛黨”和“羊毛黨”利用爬蟲干擾正常新品首發(fā)或促銷活動,導(dǎo)致失去銷售機會甚至影響到商家與客戶的關(guān)系;發(fā)起撞庫攻擊的爬蟲甚至?xí)?dǎo)致用戶賬號、賬戶余額、積分失竊等更嚴(yán)重后果,導(dǎo)致商家聲譽受到影響,甚至在某些情況下造成不合規(guī)或罰款。
因此對于爬蟲管理,我們可以首先明確這樣一個最基本原則:區(qū)分爬蟲的類型和作用,隨后針對不同爬蟲,有針對性地加以處理,在不影響善意爬蟲正常運行的前提下,盡可能阻止惡意爬蟲生效。
傳統(tǒng)爬蟲管理方法早已難以為繼
目前市面上已經(jīng)有很多爬蟲管理解決方案,但這些產(chǎn)品大多使用了一種較為傳統(tǒng)的,已無法迎合最新技術(shù)趨勢的方法:根據(jù)User Agent信息或IP地址識別出爬蟲程序,然后“一刀切”地直接拒絕訪問。
短期內(nèi),這類解決方案可能會產(chǎn)生一定效果。但從長期范圍來看,這只會導(dǎo)致爬蟲不斷演化和完善,讓商家和爬蟲運營者陷入“識別阻止,改進(jìn)完善,重新識別阻止,再次改進(jìn)完善”的無限拉鋸戰(zhàn)中。
為規(guī)避檢測,爬蟲運營者只需簡單修改代碼即可改變爬蟲User Agent信息或具體行為;而更換IP地址?借助越來越普及的公有云服務(wù),這完全是小菜一碟。只要傳統(tǒng)爬蟲管理解決方案成功阻止了某種爬蟲,就會引起運營者警覺并將爬蟲繼續(xù)完善,進(jìn)一步增大了被成功檢測出來的難度。
Bot Manager幫您構(gòu)建反爬蟲安全體系
Akamai Bot Manager建立在Akamai Intelligent Edge Platform之上,該平臺在130多個國家/地區(qū)擁有約300,000臺服務(wù)器,可提供出色的規(guī)模、恢復(fù)能力和性能。Bot Manager能在邊緣檢測、識別和管理爬蟲程序,從而僅將干凈的流量轉(zhuǎn)發(fā)至源站,并通過智能AI算法,根據(jù)合法和惡意流量趨勢進(jìn)行調(diào)整,以此更好地檢測、分類、管理不同類型的爬蟲流量。
在爬蟲檢測方面,除了傳統(tǒng)的瀏覽器特征分析、IP速率限制、網(wǎng)絡(luò)報頭分析等技術(shù)外,Bot Manager還全面采用了更先進(jìn)、智能的用戶行為分析、瀏覽器指紋、HTTP異常檢測等技術(shù),借此更準(zhǔn)確地區(qū)分真實用戶流量與爬蟲流量。
以下圖為例,對比了在瀏覽網(wǎng)頁時,真實用戶和爬蟲模擬的鼠標(biāo)軌跡。真實用戶的鼠標(biāo)軌跡幾乎是隨機的、無序的,而爬蟲模擬的鼠標(biāo)軌跡往往“橫平豎直”,很有目的性。借助類似這樣的方式,Bot Manager能更準(zhǔn)確地區(qū)分哪些流量來自真實用戶。不僅如此,Bot Manager還能結(jié)合用戶/爬蟲在網(wǎng)頁上鍵入信息時的鍵盤敲擊節(jié)奏和速度、觸控操作的行為模式,甚至手機和平板等移動設(shè)備的陀螺儀方位變化等諸多因素,進(jìn)一步提高檢測和識別的準(zhǔn)確率。
通過檢測成功區(qū)分來自真實用戶和爬蟲的流量后,還需要根據(jù)其他特征對爬蟲流量進(jìn)行進(jìn)一步的分類。Bot Manager已針對超過1,500種已知爬蟲創(chuàng)建了一個目錄,并且還在不斷擴(kuò)充中。借此該解決方案可自動根據(jù)不同類型爬蟲對業(yè)務(wù)或IT可能造成的影響。
隨后在惡意爬蟲流量的管理方面,Bot Manager并不像其他解決方案那樣采取“一刀切”的阻止措施,而是會根據(jù)實際情況更智能地酌情進(jìn)行處理。例如,對于依然無法有效區(qū)分的流量,可顯示驗證碼幫助驗證是否為真實人類流量;發(fā)起撞庫攻擊的爬蟲,可直接阻止;爬取價格信息的爬蟲,可提供虛假數(shù)據(jù);其他類型的爬蟲,可人為造成延遲,降低響應(yīng)速度,或進(jìn)一步進(jìn)行更密切的監(jiān)視……
所有這一切,都是為了在盡量不讓爬蟲運營者警覺的情況下,盡可能減少惡意爬蟲對IT基礎(chǔ)設(shè)施和業(yè)務(wù)產(chǎn)生消極影響。
借助智能、強大的檢測、分類、管理和報表分析能力,Akamai Bot Manager為企業(yè)提供了爬蟲檢測和控制能力,幫助企業(yè)在保護(hù)自身運營,維系更良好的客戶關(guān)系同時,還能在如下幾方面獲得收益:
-提升可信度:了解哪些互動是合理合法的,減少給用戶造成的摩擦,同時保護(hù)用戶,使其免受欺詐活動的影響,進(jìn)而促進(jìn)消費者、合作伙伴和您之間的相互信任關(guān)系。
-減輕補救措施造成的負(fù)擔(dān):降低因檢查遭入侵帳戶、更換被盜帳戶、處理用戶投訴和其他爬蟲程序攻擊不良影響而產(chǎn)生的資金成本和資源消耗。
-提高運營控制能力:提高效率、降低業(yè)務(wù)風(fēng)險和財務(wù)風(fēng)險、控制IT支出,并對合作伙伴爬蟲程序進(jìn)行有策略的管理。
-制定由數(shù)據(jù)驅(qū)動的、更好的決策:詳盡的分析和報告可幫您對客戶旅程、安全態(tài)勢、風(fēng)險承受能力和IT運營做出有創(chuàng)造性、有效的選擇。