如今惡意爬蟲所能做的,可不僅僅是搶票這么簡單。
限量球鞋,最新型號的電子產(chǎn)品,有人排隊搶購的地方,就有爬蟲。在直播帶貨如此火爆的今天,web爬蟲自然也不會放過拼搶爆款好物的機會。還有一些惡意爬蟲會利用被盜用戶的賬號密碼嘗試訪問不同的網(wǎng)頁,造成更嚴重的后果。
如今的全球互聯(lián)網(wǎng)上有多少Bot流量?Bot又與真人有著哪些共同點和不同點呢?
Cloudflare網(wǎng)絡遍及全球上百個國家,平均每秒需處理1800萬個HTTP請求,因此,我們處在觀察Bot流量的絕佳位置。接下來,讓我們登高望遠,一起來了解全球Bot流量吧!
Cloudflare統(tǒng)計
Bot流量約占互聯(lián)網(wǎng)總流量的40%
在Cloudflare全球網(wǎng)絡上,有60.6%的流量可能來自于真實用戶,19.3%的流量可能是Bot,18.1%的流量是已知的未經(jīng)驗證授權(quán)的Bot,而僅有2.1%的流量是經(jīng)過驗證的Bot。
Bot的分類
良好的Bot有助于提升網(wǎng)站排名,網(wǎng)站監(jiān)控,幫助打通用戶體驗閉環(huán)等。而非法爬蟲、僵尸網(wǎng)絡等惡意Bot則會損害網(wǎng)站和訪客的利益。
在Cloudflare,我們會標記每個請求的“Bot得分”,從1到99,分數(shù)較低意味著該請求可能來自于Bot,分數(shù)較高則代表著該請求可能來自于真人。客戶可在我們的防火墻、日志和Workers面板中找到請求的評分,并根據(jù)評分采取不同的措施。
Cloudflare將流量分為四個類別:
經(jīng)過驗證的Bot
良好的Bot為搜索引擎和網(wǎng)站監(jiān)控工具提供了強大的動力,我們可通過良好Bot的注冊目錄識別此類請求。
未經(jīng)驗證的Bot
Cloudflare啟發(fā)式引擎管理著一個未經(jīng)驗證的爬蟲的目錄,此引擎可捕獲請求流量中確定為Bot的部分。
潛在的Bot
Cloudflare通過機器學習引擎識別具有高度自動化可能性的請求,這一檢測依賴于使用我們?nèi)蚓W(wǎng)絡數(shù)據(jù)構(gòu)建的模型。
可能的人為請求
若在機器學習引擎中“得分”較高,則代表著該請求很大概率來自于真人。
Bot的流量特征
我們知道,Bot可以模仿人類的瀏覽行為,但Bot是否也會效仿人為流量的波動模式呢?
為此,我們比較了不同Cloudflare分類流量在一天之內(nèi)的變化。圖中顯示了不同時間點的流量與整日平均值的偏差??梢钥闯?,人為流量全天起伏較大,在凌晨達到低谷,在午間進入高峰。Bot流量的波動相對較小。
從一周的視角可以看出,許多Bot并不會在周末“休假”。
除此以外,我們還發(fā)現(xiàn),經(jīng)驗證的良好Bot的整日行為更為一致。原因可能是,在抓取一個網(wǎng)站時,良好Bot執(zhí)行頻率較低,目標明確,惡意Bot出于其他原因可能會以更高的速度執(zhí)行相同操作。
Bot與人類的相似之處
在大牌新品發(fā)布,獨家物品搶購等等場景,一些Bot會隨著人為流量的增多而活躍。
Bot流量的全球分布
北美是Bot流量的聚集地,全球有超過50%的Bot流量來自于北美。其中,全球經(jīng)過驗證的Bot流量有將近80%也來自于北美。歐洲是Bot流量第二大的地區(qū),緊接著是亞洲。
不同地區(qū)內(nèi)的Bot和真實訪客流量比例也有所不同。
Web流量自今年年初以來大幅增加了約35%,不少僵尸程序混跡其中,值得注意的是,Cloudflare網(wǎng)絡上觀察到的可疑Bot達到了39.4%的比例。
Cloudflare的Bot管理可高度精準地識別互聯(lián)網(wǎng)上的可疑Bot,通過與防火墻的交互,客戶可根據(jù)Cloudflare的Bot情報快速做出應對,即時緩解風險。想要了解更多有關(guān)Bot檢測和緩解的內(nèi)容,下方的干貨你一定不能錯過!