機(jī)器人管理是指阻止有害或惡意的互聯(lián)網(wǎng)機(jī)器人流量,同時(shí)仍然允許良性的機(jī)器人訪問Web屬性。機(jī)器人管理通過檢測(cè)機(jī)器人活動(dòng)來實(shí)現(xiàn)這一目標(biāo),區(qū)分有需要和不想要的機(jī)器人行為以及識(shí)別不想要的活動(dòng)來源。
Bot management is necessary because bots, if left unchecked, can cause massive problems for web properties. Too much bot traffic can put a heavy load on web servers, slowing or denying service to legitimate users (sometimes this takes the form of a DDoS attack). Malicious bots can scrape or download content from a website, steal user credentials, rapidly spread spam content, and perform various other kinds of cyberattacks.
機(jī)器人管理的工作內(nèi)容是什么?
機(jī)器人管理器是任何管理機(jī)器人的軟件產(chǎn)品。機(jī)器人管理程序應(yīng)該能夠阻止某些機(jī)器人并允許其他機(jī)器人通過,而不是簡(jiǎn)單地阻止所有非人為流量。例如,如果所有機(jī)器人都被阻止并且谷歌的機(jī)器人無法為頁面編制索引,則該頁面將不會(huì)顯示在谷歌搜索結(jié)果中,從而大大減少了網(wǎng)站的自然流量。
一個(gè)好的機(jī)器人管理程序可以實(shí)現(xiàn)以下目標(biāo):
識(shí)別機(jī)器人與訪客之間的差異
識(shí)別機(jī)器人的信譽(yù)
識(shí)別機(jī)器人來源 IP 地址并根據(jù) IP 信譽(yù)進(jìn)行阻攔
分析機(jī)器人行為
將"良性“機(jī)器人添加到白名單
Challenge potential bots via a CAPTCHA test, JavaScript injection, or other methods
Rate limit any potential bot over-using a service
拒絕"惡意”機(jī)器人對(duì)某些內(nèi)容或資源的訪問
為機(jī)器人提供替代內(nèi)容
什么是機(jī)器人?
機(jī)器人是在網(wǎng)絡(luò)上運(yùn)行的計(jì)算機(jī)程序。機(jī)器人被編程為自動(dòng)執(zhí)行某些操作。通常,機(jī)器人執(zhí)行的任務(wù)相當(dāng)簡(jiǎn)單,但是機(jī)器人可以一次又一次地以比人類更快的速度完成任務(wù)。
例如,谷歌使用機(jī)器人不斷抓取網(wǎng)頁并將內(nèi)容編入索引以進(jìn)行搜索。一個(gè)人的團(tuán)隊(duì)需要花費(fèi)天文數(shù)字的時(shí)間才能查看整個(gè)互聯(lián)網(wǎng)上散布的內(nèi)容,但是谷歌的機(jī)器人能夠使谷歌的搜索索引保持最新狀態(tài)。
作為負(fù)面示例,垃圾郵件發(fā)送者使用電子郵件收集機(jī)器人從互聯(lián)網(wǎng)上收集電子郵件地址。機(jī)器人程序會(huì)爬蟲網(wǎng)頁,查找遵循電子郵件地址格式(文本+ @符號(hào)+域)的所有文本,然后將該文本保存到數(shù)據(jù)庫中。自然,人們可以在網(wǎng)頁上查找電子郵件地址,但是由于這些電子郵件收集機(jī)器人是自動(dòng)的,并且僅查找適合某些參數(shù)的文本,因此查找電子郵件地址的速度成倍增長(zhǎng)。
與人類用戶訪問 Internet 不同的是,機(jī)器人通常不通過 Google Chrome 或者 Mozilla Firefox 等傳統(tǒng) Web 瀏覽器訪問 Internet。機(jī)器人并不操作鼠標(biāo)(或者智能手機(jī))也不點(diǎn)擊瀏覽器中的可視內(nèi)容,它們只是會(huì)提出 HTTP 請(qǐng)求(還有其他活動(dòng))的軟件程序,通常使用的是所謂的“無界面瀏覽器”。
機(jī)器人能做什么?
Bots can do essentially any repetitive, non-creative task – anything that can be automated. They can interact with a webpage, fill out and submit forms, click on links, scan (or "crawl") text, and download content. Bots can "watch" videos, post comments, and post, like, or retweet on social media platforms. Some bots can even hold basic conversations with human users – these are known as chatbots.
良性機(jī)器人和惡意機(jī)器人有什么區(qū)別?
令人驚訝的是,許多來源估計(jì),互聯(lián)網(wǎng)所有流量中大約有一半是機(jī)器人流量。就像某些(但不是全部)軟件是惡意軟件一樣,某些機(jī)器人是惡意機(jī)器人,而有些是"良性的"。
任何濫用在線產(chǎn)品或服務(wù)的機(jī)器人均被視為"惡意“。惡意機(jī)器人的范圍很廣,從公然惡意的機(jī)器人(例如試圖闖入用戶帳戶的機(jī)器人)到輕度濫用資源的形式(例如在活動(dòng)網(wǎng)站上購(gòu)買門票的機(jī)器人)。
A bot that performs a needed or helpful service can be considered "good." Customer service chatbots, search engine crawlers, and performance monitoring bots are all examples of good bots. Good bots typically look for and abide by the rules outlined in a website's robots.txt file.
什么是robots.txt文件?
Robots.txt是網(wǎng)頁服務(wù)器上的文件,概述了機(jī)器人訪問該服務(wù)器屬性的規(guī)則。但是,文件本身不執(zhí)行這些規(guī)則。從本質(zhì)上講,對(duì)機(jī)器人進(jìn)行編程的任何人都應(yīng)遵守榮譽(yù)制度,并確保其機(jī)器人在訪問網(wǎng)站之前檢查網(wǎng)站的robots.txt文件。當(dāng)然,惡意機(jī)器人通常不遵循此系統(tǒng),因此需要機(jī)器人管理。
機(jī)器人管理如何工作?
To identify bots, bot managers may use JavaScript challenges (which determines whether or not a traditional web browser is being used) or CAPTCHA challenges. They may also determine which users are humans and which are bots by behavioral analysis – which means by comparing a user's behavior to the standard behavior of users in the past. Bot managers must have a large collection of quality behavioral data to check against in order to do the latter.
如果確定某個(gè)機(jī)器人是惡意的,則可以將其重定向到其他頁面,或者完全阻止其訪問網(wǎng)頁資源。
良性的機(jī)器人則可以添加到白名單,或允許的機(jī)器人列表(與黑名單相反)。機(jī)器人管理程序還可以通過進(jìn)一步的行為分析來區(qū)分良性和惡意機(jī)器人。機(jī)器人管理器還可通過進(jìn)一步的行為分析來分辨善意機(jī)器人和惡意機(jī)器人。
另一種機(jī)器人管理方法是使用robots.txt文件設(shè)置蜜罐。蜜罐是針對(duì)不良機(jī)器人的虛假目標(biāo),一旦被訪問,就會(huì)將暴露不良機(jī)器人為惡意對(duì)象。對(duì)于機(jī)器人,蜜罐可能是robots.txt文件禁止機(jī)器人訪問的網(wǎng)站上的網(wǎng)頁。好的機(jī)器人會(huì)讀取robots.txt文件,并避開該網(wǎng)頁;一些不良的漫游器會(huì)抓取該網(wǎng)頁。通過跟蹤訪問蜜罐的機(jī)器人的IP地址,可以識(shí)別并阻止不良的機(jī)器人。
機(jī)器人管理可緩解哪些類型的機(jī)器人攻擊?
機(jī)器人管理解決方案可以幫助阻止各種類型的攻擊:
DDoS 攻擊
DoS 攻擊
憑證填充
信用卡填充
暴力破解密碼
垃圾電子郵件內(nèi)容
數(shù)據(jù)抓取/網(wǎng)頁抓取
電子郵件地址搜集
廣告欺詐
點(diǎn)擊欺詐
下面這些其他機(jī)器人活動(dòng)并不總是被認(rèn)為是"惡意的”,但機(jī)器人管理器仍然能夠防護(hù)它們:
庫存囤積
在社交論壇或平臺(tái)上的自動(dòng)發(fā)布
購(gòu)物車填充
Cloudflare如何管理機(jī)器人?
Cloudflare 的獨(dú)有能力是從每天流經(jīng)其網(wǎng)絡(luò)的數(shù)十億個(gè)請(qǐng)求中收集數(shù)據(jù)。Cloudflare 能夠利用這些數(shù)據(jù),結(jié)合機(jī)器學(xué)習(xí)和行為分析,識(shí)別可能存在的機(jī)器人活動(dòng),且能夠提供創(chuàng)建善意機(jī)器人有效白名單或者惡意機(jī)器人黑名單所需的必要數(shù)據(jù)。Cloudflare 還擁有強(qiáng)大的 IP 信譽(yù)數(shù)據(jù)庫。