麻省理工學院稱第三方 Twitter 機器人檢測工具“不準確”:數(shù)據(jù)集過于簡單,泛用性較差

來源:IT之家
作者:江程
時間:2023-06-26
2812
美國麻省理工學院(MIT)的研究團隊近日發(fā)表論文指出,現(xiàn)有的第三方推特(Twitter)機器人賬戶自動檢測工具并不準確,因為其數(shù)據(jù)集過于簡單,缺乏泛用性。

IT之家 6月26日消息,美國麻省理工學院(MIT)的研究團隊近日發(fā)表論文指出,現(xiàn)有的第三方推特(Twitter)機器人賬戶自動檢測工具并不準確,因為其數(shù)據(jù)集過于簡單,缺乏泛用性。

此前有消息稱,機器人賬戶過多是阻止馬斯克收購推特的原因之一。推特當時聲稱其日活躍用戶中有5%是機器人賬戶,但馬斯克表示這個數(shù)字要比5%高得多。

推特有自己的機器人賬戶識別系統(tǒng),但并未公開。因此,對于普通公眾而言,第三方工具是較為可行的檢測方法。這些第三方工具使用從推特收集的數(shù)據(jù)集和機器學習模型來檢測機器人的可疑跡象,許多工具和模型已被用于研究社交媒體上的機器人活動,相關論文甚至已達數(shù)千篇。

025b185c-1b5e-4ce7-a207-454799627fc9.webp.jpg

用于推特機器人檢測的公開基準數(shù)據(jù)集

這些論文中的大多數(shù)基準數(shù)據(jù)集都是在不同推文中收集的數(shù)據(jù)集合,其中許多都是在特定推文(例如包含特定主題標簽的推文)中收集的,每條都由人類手動標記為機器人或人類。然而這種經(jīng)過專門訓練的機器人檢測模型在該專業(yè)領域表現(xiàn)出色,卻并沒有涵蓋全部領域,并且嚴重依賴于特定數(shù)據(jù),而不是機器人和人類之間的根本差異。

當這些模型在其他領域的數(shù)據(jù)集上進行測試時,它們的準確性很差,幾乎與隨機預測水平相當。同時,在許多數(shù)據(jù)集上,即使是相對簡單的模型也與最先進的機器學習模型(SOTA)準確率相當。

19d06e5c-d2a1-43b3-a434-4190b3310204.webp.jpg

簡單模型與SOTA模型在基礎數(shù)據(jù)集上的性能比較

換言之,在一個數(shù)據(jù)集上訓練的模型不能推廣到其他數(shù)據(jù)集,現(xiàn)有的機器人檢測數(shù)據(jù)集由于數(shù)據(jù)收集簡單而通用性較低。

最后,研究人員警告說,當使用現(xiàn)有的機器人檢測數(shù)據(jù)集時,用戶應該仔細考慮可能存在哪些類型的偏差。研究人員認為,一個根本的解決方案是推特等社交媒體本身就應該為研究人員提供豐富、可靠的數(shù)據(jù)以及高質量的真實標簽。

原文鏈接:點擊前往 >
版權說明:本文內容來自于IT之家,本站不擁有所有權,不承擔相關法律責任。文章內容系作者個人觀點,不代表快出海對觀點贊同或支持。如有侵權,請聯(lián)系管理員(zzx@kchuhai.com)刪除!
掃碼關注
獲取更多出海資訊的相關信息
個人VIP
小程序
快出海小程序
公眾號
快出海公眾號
商務合作
商務合作
投稿采訪
投稿采訪
出海管家
出海管家