Facebook全球月活已經(jīng)突破22億,Youtube是19億,微信也超過10億,可以說互聯(lián)網(wǎng)已經(jīng)覆蓋了全球大部分人口,而隨著使用人口同步激增的還有用戶時(shí)長,以及內(nèi)容的生產(chǎn)消費(fèi)量級(jí)也呈指數(shù)級(jí)井噴,這海量的內(nèi)容無論對(duì)大平臺(tái)還是小公司都形成了巨大的管理難度和審核挑戰(zhàn)。
Facebook上每天上傳的照片超過3億張,每分鐘發(fā)布51萬條評(píng)論,30萬條新狀態(tài);每天在Instagram上的照片和視頻分享量為9500萬次;而在微信朋友圈,每天有10億張圖片被上傳。
當(dāng)前,每天約有2.5萬億字節(jié)的數(shù)據(jù)被創(chuàng)建,過去兩年里生成的數(shù)據(jù)占到了全球總數(shù)據(jù)的90%,而預(yù)計(jì)到2022年,全球互聯(lián)網(wǎng)流量講達(dá)到每秒7.2 PB。
在內(nèi)容數(shù)量井噴的同時(shí),內(nèi)容的形式也在不斷變化。除了傳統(tǒng)的圖文類內(nèi)容,音頻、長視頻和短視頻,以及直播的比例在不斷增加,這對(duì)于那些那些既追求實(shí)時(shí)性(發(fā)布速度和用戶體驗(yàn))、又追求不出問題(舉報(bào)率和負(fù)面事件)的內(nèi)容平臺(tái)審核管理,提出了巨大而嚴(yán)峻的挑戰(zhàn)。
包括Facebook和Youtube在內(nèi)的國際頂級(jí)UGC平臺(tái),如今在這類老生常談的問題上依然十分吃力,尤其是發(fā)達(dá)國家最為在意的低齡內(nèi)容、種族歧視和跨國文化/多語言等問題,它倆其實(shí)一直未能交出一份讓各方滿意的答卷。
而國內(nèi)今年比較知名的互聯(lián)網(wǎng)內(nèi)容社區(qū)類產(chǎn)品里,下架甚至關(guān)停的已經(jīng)不下于10余款,盡管它們各自都有各自的問題,比如色情內(nèi)容、微商、內(nèi)容涉政等等,但歸根結(jié)底,這還是用戶激增帶來的日益增長的內(nèi)容生產(chǎn)量和無法跟上的審核措施和效率之間的矛盾。
一、Facebook:用AI和算力應(yīng)對(duì)海量內(nèi)容
Facebook在整個(gè)2018年遭遇過巨大的信任危機(jī),除了數(shù)據(jù)接口和用戶隱私的處理不當(dāng),平臺(tái)上的內(nèi)容審核政策也受到嚴(yán)重質(zhì)疑。
但其實(shí),它背后的核心問題是,這家公司本就是世界互聯(lián)網(wǎng)內(nèi)容吞吐量最大的平臺(tái)。
而這些內(nèi)容并不只在Facebook app發(fā)布和消費(fèi),還在這家公司旗下月活15億的Whatsapp、13億的Facebook Messenger和10億的Instagram上面?zhèn)鞑ズ屯茝V,所以這家公司承受的內(nèi)容審核壓力才會(huì)如此之大。
那么Facebook拿出的應(yīng)對(duì)措施是什么?
在去年那場著名的美國國會(huì)聽證會(huì)上,扎克伯格在一小時(shí)內(nèi)提及AI三十余次,堅(jiān)稱AI是平臺(tái)內(nèi)容審核的答案,他的原話是:“未來的五到十年,AI將成為世界上最大的社交網(wǎng)絡(luò)的捍衛(wèi)者,在全球范圍內(nèi)解決其最緊迫的問題,同時(shí)也幫助公司回答有關(guān)審核、公平和人類無節(jié)制等棘手問題?!?/span>
小扎自稱,F(xiàn)acebook上99%有關(guān)ISIS和基地組織的內(nèi)容,都在人們看到之前被人工智能系統(tǒng)標(biāo)記,并且被刪掉。
但AI想要和內(nèi)容審核結(jié)合并落地,必須拿出一些具體的手段來。Facebook現(xiàn)在的審核分為文字審核、圖片和視頻審核,以及大量的人工配合。
文字審核方面,F(xiàn)acebook推出了DeepText(深度文本)引擎,利用深層神經(jīng)網(wǎng)絡(luò)架構(gòu)去理解那些帖子的內(nèi)容,據(jù)稱它能夠以近乎人類的精確度、每秒同時(shí)理解數(shù)千篇文章的文本內(nèi)容。
相比國內(nèi)的各大平臺(tái)的審核體系來說,它的優(yōu)勢除了速度更快,另一方面是Facebook作為一個(gè)全球化的社區(qū),DeepText能夠?qū)徍顺^20多種語言的文字。
DeepText甚至能實(shí)時(shí)通過用戶發(fā)送的內(nèi)容分析用戶的想法,通過對(duì)意圖、情緒和實(shí)體(人物/地點(diǎn)/事件)的提取,結(jié)合文本、圖片,并自動(dòng)移除垃圾信息的干擾,這一能力在Facebook Messenger上已經(jīng)被測試驗(yàn)證。當(dāng)然這個(gè)AI技術(shù)也并不只被用來審核一些可能發(fā)生的危險(xiǎn)(針對(duì)青少年的犯罪),它還可以改進(jìn)用戶體驗(yàn),幫助廣告商進(jìn)行有目標(biāo)的宣傳活動(dòng)。
Facebook為這些實(shí)時(shí)而海量的信息編目錄、并讓其被搜索是件很困難的事情,所以他們才轉(zhuǎn)向了人工智能。
同時(shí),News Feed做為短小而高頻的內(nèi)容素材,恰好就是眾多開展深度學(xué)習(xí)活動(dòng)的有效場所之一,因?yàn)槊總€(gè)Feed的背后,包含了人們希望看到哪些與他們相關(guān)的內(nèi)容。
而Facebook的圖片和視頻審核系統(tǒng)名為Rosetta,利用光學(xué)字符識(shí)別系統(tǒng)來處理圖片和視頻內(nèi)容,每天可以實(shí)時(shí)地從超過10億張圖像和視頻幀中提取信息并識(shí)別多種語言背后的含義。
另外,F(xiàn)acebook在上周剛剛開源了它們?cè)趫D像識(shí)別及視覺領(lǐng)域的最新模型:ResNext101。這是一個(gè)在Instagram的圖片標(biāo)簽上預(yù)訓(xùn)練,并在ImageNet上微調(diào)的模型。
ImageNet是由知名人工智能專家李飛飛教授團(tuán)隊(duì)于2009年發(fā)布,包含了超過兩萬類物體共計(jì)一千四百多萬張圖片,后來的很多計(jì)算機(jī)視覺任務(wù)模型都以此為基礎(chǔ)進(jìn)行訓(xùn)練。
而ResNext101更上一層樓,利用了Instagram上的35億張圖片(比ImageNet的1400萬多了200多倍)進(jìn)行了預(yù)訓(xùn)練,并以人們?yōu)閳D片添加的話題標(biāo)簽(#hashtag)為類別,研發(fā)出來的有著超強(qiáng)特征提取能力的圖像識(shí)別模型。
在這兩大系統(tǒng)的背后,其實(shí)是Facebook的人工智能研究院FAIR(Facebook Artificial Intelligence Research)在發(fā)揮功勞。
比如其物體識(shí)別技術(shù)(Object recognition),以含有數(shù)十億參數(shù)和數(shù)百萬案例訓(xùn)練的神經(jīng)網(wǎng)絡(luò)為基礎(chǔ),給了挑戰(zhàn)最大的圖片和視頻審核有力的支持。
另外它們也使用自我監(jiān)督學(xué)習(xí)(SSL)探索大量數(shù)據(jù),讓機(jī)器可以通過分析未標(biāo)記的圖像、視頻或音頻來學(xué)習(xí)世界的抽象表達(dá),這也是FAIR將AI能力規(guī)?;呐χ?。
FAIR還在研究用戶頭像的面部識(shí)別、上傳照片的環(huán)境識(shí)別等,它承擔(dān)Facebook所有AI相關(guān)的基礎(chǔ)研究、應(yīng)用研究和技術(shù)開發(fā)。
比如它推出的剛剛獲得了國際視覺模型挑戰(zhàn)賽冠軍的Mask R-CNN,這個(gè)系統(tǒng)可以將計(jì)算機(jī)視覺世界的物體檢測與語義分割結(jié)合到了一起,不但可以檢測劣質(zhì)視頻內(nèi)容,甚至可以幫助視障人士自動(dòng)替代文字。
不過,你可千萬別以為世界上最大的社交網(wǎng)絡(luò)和內(nèi)容平臺(tái),光靠AI和審核系統(tǒng)就搞定了一切。截止目前,F(xiàn)acebook聘請(qǐng)了超過2萬人(是的你沒看錯(cuò)),來輔助內(nèi)容篩查,并配合監(jiān)測和刪除爭議內(nèi)容。
二、YouTube:版權(quán)審核系統(tǒng)的升級(jí)之路
YouTube的內(nèi)容審核系統(tǒng)名為Content ID,會(huì)監(jiān)測并直接刪除涉及色情、低俗和暴力等違規(guī)內(nèi)容。不過,這個(gè)系統(tǒng)的誕生一開始僅僅是為了解決YouTube上內(nèi)容的版權(quán)問題。
早年間YouTube以草根內(nèi)容起家,后來出現(xiàn)了大量的搬運(yùn)號(hào),主要以盜版電視臺(tái)的精品內(nèi)容為主。雖然平臺(tái)的數(shù)據(jù)因此飆漲,但也因此陷入了曠日持久的官司里。
2007年至2009年,包括維亞康姆(美國第三大傳媒公司),Mediaset(意大利的傳媒集團(tuán))和英超聯(lián)賽(英國最大足球聯(lián)賽)等在內(nèi)的組織對(duì)YouTube提起訴訟,聲稱它在用戶上傳侵權(quán)內(nèi)容方面毫無作為。
維亞康姆要求其作出10億美元賠償金,他們聲稱已經(jīng)在YouTube上發(fā)現(xiàn)超過15萬條版權(quán)內(nèi)容片段,累計(jì)播放量超過15億次。在耗時(shí)耗力的多年訴訟和公關(guān)戰(zhàn)之后,直到2014年,雙方才最終協(xié)商解決了爭議,但具體條件并未公開。
所以當(dāng)年在被Google收購之后,YouTube從2007年開始就逐步投入巨資建立起Content ID版權(quán)系統(tǒng),慢慢幫助版權(quán)所有者能夠識(shí)別平臺(tái)上的侵權(quán)行為,并讓版權(quán)所有者在平臺(tái)上能夠獲直接獲得收入。截止2018年,谷歌為該技術(shù)研發(fā)共計(jì)投入超1億美元。
后來,Content ID的內(nèi)容監(jiān)測能力在不斷改進(jìn)后,比如使用哈希算法標(biāo)記有風(fēng)險(xiǎn)視頻,阻它們被次上傳,也獲得了顯著的成效。以2017年Q4為例,平臺(tái)刪除了800萬條“令人反感”的視頻,有670萬條都由監(jiān)測軟件自動(dòng)標(biāo)記。大約75%被標(biāo)記的視頻,在被用戶觀看之前就被下架。
人性化的是,YouTube于2014年9在前端增加了受限模式(Restricted Mode),用以過濾情暴內(nèi)容,但是戶可以自己選擇開啟還是關(guān)閉。依據(jù)戶舉報(bào)以及其它識(shí)別規(guī)則,受限模式可以直接為用戶過濾部分不當(dāng)內(nèi)容。
當(dāng)然,YouTube的這些內(nèi)容審核能力有賴于谷歌的深度學(xué)習(xí)技術(shù)Google Brain作為支持。Google Brian擁有一個(gè)收集用戶信息(如觀看歷史和用戶反饋)的神經(jīng)網(wǎng)絡(luò),以及一個(gè)用于對(duì)所顯示部分視頻進(jìn)行排列的神經(jīng)網(wǎng)絡(luò),通過引入機(jī)器學(xué)習(xí)工具,自動(dòng)標(biāo)記暴力、色情和低俗等極端視頻,并將違規(guī)內(nèi)容報(bào)告給人工審核員進(jìn)行驗(yàn)證。
和Facebook類似的是,就算有了Google多方面的技術(shù)支持(包括資金、人才、算法、云和服務(wù)器等),YouTube的AI標(biāo)記、內(nèi)容審核與識(shí)別技術(shù)也并不完美。2018的時(shí)候YouTube CEO蘇珊·沃西基承諾,未來會(huì)雇傭至少一萬名人工審核員,以補(bǔ)足算法的局限。
因?yàn)楦缰坝鸵恍V告公司發(fā)現(xiàn),自己的廣告被推薦到了緊挨著極端主義分子上傳的視頻內(nèi)容的旁邊,造成了許多惡劣的影響,多方政府和廣告主們聯(lián)名宣布將因此撤下自己在YouTube賬號(hào)上的內(nèi)容。
不過,Google對(duì)YouTube的幫助也不會(huì)僅僅限于內(nèi)容審核,Google Brain的技術(shù)已經(jīng)被應(yīng)用在安卓系統(tǒng)的語音識(shí)別、Google+的圖片搜索、以及YouTube的智能推薦。
所以,現(xiàn)在的YouTube早已從一個(gè)視頻UGC社區(qū),到慢慢成為擁有海量內(nèi)容、搜索驅(qū)動(dòng)的視頻綜合網(wǎng)站,到擁有了視頻推送能力的應(yīng)用。如今,占據(jù)用戶在YouTube上觀看視頻總時(shí)長70%的內(nèi)容,是由推薦算法引擎驅(qū)動(dòng)的。
三、結(jié)語
國信網(wǎng)安作為國內(nèi)專業(yè)的互聯(lián)網(wǎng)內(nèi)容安全審核服務(wù)供應(yīng)商認(rèn)為,隨著用戶和內(nèi)容數(shù)量的繼續(xù)增長,內(nèi)容審核的挑戰(zhàn)會(huì)越來越嚴(yán)峻,政策相關(guān)的監(jiān)管也會(huì)越來越嚴(yán)格,圖文的內(nèi)容識(shí)別問題雖然逐步被克服,語音和視頻的內(nèi)容理解更加任重道遠(yuǎn),人工和機(jī)器檢測都更為不易,尤其是當(dāng)需要聯(lián)系具體的用戶使用場景和政治社會(huì)語境時(shí),難度會(huì)成倍提高。
比如鄧麗君的歌曲,早年被認(rèn)為是低俗情色歌曲,如今早已被普遍接受并傳唱大街小巷;比如內(nèi)衣和內(nèi)衣模特出現(xiàn)在購物平臺(tái)上,會(huì)被默認(rèn)為正常,但如果頻繁出現(xiàn)在新聞資訊平臺(tái)上,就可能被認(rèn)為有低俗嫌疑;而正常的熱舞內(nèi)容,提供給成年人看,符合常規(guī)標(biāo)準(zhǔn),但如果開啟了青少年模式,這些內(nèi)容就不應(yīng)該出現(xiàn)。
這就是由于時(shí)代背景、使用場景、用戶人群不同而導(dǎo)致審核標(biāo)準(zhǔn)可能大幅變動(dòng)的案例。
海量數(shù)據(jù)的產(chǎn)生、不斷變化的標(biāo)準(zhǔn),這都要求大公司在這方面的投入必須越來越多,而這本質(zhì)上就成了一場資本豐厚的對(duì)手之間的軍備競賽。
今年卡耐基梅隆大學(xué)(CMU)和Google合作研發(fā)的XLNet模型,在Bert模型的基礎(chǔ)上更進(jìn)一步,在足足512塊TPU上訓(xùn)練了兩天半時(shí)間。以Google Cloud的計(jì)價(jià)標(biāo)準(zhǔn),只是訓(xùn)練一次XLNet模型就需要人民幣一百六十多萬。
若再考慮上整個(gè)模型研發(fā)過程中的不斷試錯(cuò)和調(diào)參驗(yàn)證等過程,XLNet的開銷簡直天文數(shù)字。未來中小團(tuán)隊(duì)將難以競爭,這就是一個(gè)巨頭獨(dú)霸的競技場。
不過好在,隨著人類進(jìn)入社會(huì)的數(shù)字化程度越來越高,新一代的移動(dòng)互聯(lián)網(wǎng)原住民們?cè)谙硎芗夹g(shù)帶來的便利的同時(shí),也對(duì)技術(shù)可能的負(fù)面在耐受度和適應(yīng)性上不斷提高。
畢竟自工業(yè)革命之后起,就有無數(shù)人曾對(duì)技術(shù)會(huì)帶給社會(huì)的沖擊抱有極端負(fù)面和悲觀的預(yù)期,認(rèn)為技術(shù)可能會(huì)加速崩壞我們數(shù)萬年來自然形成的人類社會(huì)結(jié)構(gòu),但是哪一次,人類社會(huì)不又是順利轉(zhuǎn)型成功、發(fā)展出與技術(shù)相匹配的職業(yè)和生活模式、并且越走越好了呢?