數(shù)據(jù)已經(jīng)成為了媒體機構(gòu)骨血一般的存在,包容了一切能夠相聯(lián)、互動的新技術(shù),開始進入智能化階段。聚焦于傳媒產(chǎn)業(yè),這種影響尤顯深刻——這是一個以“看見”、“聽見”的體驗為起點的產(chǎn)業(yè),是一個以人類信息交流與溝通為起點的產(chǎn)業(yè),恰好契合我們對于人工智能“能聽懂”、“能看懂”、“能行動”乃至“能思考”的期待。
因此,數(shù)據(jù)智能化是傳媒產(chǎn)業(yè)大數(shù)據(jù)技術(shù)十年發(fā)展的新階段與新方向,是媒體大數(shù)據(jù)的原力覺醒。
本文是關(guān)于YouTube通過數(shù)據(jù)智能提升“理解”能力的案例剖析??偣舶ㄈ齻€部分:
1.數(shù)據(jù)智能支持用戶及內(nèi)容理解能力升級
2.基于理解能力升級的平臺服務優(yōu)化
3.理解用戶及內(nèi)容還需要解決的問題
作為視頻內(nèi)容平臺,YouTube基于海量內(nèi)容和用戶數(shù)據(jù),一直致力于解決一個核心問題:用戶喜歡什么樣的內(nèi)容?2006年被谷歌收購之后,YouTube逐漸對接谷歌大數(shù)據(jù),對該問題的理解更為深入。尤其在谷歌AI戰(zhàn)略支持下,YouTube的數(shù)據(jù)體系融入AI基因,從機器學習階段向深度學習階段邁進。
數(shù)據(jù)智能提升了YouTube對用戶以及內(nèi)容的理解能力,并持續(xù)支持YouTube平臺服務優(yōu)化。谷歌母公司Alphabet財報顯示,YouTube2019年全年營收為151.49億美元,占谷歌業(yè)務總收入的13.4%,已經(jīng)成為谷歌重要的收入來源。
那么,YouTube在數(shù)據(jù)智能的支持下“理解”能力得到了怎樣的升級?又是如何賦能業(yè)務運作的呢?
01
數(shù)據(jù)智能支持用戶
及內(nèi)容理解能力升級
在谷歌大數(shù)據(jù)和AI體系的雙重支持下,YouTube對用戶及內(nèi)容的理解能力得到了大幅度的提升。
YouTube的數(shù)據(jù)賦能邏輯
1.機器理解+用戶參與精準描繪用戶畫像
2012年,YouTube與谷歌搜索實現(xiàn)了數(shù)據(jù)對接,并在隨后被納入谷歌賬號體系,成為谷歌大數(shù)據(jù)體系的關(guān)鍵組成部分。憑借這一步,YouTube對用戶的理解能力與谷歌實現(xiàn)了一致性。具體來說,YouTube對用戶畫像的描繪主要分為兩個方式:
一是常規(guī)意義上運用機器學習技術(shù)對用戶數(shù)據(jù)進行分析處理,自動形成用戶畫像。
從源頭來看,YouTube基于谷歌的強賬號體系,通過cookie、像素代碼、服務器日志等常規(guī)意義上的數(shù)據(jù)采集技術(shù)對用戶數(shù)據(jù)進行采集(非賬號體系下通過唯一標識符采集設(shè)備應用數(shù)據(jù)但無法聚焦至個人),主要分為個人數(shù)據(jù)、設(shè)備數(shù)據(jù)、活動數(shù)據(jù)以及位置數(shù)據(jù)四個維度。
數(shù)據(jù)上傳至谷歌服務器并通過后臺機器學習技術(shù)進行分析處理,刻畫用戶畫像。該用戶畫像包括基礎(chǔ)信息、興趣愛好、行為習慣等在內(nèi)超過60個標簽,每個標簽都詳細標注了形成原因,實現(xiàn)了對用戶的基本洞察。
二是開放一定的權(quán)限給用戶進行自身標簽與畫像的修改。
由于機器的認知缺陷以及用戶行為偏好的不穩(wěn)定性,通過機器學習技術(shù)自動描繪的用戶畫像在某些情況下可能失去精準性。為此,在谷歌政策支持下,YouTube將用戶畫像構(gòu)建及修改的部分權(quán)限給予了用戶,將機器理解與用戶人為修正相結(jié)合。
一來,用戶可以通過修改數(shù)據(jù)影響機器學習技術(shù)對用戶畫像的刻畫,包括數(shù)據(jù)采集前對個人數(shù)據(jù)、設(shè)備數(shù)據(jù)、位置數(shù)據(jù)等進行修改,以及數(shù)據(jù)采集后對活動數(shù)據(jù)(歷史行為數(shù)據(jù))等進行修改。
二來,用戶可以依據(jù)個人意愿直接修改機器學習技術(shù)所自動形成的用戶畫像標簽。谷歌在刻畫用戶畫像時不僅每個標簽都標注了形成原因,還增添了“停用”或“啟動”功能,較好地尊重了用戶自身的意愿。由此,通過機器學習技術(shù)對數(shù)據(jù)的自動化處理以及用戶對數(shù)據(jù)或用戶畫像標簽的人為干預,YouTube能夠更加準確地理解用戶。
02
文本分析+視頻理解
深入理解內(nèi)容
除了對用戶的理解,YouTube顯然還需要對平臺上海量的內(nèi)容進行解讀。與其它視頻平臺類似,YouTube可以通過機器學習技術(shù)對視頻基本數(shù)據(jù)進行理解,主要包括視頻內(nèi)容數(shù)據(jù)以及視頻表現(xiàn)數(shù)據(jù)兩種類型。
其中,視頻內(nèi)容數(shù)據(jù)主要包括了創(chuàng)作者上傳視頻時所提供給的視頻標題、類型、說明等基本信息,以及經(jīng)過人工審核或機器學習技術(shù)給視頻自動標注的類型標簽;視頻表現(xiàn)數(shù)據(jù)主要包括視頻觀看量、評論量、轉(zhuǎn)發(fā)量等數(shù)據(jù)。
通過機器學習對這兩類數(shù)據(jù)的分析和理解,YouTube可以回答兩個問題:視頻的內(nèi)容是什么?視頻的播放表現(xiàn)怎么樣?相對來說,回答第二個問題是更加容易的。
隨著谷歌AI戰(zhàn)略的持續(xù)推進,YouTube成為谷歌AI部門DeepMind以及Google AI(原Google Research)進行AI研發(fā)訓練的視頻數(shù)據(jù)源,也成為了谷歌和YouTube回答第一個問題的重要基礎(chǔ)。
谷歌AI研究人員基于YouTube視頻內(nèi)容建立了多個數(shù)據(jù)集,支持了YouTube從文本數(shù)據(jù)分析向視頻畫面以及音頻理解升級。筆者根據(jù)相關(guān)公開資料統(tǒng)計發(fā)現(xiàn),谷歌以YouTube的視頻數(shù)據(jù)為基礎(chǔ)建立了大概6個數(shù)據(jù)集(部分數(shù)據(jù)集下有子數(shù)據(jù)集),分別實現(xiàn)了對視頻中的場景、物體、人的行為動向、景深、聲音的識別(詳細見表格)。
谷歌AI團隊利用YouTube視頻數(shù)據(jù)生成數(shù)據(jù)集以訓練AI進行視頻理解
主要包括:識別視頻所屬垂直場景類別的YouTube 8M及其子數(shù)據(jù)集YouTube 8M segments、識別視頻中包含的物體類型的YouTube-Bouding Boxes、識別視頻中人類行為傾向的Kinetics以及AVA Action Datasets(AVA數(shù)據(jù)集的子數(shù)據(jù)集,后與Kinetics交叉形成新數(shù)據(jù)集AVA Kinetic)、識別視頻景深程度的木頭人視頻數(shù)據(jù)集、以及識別語音類型及行為聲音的AudioSet及AVA Spoken Activity Datasets(AVA數(shù)據(jù)集的子數(shù)據(jù)集)。
在這些數(shù)據(jù)集的支持下,谷歌AI的視頻理解能力得到大幅度提升,也給了YouTube更強的視頻內(nèi)容理解力,賦能其整體運營。
03
基于理解能力升級
的平臺服務優(yōu)化
YouTube在谷歌大數(shù)據(jù)體系及AI技術(shù)支持下,用戶理解及內(nèi)容理解能力不斷增強。在此基礎(chǔ)上,YouTube實現(xiàn)了對自身平臺服務的優(yōu)化,主要可以分為三個方面。
1.人工配合AI平臺內(nèi)容審核機制加強
早期,人工審核一直是YouTube進行內(nèi)容審核的核心方式。
2016年以前,YouTube主要依靠“超級標記者”項目鼓勵用戶舉報不當內(nèi)容,工作人員再依規(guī)定對被舉報內(nèi)容進行審核、移除等處理。2016年,YouTube部署了內(nèi)容審核系統(tǒng),該系統(tǒng)可以初步篩選出歪曲視頻內(nèi)容、含有不當語言等違規(guī)問題的視頻標題、視頻縮略圖,進而減少人工審核的工作量。
但是,由于YouTube視頻數(shù)據(jù)海量,這種機器輔助的效果仍然有限。這個問題在2017年時達到頂峰——YouTube陷入了恐怖主義、極端主義的“視頻質(zhì)量危機”,并引發(fā)了谷歌陷入“廣告危機”。顯然,增強機器的視頻內(nèi)容理解力,可以在很大程度上解決這個問題。
所以,當AI可以準確回答“視頻的內(nèi)容是什么”之后,YouTube進入了內(nèi)容審核的2.0階段,形成了“人工審核+AI審核”的雙重機制。
目前,YouTube AI審核能力的提升有賴于兩個方面:一是人工數(shù)據(jù)訓練,人工審核小組對超過100萬條視頻進行審核標注并提供給機器進行學習應用;二是導入AVA數(shù)據(jù)集,通過對數(shù)據(jù)集中57萬組視頻片段、21萬個動作標簽進行分析處理,訓練識別能力。監(jiān)督式學習與無監(jiān)督式學習雙劍合璧,提升AI的視頻內(nèi)容理解力。
2019年,YouTube又上線了名為“垃圾視頻分類器”的審核系統(tǒng),該系統(tǒng)可以實現(xiàn)在無人協(xié)助下分析大量視頻片段,解讀令人不適的視頻剪輯,然后從網(wǎng)站主頁以及應用主頁上屏蔽這些內(nèi)容。
根據(jù)YouTube官方數(shù)據(jù)顯示,2019年第一季度,YouTube約有830萬個視頻被刪除,其中76%是人工智能自動識別和標記的。這些被刪除的視頻中,有70%以上從未被用戶觀看過。另外,2020年疫情蔓延的情況下,YouTube更是宣布加大對AI審核機制的依賴程度,以減輕人工壓力??梢姡珹I審核機制已經(jīng)在YouTube平臺運營中發(fā)揮關(guān)鍵作用。
2.內(nèi)容推薦與創(chuàng)作服務用戶使用體驗提升
理解用戶和內(nèi)容成為了YouTube實現(xiàn)智能推薦、提升用戶體驗與用戶粘度的重要基礎(chǔ)。首先,YouTube將用戶分為了“觀眾”及“創(chuàng)作者”,其理解與服務也有相應的區(qū)別。
針對觀眾型用戶,個性化推薦成為YouTube的重要發(fā)力方向。
實際上,YouTube一直以其強大的內(nèi)容推薦系統(tǒng)所著名,該系統(tǒng)所解決的核心問題有兩個:一是相似視頻關(guān)聯(lián)問題;二是視頻推薦排序問題。其中必然涉及到的是對用戶行為數(shù)據(jù)以及視頻內(nèi)容數(shù)據(jù)的解讀分析。
YouTube推薦系統(tǒng)演變過程(摘取部分關(guān)鍵信息)
隨著2015年內(nèi)容推薦系統(tǒng)對接Google Brain,推薦能力融入深度學習技術(shù),促進了YouTube推薦算法的升級。YouTube的推薦系統(tǒng)算法由兩個神經(jīng)網(wǎng)絡(luò)組成:候選集生成(candidate generation)和排序過濾(ranking)。利用內(nèi)容過濾和協(xié)同過濾,YouTube解決了從百萬級別的視頻庫中初步篩選百級別的數(shù)據(jù)。
之后,再使用設(shè)計好的目標函數(shù)為每個視頻進行打分,視頻按得分的多少依次按照優(yōu)先級呈現(xiàn)給用戶。在YouTube推薦系統(tǒng)中,在推薦視頻的優(yōu)先級排序考量上對于“視頻觀看時間”的因素看重遠大于“視頻點擊率”。同時,隨著谷歌將部分數(shù)據(jù)權(quán)限歸還給用戶,觀眾可以修改后臺歷史數(shù)據(jù),影響推薦系統(tǒng)對歷史行為數(shù)據(jù)的分析,進而影響推薦內(nèi)容的精準性。
對用戶數(shù)據(jù)及內(nèi)容數(shù)據(jù)處理能力的升級,使得YouTube有了更強大、精準的個性化推薦服務。
針對創(chuàng)作者型用戶,YouTube則著力提供更有效的數(shù)據(jù)工具產(chǎn)品。
——內(nèi)容創(chuàng)作工具
例如,YouTube在海量圖像數(shù)據(jù)標注基礎(chǔ)上訓練視頻分割技術(shù),為創(chuàng)作者推出了自動更換背景的視頻拍攝應用。
——內(nèi)容表現(xiàn)分析工具
得益于YouTube對用戶行為表現(xiàn)及內(nèi)容表現(xiàn)的追蹤及數(shù)據(jù)采集,整合了YouTube Data、YouTube Analystics以及YouTube Reporting三大模塊的YouTube Studio在2017年上線,提供給創(chuàng)作者頻道內(nèi)容表現(xiàn)及流量收入可視化分析服務。
——內(nèi)容版權(quán)保護工具
YouTube在以熱圖對比為核心內(nèi)容數(shù)據(jù)處理技術(shù)的Content ID版權(quán)保護系統(tǒng)基礎(chǔ)上又推出了Copyright Match Tool以及內(nèi)容驗證程序(CVP),該兩項服務可以在用戶操作基礎(chǔ)上自動匹配標題、說明等視頻數(shù)據(jù),識別創(chuàng)作侵權(quán)。
3.廣告精準定位及數(shù)據(jù)開放賦能合作者
值得一提的是,YouTube還基于數(shù)據(jù)理解能力不斷賦能合作者。
首先,作為最為重要的合作方之一,廣告主是YouTube數(shù)據(jù)賦能的核心對象。
YouTube廣告投放運作流程簡圖
谷歌在2017年打通廣告數(shù)據(jù)之后一直致力于推動旗下廣告產(chǎn)品的程序化,也使得YouTube廣告資源全面對接至Google Ads平臺。因此,廣告主可以通過Google Ads平臺自動進行YouTube廣告投放。
在這個過程中,YouTube用戶數(shù)據(jù)與內(nèi)容數(shù)據(jù)匯聚至谷歌服務器,并在機器學習技術(shù)對數(shù)據(jù)處理分析之后對YouTube用戶及內(nèi)容做了基本分類,以支持廣告主進行精準定位。
——用戶精準定位方面
YouTube主要以人口屬性定位、興趣定位、生活事件定位(比如想要“搬家”的用戶群體)以及潛在目標群體等對用戶進行大致分類,以便廣告主進行篩選。另外,廣告主還可以根據(jù)前序營銷活動的實際效果決定是否對同一批用戶進行新的營銷投放。
如果廣告主認可這批營銷受眾,那么YouTube還可以利用look alike等技術(shù)幫助廣告主拓展相似目標用戶群體,生成更多的用戶列表。同時,為了進一步保證定位精準,YouTube也支持廣告主上傳用戶群體信息并自定義用戶群體,協(xié)助Google Ads進行用戶群體圈定。
——內(nèi)容精準定位方面
YouTube在YouTube頻道、YouTube視頻以及YouTube頻道組三種內(nèi)容類型中,向廣告主提供內(nèi)容主題以及內(nèi)容關(guān)鍵詞兩種定位選擇。其中內(nèi)容主題主要是指視頻內(nèi)容所屬垂直行業(yè)類型,內(nèi)容關(guān)鍵詞則是與廣告主產(chǎn)品和服務相關(guān)的關(guān)鍵詞與YouTube內(nèi)容的匹配?;诖耍瑥V告主可以將廣告內(nèi)容投放至與之相匹配的YouTube視頻內(nèi)容上,實現(xiàn)精準的內(nèi)容定位。
除了優(yōu)化廣告主服務外,YouTube也在谷歌數(shù)據(jù)開放戰(zhàn)略的推動下建設(shè)了YouTube Data API以及YouTube Analytics and Reporting API等為開發(fā)者提供數(shù)據(jù)開放服務,賦能開發(fā)者推進數(shù)據(jù)研究或AI訓練等方面的進度。
04
理解用戶及內(nèi)容
還需要解決一些問題
由此可見,YouTube基于對用戶和內(nèi)容理解的升級,賦能自身的業(yè)務與服務。但是在這個過程中,YouTube也陷入了一些問題的“泥沼”,主要是數(shù)據(jù)隱私安全以及AI審核弊端問題。
1.理解用戶VS保護隱私數(shù)據(jù)安全
海外對數(shù)據(jù)安全問題尤為重視,而掌握海量數(shù)據(jù)的谷歌經(jīng)常為此登上輿論的“風口浪尖”。
2019年,谷歌就因數(shù)據(jù)隱私問題被法國處以5000萬歐元罰款,成為2018年歐盟《通用數(shù)據(jù)保護條例》生效后開出的首個罰單。而作為谷歌旗下產(chǎn)品的YouTube也難逃被“質(zhì)疑”的命運。調(diào)整與改變勢在必行。
首先谷歌內(nèi)部對用戶數(shù)據(jù)處理措施逐漸趨于嚴格。
上文也談到,谷歌給用戶開放了部分數(shù)據(jù)修改權(quán)限,但是實際上,用戶刪除數(shù)據(jù)后谷歌會將部分有價值的數(shù)據(jù)進行階段性或永久性保存。為了維護這部分數(shù)據(jù)的隱私安全,谷歌通過一些技術(shù)手段進行數(shù)據(jù)脫敏。例如,數(shù)據(jù)泛化技術(shù),即將某些可以與特定人關(guān)聯(lián)起來的數(shù)據(jù)元素移除或使用常見值取而代之;或者向數(shù)據(jù)中添加噪音,影響對用戶隱私行為的判斷等。
其次,由于谷歌部分數(shù)據(jù)會交予人工進行審核,為了防止內(nèi)部員工對用戶敏感數(shù)據(jù)過多接觸,谷歌開始降低人工審核數(shù)據(jù)權(quán)限。
2019年,谷歌降低了人工審核的音頻數(shù)據(jù)審核權(quán)限,內(nèi)部員工所接觸到的語音記錄均是與用戶賬戶無關(guān)的數(shù)據(jù)資料。并且,谷歌對外承諾將“極大地減少被存儲的音頻數(shù)據(jù)量”。由此,谷歌對用戶敏感數(shù)據(jù)的管理愈加嚴格,而作為谷歌旗下產(chǎn)品的YouTube,將同樣受到相關(guān)內(nèi)部規(guī)定的制約。
最后,為保護數(shù)據(jù)安全,谷歌開始對外限制第三方數(shù)據(jù)采集權(quán)限,YouTube也對此推出了相關(guān)舉措,將用戶數(shù)據(jù)管理權(quán)限集中在自己手中。
2017年,谷歌推出Ads Data Hub以支持不使用像素的跨系統(tǒng)廣告系列衡量后,谷歌對第三方數(shù)據(jù)采集權(quán)限開始進行限制。例如,2017年1月,YouTube宣布會限制像素追蹤和cookies采集;2018年YouTube停止支持第三方廣告投放,切斷了第三方的數(shù)據(jù)訪問權(quán)限。
目前,YouTube與Nielsen、ComScore、DoubleVerify等第三方的數(shù)據(jù)合作均已向Ads Data Hub遷移。預計2020年遷移完成后,YouTube將不再支持第三方進行數(shù)據(jù)采集。
由此可見,無論是內(nèi)部數(shù)據(jù)管理趨緊還是削弱外部數(shù)據(jù)權(quán)限,谷歌對用戶數(shù)據(jù)隱私安全是十分重視的,尤其是谷歌限制第三方數(shù)據(jù)權(quán)限,直接增強了谷歌的數(shù)據(jù)管理權(quán)限,對維護用戶數(shù)據(jù)隱私安全更為有利。
2.增強人工審核機制以解決AI審核弊端
如前文所述,谷歌在AI研發(fā)方面投入頗多,并基于YouTube數(shù)據(jù)建立了多個數(shù)據(jù)集以支持視頻理解能力的升級,協(xié)助增強AI審核機制。
但是AI審核也給YouTube帶來了兩個新的問題:一是內(nèi)容推薦系統(tǒng)下用戶看到的內(nèi)容是否合適?二是程序化廣告投放下廣告主的廣告是否出現(xiàn)在合適的視頻內(nèi)容位置?也就是說,內(nèi)容理解的準確性仍然是困擾YouTube的問題之一。
例如,2018年,由于AI對兒童觀看內(nèi)容審核精準性不足,導致YouTube“艾爾莎門”(兒童色情)事件爆發(fā);2019年,YouTube平臺自動刪除了大量格斗機器人比賽視頻,原因是算法檢測到該內(nèi)容對動物施以折磨或強迫動物對抗等……AI審核機制成為YouTube被頻繁質(zhì)疑的核心問題點。
為了解決這一系列問題,YouTube一方面持續(xù)提升AI內(nèi)容識別的準確性,另一方面則宣布增強人工審核團隊進行彌補。2018年,YouTube CEO Susan Wojcicki承諾會雇傭至少一萬名人工審核員,以補足算法的局限。2019年YouTube宣布平臺中的兒童內(nèi)容審核將全面交予人工進行處理。
在這個過程中,谷歌對旗下人工審核團隊的內(nèi)容審核要求進一步提高,強化了對視頻標題和內(nèi)容的評估、分類的精細化程度。
通過部署人工視頻標注系統(tǒng)和評級系統(tǒng),谷歌對視頻內(nèi)容規(guī)劃了多個分類標簽,每個分類標簽下又有多個子標簽。比如,“暴力”分類下包含“恐怖主義”、“戰(zhàn)爭和沖突”、“死亡和悲劇”以及“其他”等分類。嚴格的人工視頻標注體系也在一定程度上彌補了AI審核機制的缺陷?;蛟S隨著谷歌AI對內(nèi)容數(shù)據(jù)處理能力的升級,YouTube在AI審核機制方面將有更進一步的升級。
結(jié)語
在谷歌大數(shù)據(jù)與人工智能的支撐之下,YouTube不斷提升對用戶及內(nèi)容的深層理解,以優(yōu)化自身的運營能力。雖然效果與問題同在,但也我們也有理由相信,隨著谷歌數(shù)據(jù)戰(zhàn)略的調(diào)整以及AI技術(shù)能力的升級,這些問題終有解決的那一天。