YouTube如何利用數(shù)據(jù)智能提升“理解”能力？

來源：騰訊網(wǎng)

作者：騰訊媒體研究院

時(shí)間：2020-07-08

數(shù)據(jù)智能化是傳媒產(chǎn)業(yè)大數(shù)據(jù)技術(shù)十年發(fā)展的新階段與新方向，是媒體大數(shù)據(jù)的原力覺醒。本文是關(guān)于YouTube通過數(shù)據(jù)智能提升“理解”能力的案例剖析

數(shù)據(jù)已經(jīng)成為了媒體機(jī)構(gòu)骨血一般的存在，包容了一切能夠相聯(lián)、互動(dòng)的新技術(shù)，開始進(jìn)入智能化階段。聚焦于傳媒產(chǎn)業(yè)，這種影響尤顯深刻——這是一個(gè)以“看見”、“聽見”的體驗(yàn)為起點(diǎn)的產(chǎn)業(yè)，是一個(gè)以人類信息交流與溝通為起點(diǎn)的產(chǎn)業(yè)，恰好契合我們對(duì)于人工智能“能聽懂”、“能看懂”、“能行動(dòng)”乃至“能思考”的期待。

因此，數(shù)據(jù)智能化是傳媒產(chǎn)業(yè)大數(shù)據(jù)技術(shù)十年發(fā)展的新階段與新方向，是媒體大數(shù)據(jù)的原力覺醒。

本文是關(guān)于YouTube通過數(shù)據(jù)智能提升“理解”能力的案例剖析?？偣舶ㄈ齻€(gè)部分：

1.數(shù)據(jù)智能支持用戶及內(nèi)容理解能力升級(jí)

2.基于理解能力升級(jí)的平臺(tái)服務(wù)優(yōu)化

3.理解用戶及內(nèi)容還需要解決的問題

作為視頻內(nèi)容平臺(tái)，YouTube基于海量?jī)?nèi)容和用戶數(shù)據(jù)，一直致力于解決一個(gè)核心問題：用戶喜歡什么樣的內(nèi)容？2006年被谷歌收購(gòu)之后，YouTube逐漸對(duì)接谷歌大數(shù)據(jù)，對(duì)該問題的理解更為深入。尤其在谷歌AI戰(zhàn)略支持下，YouTube的數(shù)據(jù)體系融入AI基因，從機(jī)器學(xué)習(xí)階段向深度學(xué)習(xí)階段邁進(jìn)。

數(shù)據(jù)智能提升了YouTube對(duì)用戶以及內(nèi)容的理解能力，并持續(xù)支持YouTube平臺(tái)服務(wù)優(yōu)化。谷歌母公司Alphabet財(cái)報(bào)顯示，YouTube2019年全年?duì)I收為151.49億美元，占谷歌業(yè)務(wù)總收入的13.4%，已經(jīng)成為谷歌重要的收入來源。

那么，YouTube在數(shù)據(jù)智能的支持下“理解”能力得到了怎樣的升級(jí)？又是如何賦能業(yè)務(wù)運(yùn)作的呢？

數(shù)據(jù)智能支持用戶

及內(nèi)容理解能力升級(jí)

在谷歌大數(shù)據(jù)和AI體系的雙重支持下，YouTube對(duì)用戶及內(nèi)容的理解能力得到了大幅度的提升。

YouTube的數(shù)據(jù)賦能邏輯

1.機(jī)器理解+用戶參與精準(zhǔn)描繪用戶畫像

2012年，YouTube與谷歌搜索實(shí)現(xiàn)了數(shù)據(jù)對(duì)接，并在隨后被納入谷歌賬號(hào)體系，成為谷歌大數(shù)據(jù)體系的關(guān)鍵組成部分。憑借這一步，YouTube對(duì)用戶的理解能力與谷歌實(shí)現(xiàn)了一致性。具體來說，YouTube對(duì)用戶畫像的描繪主要分為兩個(gè)方式：

一是常規(guī)意義上運(yùn)用機(jī)器學(xué)習(xí)技術(shù)對(duì)用戶數(shù)據(jù)進(jìn)行分析處理，自動(dòng)形成用戶畫像。

從源頭來看，YouTube基于谷歌的強(qiáng)賬號(hào)體系，通過cookie、像素代碼、服務(wù)器日志等常規(guī)意義上的數(shù)據(jù)采集技術(shù)對(duì)用戶數(shù)據(jù)進(jìn)行采集（非賬號(hào)體系下通過唯一標(biāo)識(shí)符采集設(shè)備應(yīng)用數(shù)據(jù)但無法聚焦至個(gè)人），主要分為個(gè)人數(shù)據(jù)、設(shè)備數(shù)據(jù)、活動(dòng)數(shù)據(jù)以及位置數(shù)據(jù)四個(gè)維度。

數(shù)據(jù)上傳至谷歌服務(wù)器并通過后臺(tái)機(jī)器學(xué)習(xí)技術(shù)進(jìn)行分析處理，刻畫用戶畫像。該用戶畫像包括基礎(chǔ)信息、興趣愛好、行為習(xí)慣等在內(nèi)超過60個(gè)標(biāo)簽，每個(gè)標(biāo)簽都詳細(xì)標(biāo)注了形成原因，實(shí)現(xiàn)了對(duì)用戶的基本洞察。

二是開放一定的權(quán)限給用戶進(jìn)行自身標(biāo)簽與畫像的修改。

由于機(jī)器的認(rèn)知缺陷以及用戶行為偏好的不穩(wěn)定性，通過機(jī)器學(xué)習(xí)技術(shù)自動(dòng)描繪的用戶畫像在某些情況下可能失去精準(zhǔn)性。為此，在谷歌政策支持下，YouTube將用戶畫像構(gòu)建及修改的部分權(quán)限給予了用戶，將機(jī)器理解與用戶人為修正相結(jié)合。

一來，用戶可以通過修改數(shù)據(jù)影響機(jī)器學(xué)習(xí)技術(shù)對(duì)用戶畫像的刻畫，包括數(shù)據(jù)采集前對(duì)個(gè)人數(shù)據(jù)、設(shè)備數(shù)據(jù)、位置數(shù)據(jù)等進(jìn)行修改，以及數(shù)據(jù)采集后對(duì)活動(dòng)數(shù)據(jù)（歷史行為數(shù)據(jù)）等進(jìn)行修改。

二來，用戶可以依據(jù)個(gè)人意愿直接修改機(jī)器學(xué)習(xí)技術(shù)所自動(dòng)形成的用戶畫像標(biāo)簽。谷歌在刻畫用戶畫像時(shí)不僅每個(gè)標(biāo)簽都標(biāo)注了形成原因，還增添了“停用”或“啟動(dòng)”功能，較好地尊重了用戶自身的意愿。由此，通過機(jī)器學(xué)習(xí)技術(shù)對(duì)數(shù)據(jù)的自動(dòng)化處理以及用戶對(duì)數(shù)據(jù)或用戶畫像標(biāo)簽的人為干預(yù)，YouTube能夠更加準(zhǔn)確地理解用戶。

文本分析+視頻理解

深入理解內(nèi)容

除了對(duì)用戶的理解，YouTube顯然還需要對(duì)平臺(tái)上海量的內(nèi)容進(jìn)行解讀。與其它視頻平臺(tái)類似，YouTube可以通過機(jī)器學(xué)習(xí)技術(shù)對(duì)視頻基本數(shù)據(jù)進(jìn)行理解，主要包括視頻內(nèi)容數(shù)據(jù)以及視頻表現(xiàn)數(shù)據(jù)兩種類型。

其中，視頻內(nèi)容數(shù)據(jù)主要包括了創(chuàng)作者上傳視頻時(shí)所提供給的視頻標(biāo)題、類型、說明等基本信息，以及經(jīng)過人工審核或機(jī)器學(xué)習(xí)技術(shù)給視頻自動(dòng)標(biāo)注的類型標(biāo)簽；視頻表現(xiàn)數(shù)據(jù)主要包括視頻觀看量、評(píng)論量、轉(zhuǎn)發(fā)量等數(shù)據(jù)。

通過機(jī)器學(xué)習(xí)對(duì)這兩類數(shù)據(jù)的分析和理解，YouTube可以回答兩個(gè)問題：視頻的內(nèi)容是什么？視頻的播放表現(xiàn)怎么樣？相對(duì)來說，回答第二個(gè)問題是更加容易的。

隨著谷歌AI戰(zhàn)略的持續(xù)推進(jìn)，YouTube成為谷歌AI部門DeepMind以及Google AI（原Google Research）進(jìn)行AI研發(fā)訓(xùn)練的視頻數(shù)據(jù)源，也成為了谷歌和YouTube回答第一個(gè)問題的重要基礎(chǔ)。

谷歌AI研究人員基于YouTube視頻內(nèi)容建立了多個(gè)數(shù)據(jù)集，支持了YouTube從文本數(shù)據(jù)分析向視頻畫面以及音頻理解升級(jí)。筆者根據(jù)相關(guān)公開資料統(tǒng)計(jì)發(fā)現(xiàn)，谷歌以YouTube的視頻數(shù)據(jù)為基礎(chǔ)建立了大概6個(gè)數(shù)據(jù)集（部分?jǐn)?shù)據(jù)集下有子數(shù)據(jù)集），分別實(shí)現(xiàn)了對(duì)視頻中的場(chǎng)景、物體、人的行為動(dòng)向、景深、聲音的識(shí)別（詳細(xì)見表格）。

1000 (1).jpg

谷歌AI團(tuán)隊(duì)利用YouTube視頻數(shù)據(jù)生成數(shù)據(jù)集以訓(xùn)練AI進(jìn)行視頻理解

主要包括：識(shí)別視頻所屬垂直場(chǎng)景類別的YouTube 8M及其子數(shù)據(jù)集YouTube 8M segments、識(shí)別視頻中包含的物體類型的YouTube-Bouding Boxes、識(shí)別視頻中人類行為傾向的Kinetics以及AVA Action Datasets（AVA數(shù)據(jù)集的子數(shù)據(jù)集，后與Kinetics交叉形成新數(shù)據(jù)集AVA Kinetic）、識(shí)別視頻景深程度的木頭人視頻數(shù)據(jù)集、以及識(shí)別語(yǔ)音類型及行為聲音的AudioSet及AVA Spoken Activity Datasets（AVA數(shù)據(jù)集的子數(shù)據(jù)集）。

在這些數(shù)據(jù)集的支持下，谷歌AI的視頻理解能力得到大幅度提升，也給了YouTube更強(qiáng)的視頻內(nèi)容理解力，賦能其整體運(yùn)營(yíng)。

基于理解能力升級(jí)

的平臺(tái)服務(wù)優(yōu)化

YouTube在谷歌大數(shù)據(jù)體系及AI技術(shù)支持下，用戶理解及內(nèi)容理解能力不斷增強(qiáng)。在此基礎(chǔ)上，YouTube實(shí)現(xiàn)了對(duì)自身平臺(tái)服務(wù)的優(yōu)化，主要可以分為三個(gè)方面。

1.人工配合AI平臺(tái)內(nèi)容審核機(jī)制加強(qiáng)

早期，人工審核一直是YouTube進(jìn)行內(nèi)容審核的核心方式。

2016年以前，YouTube主要依靠“超級(jí)標(biāo)記者”項(xiàng)目鼓勵(lì)用戶舉報(bào)不當(dāng)內(nèi)容，工作人員再依規(guī)定對(duì)被舉報(bào)內(nèi)容進(jìn)行審核、移除等處理。2016年，YouTube部署了內(nèi)容審核系統(tǒng)，該系統(tǒng)可以初步篩選出歪曲視頻內(nèi)容、含有不當(dāng)語(yǔ)言等違規(guī)問題的視頻標(biāo)題、視頻縮略圖，進(jìn)而減少人工審核的工作量。

但是，由于YouTube視頻數(shù)據(jù)海量，這種機(jī)器輔助的效果仍然有限。這個(gè)問題在2017年時(shí)達(dá)到頂峰——YouTube陷入了恐怖主義、極端主義的“視頻質(zhì)量危機(jī)”，并引發(fā)了谷歌陷入“廣告危機(jī)”。顯然，增強(qiáng)機(jī)器的視頻內(nèi)容理解力，可以在很大程度上解決這個(gè)問題。

所以，當(dāng)AI可以準(zhǔn)確回答“視頻的內(nèi)容是什么”之后，YouTube進(jìn)入了內(nèi)容審核的2.0階段，形成了“人工審核+AI審核”的雙重機(jī)制。

目前，YouTube AI審核能力的提升有賴于兩個(gè)方面：一是人工數(shù)據(jù)訓(xùn)練，人工審核小組對(duì)超過100萬條視頻進(jìn)行審核標(biāo)注并提供給機(jī)器進(jìn)行學(xué)習(xí)應(yīng)用；二是導(dǎo)入AVA數(shù)據(jù)集，通過對(duì)數(shù)據(jù)集中57萬組視頻片段、21萬個(gè)動(dòng)作標(biāo)簽進(jìn)行分析處理，訓(xùn)練識(shí)別能力。監(jiān)督式學(xué)習(xí)與無監(jiān)督式學(xué)習(xí)雙劍合璧，提升AI的視頻內(nèi)容理解力。

2019年，YouTube又上線了名為“垃圾視頻分類器”的審核系統(tǒng)，該系統(tǒng)可以實(shí)現(xiàn)在無人協(xié)助下分析大量視頻片段，解讀令人不適的視頻剪輯，然后從網(wǎng)站主頁(yè)以及應(yīng)用主頁(yè)上屏蔽這些內(nèi)容。

根據(jù)YouTube官方數(shù)據(jù)顯示，2019年第一季度，YouTube約有830萬個(gè)視頻被刪除，其中76%是人工智能自動(dòng)識(shí)別和標(biāo)記的。這些被刪除的視頻中，有70%以上從未被用戶觀看過。另外，2020年疫情蔓延的情況下，YouTube更是宣布加大對(duì)AI審核機(jī)制的依賴程度，以減輕人工壓力?？梢?，AI審核機(jī)制已經(jīng)在YouTube平臺(tái)運(yùn)營(yíng)中發(fā)揮關(guān)鍵作用。

2.內(nèi)容推薦與創(chuàng)作服務(wù)用戶使用體驗(yàn)提升

理解用戶和內(nèi)容成為了YouTube實(shí)現(xiàn)智能推薦、提升用戶體驗(yàn)與用戶粘度的重要基礎(chǔ)。首先，YouTube將用戶分為了“觀眾”及“創(chuàng)作者”，其理解與服務(wù)也有相應(yīng)的區(qū)別。

針對(duì)觀眾型用戶，個(gè)性化推薦成為YouTube的重要發(fā)力方向。

實(shí)際上，YouTube一直以其強(qiáng)大的內(nèi)容推薦系統(tǒng)所著名，該系統(tǒng)所解決的核心問題有兩個(gè)：一是相似視頻關(guān)聯(lián)問題；二是視頻推薦排序問題。其中必然涉及到的是對(duì)用戶行為數(shù)據(jù)以及視頻內(nèi)容數(shù)據(jù)的解讀分析。

1000 (2).jpg

YouTube推薦系統(tǒng)演變過程（摘取部分關(guān)鍵信息）

隨著2015年內(nèi)容推薦系統(tǒng)對(duì)接Google Brain，推薦能力融入深度學(xué)習(xí)技術(shù)，促進(jìn)了YouTube推薦算法的升級(jí)。YouTube的推薦系統(tǒng)算法由兩個(gè)神經(jīng)網(wǎng)絡(luò)組成：候選集生成（candidate generation）和排序過濾（ranking）。利用內(nèi)容過濾和協(xié)同過濾，YouTube解決了從百萬級(jí)別的視頻庫(kù)中初步篩選百級(jí)別的數(shù)據(jù)。

之后，再使用設(shè)計(jì)好的目標(biāo)函數(shù)為每個(gè)視頻進(jìn)行打分，視頻按得分的多少依次按照優(yōu)先級(jí)呈現(xiàn)給用戶。在YouTube推薦系統(tǒng)中，在推薦視頻的優(yōu)先級(jí)排序考量上對(duì)于“視頻觀看時(shí)間”的因素看重遠(yuǎn)大于“視頻點(diǎn)擊率”。同時(shí)，隨著谷歌將部分?jǐn)?shù)據(jù)權(quán)限歸還給用戶，觀眾可以修改后臺(tái)歷史數(shù)據(jù)，影響推薦系統(tǒng)對(duì)歷史行為數(shù)據(jù)的分析，進(jìn)而影響推薦內(nèi)容的精準(zhǔn)性。

對(duì)用戶數(shù)據(jù)及內(nèi)容數(shù)據(jù)處理能力的升級(jí)，使得YouTube有了更強(qiáng)大、精準(zhǔn)的個(gè)性化推薦服務(wù)。

針對(duì)創(chuàng)作者型用戶，YouTube則著力提供更有效的數(shù)據(jù)工具產(chǎn)品。

——內(nèi)容創(chuàng)作工具

例如，YouTube在海量圖像數(shù)據(jù)標(biāo)注基礎(chǔ)上訓(xùn)練視頻分割技術(shù)，為創(chuàng)作者推出了自動(dòng)更換背景的視頻拍攝應(yīng)用。

——內(nèi)容表現(xiàn)分析工具

得益于YouTube對(duì)用戶行為表現(xiàn)及內(nèi)容表現(xiàn)的追蹤及數(shù)據(jù)采集，整合了YouTube Data、YouTube Analystics以及YouTube Reporting三大模塊的YouTube Studio在2017年上線，提供給創(chuàng)作者頻道內(nèi)容表現(xiàn)及流量收入可視化分析服務(wù)。

——內(nèi)容版權(quán)保護(hù)工具

YouTube在以熱圖對(duì)比為核心內(nèi)容數(shù)據(jù)處理技術(shù)的Content ID版權(quán)保護(hù)系統(tǒng)基礎(chǔ)上又推出了Copyright Match Tool以及內(nèi)容驗(yàn)證程序(CVP)，該兩項(xiàng)服務(wù)可以在用戶操作基礎(chǔ)上自動(dòng)匹配標(biāo)題、說明等視頻數(shù)據(jù)，識(shí)別創(chuàng)作侵權(quán)。

3.廣告精準(zhǔn)定位及數(shù)據(jù)開放賦能合作者

值得一提的是，YouTube還基于數(shù)據(jù)理解能力不斷賦能合作者。

首先，作為最為重要的合作方之一，廣告主是YouTube數(shù)據(jù)賦能的核心對(duì)象。

YouTube廣告投放運(yùn)作流程簡(jiǎn)圖

谷歌在2017年打通廣告數(shù)據(jù)之后一直致力于推動(dòng)旗下廣告產(chǎn)品的程序化，也使得YouTube廣告資源全面對(duì)接至Google Ads平臺(tái)。因此，廣告主可以通過Google Ads平臺(tái)自動(dòng)進(jìn)行YouTube廣告投放。

在這個(gè)過程中，YouTube用戶數(shù)據(jù)與內(nèi)容數(shù)據(jù)匯聚至谷歌服務(wù)器，并在機(jī)器學(xué)習(xí)技術(shù)對(duì)數(shù)據(jù)處理分析之后對(duì)YouTube用戶及內(nèi)容做了基本分類，以支持廣告主進(jìn)行精準(zhǔn)定位。

——用戶精準(zhǔn)定位方面

YouTube主要以人口屬性定位、興趣定位、生活事件定位（比如想要“搬家”的用戶群體）以及潛在目標(biāo)群體等對(duì)用戶進(jìn)行大致分類，以便廣告主進(jìn)行篩選。另外，廣告主還可以根據(jù)前序營(yíng)銷活動(dòng)的實(shí)際效果決定是否對(duì)同一批用戶進(jìn)行新的營(yíng)銷投放。

如果廣告主認(rèn)可這批營(yíng)銷受眾，那么YouTube還可以利用look alike等技術(shù)幫助廣告主拓展相似目標(biāo)用戶群體，生成更多的用戶列表。同時(shí)，為了進(jìn)一步保證定位精準(zhǔn)，YouTube也支持廣告主上傳用戶群體信息并自定義用戶群體，協(xié)助Google Ads進(jìn)行用戶群體圈定。

——內(nèi)容精準(zhǔn)定位方面

YouTube在YouTube頻道、YouTube視頻以及YouTube頻道組三種內(nèi)容類型中，向廣告主提供內(nèi)容主題以及內(nèi)容關(guān)鍵詞兩種定位選擇。其中內(nèi)容主題主要是指視頻內(nèi)容所屬垂直行業(yè)類型，內(nèi)容關(guān)鍵詞則是與廣告主產(chǎn)品和服務(wù)相關(guān)的關(guān)鍵詞與YouTube內(nèi)容的匹配?；诖?，廣告主可以將廣告內(nèi)容投放至與之相匹配的YouTube視頻內(nèi)容上，實(shí)現(xiàn)精準(zhǔn)的內(nèi)容定位。

除了優(yōu)化廣告主服務(wù)外，YouTube也在谷歌數(shù)據(jù)開放戰(zhàn)略的推動(dòng)下建設(shè)了YouTube Data API以及YouTube Analytics and Reporting API等為開發(fā)者提供數(shù)據(jù)開放服務(wù)，賦能開發(fā)者推進(jìn)數(shù)據(jù)研究或AI訓(xùn)練等方面的進(jìn)度。

理解用戶及內(nèi)容

還需要解決一些問題

由此可見，YouTube基于對(duì)用戶和內(nèi)容理解的升級(jí)，賦能自身的業(yè)務(wù)與服務(wù)。但是在這個(gè)過程中，YouTube也陷入了一些問題的“泥沼”，主要是數(shù)據(jù)隱私安全以及AI審核弊端問題。

1.理解用戶VS保護(hù)隱私數(shù)據(jù)安全

海外對(duì)數(shù)據(jù)安全問題尤為重視，而掌握海量數(shù)據(jù)的谷歌經(jīng)常為此登上輿論的“風(fēng)口浪尖”。

2019年，谷歌就因數(shù)據(jù)隱私問題被法國(guó)處以5000萬歐元罰款，成為2018年歐盟《通用數(shù)據(jù)保護(hù)條例》生效后開出的首個(gè)罰單。而作為谷歌旗下產(chǎn)品的YouTube也難逃被“質(zhì)疑”的命運(yùn)。調(diào)整與改變勢(shì)在必行。

首先谷歌內(nèi)部對(duì)用戶數(shù)據(jù)處理措施逐漸趨于嚴(yán)格。

上文也談到，谷歌給用戶開放了部分?jǐn)?shù)據(jù)修改權(quán)限，但是實(shí)際上，用戶刪除數(shù)據(jù)后谷歌會(huì)將部分有價(jià)值的數(shù)據(jù)進(jìn)行階段性或永久性保存。為了維護(hù)這部分?jǐn)?shù)據(jù)的隱私安全，谷歌通過一些技術(shù)手段進(jìn)行數(shù)據(jù)脫敏。例如，數(shù)據(jù)泛化技術(shù)，即將某些可以與特定人關(guān)聯(lián)起來的數(shù)據(jù)元素移除或使用常見值取而代之；或者向數(shù)據(jù)中添加噪音，影響對(duì)用戶隱私行為的判斷等。

其次，由于谷歌部分?jǐn)?shù)據(jù)會(huì)交予人工進(jìn)行審核，為了防止內(nèi)部員工對(duì)用戶敏感數(shù)據(jù)過多接觸，谷歌開始降低人工審核數(shù)據(jù)權(quán)限。

2019年，谷歌降低了人工審核的音頻數(shù)據(jù)審核權(quán)限，內(nèi)部員工所接觸到的語(yǔ)音記錄均是與用戶賬戶無關(guān)的數(shù)據(jù)資料。并且，谷歌對(duì)外承諾將“極大地減少被存儲(chǔ)的音頻數(shù)據(jù)量”。由此，谷歌對(duì)用戶敏感數(shù)據(jù)的管理愈加嚴(yán)格，而作為谷歌旗下產(chǎn)品的YouTube，將同樣受到相關(guān)內(nèi)部規(guī)定的制約。

最后，為保護(hù)數(shù)據(jù)安全，谷歌開始對(duì)外限制第三方數(shù)據(jù)采集權(quán)限，YouTube也對(duì)此推出了相關(guān)舉措，將用戶數(shù)據(jù)管理權(quán)限集中在自己手中。

2017年，谷歌推出Ads Data Hub以支持不使用像素的跨系統(tǒng)廣告系列衡量后，谷歌對(duì)第三方數(shù)據(jù)采集權(quán)限開始進(jìn)行限制。例如，2017年1月，YouTube宣布會(huì)限制像素追蹤和cookies采集；2018年YouTube停止支持第三方廣告投放，切斷了第三方的數(shù)據(jù)訪問權(quán)限。

目前，YouTube與Nielsen、ComScore、DoubleVerify等第三方的數(shù)據(jù)合作均已向Ads Data Hub遷移。預(yù)計(jì)2020年遷移完成后，YouTube將不再支持第三方進(jìn)行數(shù)據(jù)采集。

由此可見，無論是內(nèi)部數(shù)據(jù)管理趨緊還是削弱外部數(shù)據(jù)權(quán)限，谷歌對(duì)用戶數(shù)據(jù)隱私安全是十分重視的，尤其是谷歌限制第三方數(shù)據(jù)權(quán)限，直接增強(qiáng)了谷歌的數(shù)據(jù)管理權(quán)限，對(duì)維護(hù)用戶數(shù)據(jù)隱私安全更為有利。

2.增強(qiáng)人工審核機(jī)制以解決AI審核弊端

如前文所述，谷歌在AI研發(fā)方面投入頗多，并基于YouTube數(shù)據(jù)建立了多個(gè)數(shù)據(jù)集以支持視頻理解能力的升級(jí)，協(xié)助增強(qiáng)AI審核機(jī)制。

但是AI審核也給YouTube帶來了兩個(gè)新的問題：一是內(nèi)容推薦系統(tǒng)下用戶看到的內(nèi)容是否合適？二是程序化廣告投放下廣告主的廣告是否出現(xiàn)在合適的視頻內(nèi)容位置？也就是說，內(nèi)容理解的準(zhǔn)確性仍然是困擾YouTube的問題之一。

例如，2018年，由于AI對(duì)兒童觀看內(nèi)容審核精準(zhǔn)性不足，導(dǎo)致YouTube“艾爾莎門”（兒童色情）事件爆發(fā)；2019年，YouTube平臺(tái)自動(dòng)刪除了大量格斗機(jī)器人比賽視頻，原因是算法檢測(cè)到該內(nèi)容對(duì)動(dòng)物施以折磨或強(qiáng)迫動(dòng)物對(duì)抗等……AI審核機(jī)制成為YouTube被頻繁質(zhì)疑的核心問題點(diǎn)。

為了解決這一系列問題，YouTube一方面持續(xù)提升AI內(nèi)容識(shí)別的準(zhǔn)確性，另一方面則宣布增強(qiáng)人工審核團(tuán)隊(duì)進(jìn)行彌補(bǔ)。2018年，YouTube CEO Susan Wojcicki承諾會(huì)雇傭至少一萬名人工審核員，以補(bǔ)足算法的局限。2019年YouTube宣布平臺(tái)中的兒童內(nèi)容審核將全面交予人工進(jìn)行處理。

在這個(gè)過程中，谷歌對(duì)旗下人工審核團(tuán)隊(duì)的內(nèi)容審核要求進(jìn)一步提高，強(qiáng)化了對(duì)視頻標(biāo)題和內(nèi)容的評(píng)估、分類的精細(xì)化程度。

通過部署人工視頻標(biāo)注系統(tǒng)和評(píng)級(jí)系統(tǒng)，谷歌對(duì)視頻內(nèi)容規(guī)劃了多個(gè)分類標(biāo)簽，每個(gè)分類標(biāo)簽下又有多個(gè)子標(biāo)簽。比如，“暴力”分類下包含“恐怖主義”、“戰(zhàn)爭(zhēng)和沖突”、“死亡和悲劇”以及“其他”等分類。嚴(yán)格的人工視頻標(biāo)注體系也在一定程度上彌補(bǔ)了AI審核機(jī)制的缺陷?；蛟S隨著谷歌AI對(duì)內(nèi)容數(shù)據(jù)處理能力的升級(jí)，YouTube在AI審核機(jī)制方面將有更進(jìn)一步的升級(jí)。

結(jié)語(yǔ)

在谷歌大數(shù)據(jù)與人工智能的支撐之下，YouTube不斷提升對(duì)用戶及內(nèi)容的深層理解，以優(yōu)化自身的運(yùn)營(yíng)能力。雖然效果與問題同在，但也我們也有理由相信，隨著谷歌數(shù)據(jù)戰(zhàn)略的調(diào)整以及AI技術(shù)能力的升級(jí)，這些問題終有解決的那一天。

AI YouTube 谷歌

上一篇：安兔兔又遭禁令被Google Play Protect視為間諜軟件

原文鏈接：點(diǎn)擊前往 >

版權(quán)說明：本文內(nèi)容來自于騰訊網(wǎng)，本站不擁有所有權(quán)，不承擔(dān)相關(guān)法律責(zé)任。文章內(nèi)容系作者個(gè)人觀點(diǎn)，不代表快出海對(duì)觀點(diǎn)贊同或支持。如有侵權(quán)，請(qǐng)聯(lián)系管理員（zzx@kchuhai.com）刪除！

相關(guān)文章