YouTube如何利用數(shù)據(jù)智能提升“理解”能力?

來(lái)源:騰訊網(wǎng)
作者:騰訊媒體研究院
時(shí)間:2020-07-08
3190
數(shù)據(jù)智能化是傳媒產(chǎn)業(yè)大數(shù)據(jù)技術(shù)十年發(fā)展的新階段與新方向,是媒體大數(shù)據(jù)的原力覺(jué)醒。本文是關(guān)于YouTube通過(guò)數(shù)據(jù)智能提升“理解”能力的案例剖析

數(shù)據(jù)已經(jīng)成為了媒體機(jī)構(gòu)骨血一般的存在,包容了一切能夠相聯(lián)、互動(dòng)的新技術(shù),開(kāi)始進(jìn)入智能化階段。聚焦于傳媒產(chǎn)業(yè),這種影響尤顯深刻——這是一個(gè)以“看見(jiàn)”、“聽(tīng)見(jiàn)”的體驗(yàn)為起點(diǎn)的產(chǎn)業(yè),是一個(gè)以人類(lèi)信息交流與溝通為起點(diǎn)的產(chǎn)業(yè),恰好契合我們對(duì)于人工智能“能聽(tīng)懂”、“能看懂”、“能行動(dòng)”乃至“能思考”的期待。

因此,數(shù)據(jù)智能化是傳媒產(chǎn)業(yè)大數(shù)據(jù)技術(shù)十年發(fā)展的新階段與新方向,是媒體大數(shù)據(jù)的原力覺(jué)醒。

本文是關(guān)于YouTube通過(guò)數(shù)據(jù)智能提升“理解”能力的案例剖析??偣舶ㄈ齻€(gè)部分:

1.數(shù)據(jù)智能支持用戶(hù)及內(nèi)容理解能力升級(jí)

2.基于理解能力升級(jí)的平臺(tái)服務(wù)優(yōu)化

3.理解用戶(hù)及內(nèi)容還需要解決的問(wèn)題

1000.jpg

作為視頻內(nèi)容平臺(tái),YouTube基于海量?jī)?nèi)容和用戶(hù)數(shù)據(jù),一直致力于解決一個(gè)核心問(wèn)題:用戶(hù)喜歡什么樣的內(nèi)容?2006年被谷歌收購(gòu)之后,YouTube逐漸對(duì)接谷歌大數(shù)據(jù),對(duì)該問(wèn)題的理解更為深入。尤其在谷歌AI戰(zhàn)略支持下,YouTube的數(shù)據(jù)體系融入AI基因,從機(jī)器學(xué)習(xí)階段向深度學(xué)習(xí)階段邁進(jìn)。

數(shù)據(jù)智能提升了YouTube對(duì)用戶(hù)以及內(nèi)容的理解能力,并持續(xù)支持YouTube平臺(tái)服務(wù)優(yōu)化。谷歌母公司Alphabet財(cái)報(bào)顯示,YouTube2019年全年?duì)I收為151.49億美元,占谷歌業(yè)務(wù)總收入的13.4%,已經(jīng)成為谷歌重要的收入來(lái)源。

那么,YouTube在數(shù)據(jù)智能的支持下“理解”能力得到了怎樣的升級(jí)?又是如何賦能業(yè)務(wù)運(yùn)作的呢?

01

數(shù)據(jù)智能支持用戶(hù)

及內(nèi)容理解能力升級(jí)

在谷歌大數(shù)據(jù)和AI體系的雙重支持下,YouTube對(duì)用戶(hù)及內(nèi)容的理解能力得到了大幅度的提升。

1000.jpg

YouTube的數(shù)據(jù)賦能邏輯

1.機(jī)器理解+用戶(hù)參與精準(zhǔn)描繪用戶(hù)畫(huà)像

2012年,YouTube與谷歌搜索實(shí)現(xiàn)了數(shù)據(jù)對(duì)接,并在隨后被納入谷歌賬號(hào)體系,成為谷歌大數(shù)據(jù)體系的關(guān)鍵組成部分。憑借這一步,YouTube對(duì)用戶(hù)的理解能力與谷歌實(shí)現(xiàn)了一致性。具體來(lái)說(shuō),YouTube對(duì)用戶(hù)畫(huà)像的描繪主要分為兩個(gè)方式:

一是常規(guī)意義上運(yùn)用機(jī)器學(xué)習(xí)技術(shù)對(duì)用戶(hù)數(shù)據(jù)進(jìn)行分析處理,自動(dòng)形成用戶(hù)畫(huà)像。

從源頭來(lái)看,YouTube基于谷歌的強(qiáng)賬號(hào)體系,通過(guò)cookie、像素代碼、服務(wù)器日志等常規(guī)意義上的數(shù)據(jù)采集技術(shù)對(duì)用戶(hù)數(shù)據(jù)進(jìn)行采集(非賬號(hào)體系下通過(guò)唯一標(biāo)識(shí)符采集設(shè)備應(yīng)用數(shù)據(jù)但無(wú)法聚焦至個(gè)人),主要分為個(gè)人數(shù)據(jù)、設(shè)備數(shù)據(jù)、活動(dòng)數(shù)據(jù)以及位置數(shù)據(jù)四個(gè)維度。

數(shù)據(jù)上傳至谷歌服務(wù)器并通過(guò)后臺(tái)機(jī)器學(xué)習(xí)技術(shù)進(jìn)行分析處理,刻畫(huà)用戶(hù)畫(huà)像。該用戶(hù)畫(huà)像包括基礎(chǔ)信息、興趣愛(ài)好、行為習(xí)慣等在內(nèi)超過(guò)60個(gè)標(biāo)簽,每個(gè)標(biāo)簽都詳細(xì)標(biāo)注了形成原因,實(shí)現(xiàn)了對(duì)用戶(hù)的基本洞察。

二是開(kāi)放一定的權(quán)限給用戶(hù)進(jìn)行自身標(biāo)簽與畫(huà)像的修改。

由于機(jī)器的認(rèn)知缺陷以及用戶(hù)行為偏好的不穩(wěn)定性,通過(guò)機(jī)器學(xué)習(xí)技術(shù)自動(dòng)描繪的用戶(hù)畫(huà)像在某些情況下可能失去精準(zhǔn)性。為此,在谷歌政策支持下,YouTube將用戶(hù)畫(huà)像構(gòu)建及修改的部分權(quán)限給予了用戶(hù),將機(jī)器理解與用戶(hù)人為修正相結(jié)合。

一來(lái),用戶(hù)可以通過(guò)修改數(shù)據(jù)影響機(jī)器學(xué)習(xí)技術(shù)對(duì)用戶(hù)畫(huà)像的刻畫(huà),包括數(shù)據(jù)采集前對(duì)個(gè)人數(shù)據(jù)、設(shè)備數(shù)據(jù)、位置數(shù)據(jù)等進(jìn)行修改,以及數(shù)據(jù)采集后對(duì)活動(dòng)數(shù)據(jù)(歷史行為數(shù)據(jù))等進(jìn)行修改。

二來(lái),用戶(hù)可以依據(jù)個(gè)人意愿直接修改機(jī)器學(xué)習(xí)技術(shù)所自動(dòng)形成的用戶(hù)畫(huà)像標(biāo)簽。谷歌在刻畫(huà)用戶(hù)畫(huà)像時(shí)不僅每個(gè)標(biāo)簽都標(biāo)注了形成原因,還增添了“停用”或“啟動(dòng)”功能,較好地尊重了用戶(hù)自身的意愿。由此,通過(guò)機(jī)器學(xué)習(xí)技術(shù)對(duì)數(shù)據(jù)的自動(dòng)化處理以及用戶(hù)對(duì)數(shù)據(jù)或用戶(hù)畫(huà)像標(biāo)簽的人為干預(yù),YouTube能夠更加準(zhǔn)確地理解用戶(hù)。

02

文本分析+視頻理解

深入理解內(nèi)容

除了對(duì)用戶(hù)的理解,YouTube顯然還需要對(duì)平臺(tái)上海量的內(nèi)容進(jìn)行解讀。與其它視頻平臺(tái)類(lèi)似,YouTube可以通過(guò)機(jī)器學(xué)習(xí)技術(shù)對(duì)視頻基本數(shù)據(jù)進(jìn)行理解,主要包括視頻內(nèi)容數(shù)據(jù)以及視頻表現(xiàn)數(shù)據(jù)兩種類(lèi)型。

其中,視頻內(nèi)容數(shù)據(jù)主要包括了創(chuàng)作者上傳視頻時(shí)所提供給的視頻標(biāo)題、類(lèi)型、說(shuō)明等基本信息,以及經(jīng)過(guò)人工審核或機(jī)器學(xué)習(xí)技術(shù)給視頻自動(dòng)標(biāo)注的類(lèi)型標(biāo)簽;視頻表現(xiàn)數(shù)據(jù)主要包括視頻觀看量、評(píng)論量、轉(zhuǎn)發(fā)量等數(shù)據(jù)。

通過(guò)機(jī)器學(xué)習(xí)對(duì)這兩類(lèi)數(shù)據(jù)的分析和理解,YouTube可以回答兩個(gè)問(wèn)題:視頻的內(nèi)容是什么?視頻的播放表現(xiàn)怎么樣?相對(duì)來(lái)說(shuō),回答第二個(gè)問(wèn)題是更加容易的。

隨著谷歌AI戰(zhàn)略的持續(xù)推進(jìn),YouTube成為谷歌AI部門(mén)DeepMind以及Google AI(原Google Research)進(jìn)行AI研發(fā)訓(xùn)練的視頻數(shù)據(jù)源,也成為了谷歌和YouTube回答第一個(gè)問(wèn)題的重要基礎(chǔ)。

谷歌AI研究人員基于YouTube視頻內(nèi)容建立了多個(gè)數(shù)據(jù)集,支持了YouTube從文本數(shù)據(jù)分析向視頻畫(huà)面以及音頻理解升級(jí)。筆者根據(jù)相關(guān)公開(kāi)資料統(tǒng)計(jì)發(fā)現(xiàn),谷歌以YouTube的視頻數(shù)據(jù)為基礎(chǔ)建立了大概6個(gè)數(shù)據(jù)集(部分?jǐn)?shù)據(jù)集下有子數(shù)據(jù)集),分別實(shí)現(xiàn)了對(duì)視頻中的場(chǎng)景、物體、人的行為動(dòng)向、景深、聲音的識(shí)別(詳細(xì)見(jiàn)表格)。

1000 (1).jpg

谷歌AI團(tuán)隊(duì)利用YouTube視頻數(shù)據(jù)生成數(shù)據(jù)集以訓(xùn)練AI進(jìn)行視頻理解

主要包括:識(shí)別視頻所屬垂直場(chǎng)景類(lèi)別的YouTube 8M及其子數(shù)據(jù)集YouTube 8M segments、識(shí)別視頻中包含的物體類(lèi)型的YouTube-Bouding Boxes、識(shí)別視頻中人類(lèi)行為傾向的Kinetics以及AVA Action Datasets(AVA數(shù)據(jù)集的子數(shù)據(jù)集,后與Kinetics交叉形成新數(shù)據(jù)集AVA Kinetic)、識(shí)別視頻景深程度的木頭人視頻數(shù)據(jù)集、以及識(shí)別語(yǔ)音類(lèi)型及行為聲音的AudioSet及AVA Spoken Activity Datasets(AVA數(shù)據(jù)集的子數(shù)據(jù)集)。

在這些數(shù)據(jù)集的支持下,谷歌AI的視頻理解能力得到大幅度提升,也給了YouTube更強(qiáng)的視頻內(nèi)容理解力,賦能其整體運(yùn)營(yíng)。

03

基于理解能力升級(jí)

的平臺(tái)服務(wù)優(yōu)化

YouTube在谷歌大數(shù)據(jù)體系及AI技術(shù)支持下,用戶(hù)理解及內(nèi)容理解能力不斷增強(qiáng)。在此基礎(chǔ)上,YouTube實(shí)現(xiàn)了對(duì)自身平臺(tái)服務(wù)的優(yōu)化,主要可以分為三個(gè)方面。

1.人工配合AI平臺(tái)內(nèi)容審核機(jī)制加強(qiáng)

早期,人工審核一直是YouTube進(jìn)行內(nèi)容審核的核心方式。

2016年以前,YouTube主要依靠“超級(jí)標(biāo)記者”項(xiàng)目鼓勵(lì)用戶(hù)舉報(bào)不當(dāng)內(nèi)容,工作人員再依規(guī)定對(duì)被舉報(bào)內(nèi)容進(jìn)行審核、移除等處理。2016年,YouTube部署了內(nèi)容審核系統(tǒng),該系統(tǒng)可以初步篩選出歪曲視頻內(nèi)容、含有不當(dāng)語(yǔ)言等違規(guī)問(wèn)題的視頻標(biāo)題、視頻縮略圖,進(jìn)而減少人工審核的工作量。

但是,由于YouTube視頻數(shù)據(jù)海量,這種機(jī)器輔助的效果仍然有限。這個(gè)問(wèn)題在2017年時(shí)達(dá)到頂峰——YouTube陷入了恐怖主義、極端主義的“視頻質(zhì)量危機(jī)”,并引發(fā)了谷歌陷入“廣告危機(jī)”。顯然,增強(qiáng)機(jī)器的視頻內(nèi)容理解力,可以在很大程度上解決這個(gè)問(wèn)題。

所以,當(dāng)AI可以準(zhǔn)確回答“視頻的內(nèi)容是什么”之后,YouTube進(jìn)入了內(nèi)容審核的2.0階段,形成了“人工審核+AI審核”的雙重機(jī)制。

目前,YouTube AI審核能力的提升有賴(lài)于兩個(gè)方面:一是人工數(shù)據(jù)訓(xùn)練,人工審核小組對(duì)超過(guò)100萬(wàn)條視頻進(jìn)行審核標(biāo)注并提供給機(jī)器進(jìn)行學(xué)習(xí)應(yīng)用;二是導(dǎo)入AVA數(shù)據(jù)集,通過(guò)對(duì)數(shù)據(jù)集中57萬(wàn)組視頻片段、21萬(wàn)個(gè)動(dòng)作標(biāo)簽進(jìn)行分析處理,訓(xùn)練識(shí)別能力。監(jiān)督式學(xué)習(xí)與無(wú)監(jiān)督式學(xué)習(xí)雙劍合璧,提升AI的視頻內(nèi)容理解力。

2019年,YouTube又上線(xiàn)了名為“垃圾視頻分類(lèi)器”的審核系統(tǒng),該系統(tǒng)可以實(shí)現(xiàn)在無(wú)人協(xié)助下分析大量視頻片段,解讀令人不適的視頻剪輯,然后從網(wǎng)站主頁(yè)以及應(yīng)用主頁(yè)上屏蔽這些內(nèi)容。

根據(jù)YouTube官方數(shù)據(jù)顯示,2019年第一季度,YouTube約有830萬(wàn)個(gè)視頻被刪除,其中76%是人工智能自動(dòng)識(shí)別和標(biāo)記的。這些被刪除的視頻中,有70%以上從未被用戶(hù)觀看過(guò)。另外,2020年疫情蔓延的情況下,YouTube更是宣布加大對(duì)AI審核機(jī)制的依賴(lài)程度,以減輕人工壓力。可見(jiàn),AI審核機(jī)制已經(jīng)在YouTube平臺(tái)運(yùn)營(yíng)中發(fā)揮關(guān)鍵作用。

2.內(nèi)容推薦與創(chuàng)作服務(wù)用戶(hù)使用體驗(yàn)提升

理解用戶(hù)和內(nèi)容成為了YouTube實(shí)現(xiàn)智能推薦、提升用戶(hù)體驗(yàn)與用戶(hù)粘度的重要基礎(chǔ)。首先,YouTube將用戶(hù)分為了“觀眾”及“創(chuàng)作者”,其理解與服務(wù)也有相應(yīng)的區(qū)別。

針對(duì)觀眾型用戶(hù),個(gè)性化推薦成為YouTube的重要發(fā)力方向。

實(shí)際上,YouTube一直以其強(qiáng)大的內(nèi)容推薦系統(tǒng)所著名,該系統(tǒng)所解決的核心問(wèn)題有兩個(gè):一是相似視頻關(guān)聯(lián)問(wèn)題;二是視頻推薦排序問(wèn)題。其中必然涉及到的是對(duì)用戶(hù)行為數(shù)據(jù)以及視頻內(nèi)容數(shù)據(jù)的解讀分析。

1000 (2).jpg

YouTube推薦系統(tǒng)演變過(guò)程(摘取部分關(guān)鍵信息)

隨著2015年內(nèi)容推薦系統(tǒng)對(duì)接Google Brain,推薦能力融入深度學(xué)習(xí)技術(shù),促進(jìn)了YouTube推薦算法的升級(jí)。YouTube的推薦系統(tǒng)算法由兩個(gè)神經(jīng)網(wǎng)絡(luò)組成:候選集生成(candidate generation)和排序過(guò)濾(ranking)。利用內(nèi)容過(guò)濾和協(xié)同過(guò)濾,YouTube解決了從百萬(wàn)級(jí)別的視頻庫(kù)中初步篩選百級(jí)別的數(shù)據(jù)。

之后,再使用設(shè)計(jì)好的目標(biāo)函數(shù)為每個(gè)視頻進(jìn)行打分,視頻按得分的多少依次按照優(yōu)先級(jí)呈現(xiàn)給用戶(hù)。在YouTube推薦系統(tǒng)中,在推薦視頻的優(yōu)先級(jí)排序考量上對(duì)于“視頻觀看時(shí)間”的因素看重遠(yuǎn)大于“視頻點(diǎn)擊率”。同時(shí),隨著谷歌將部分?jǐn)?shù)據(jù)權(quán)限歸還給用戶(hù),觀眾可以修改后臺(tái)歷史數(shù)據(jù),影響推薦系統(tǒng)對(duì)歷史行為數(shù)據(jù)的分析,進(jìn)而影響推薦內(nèi)容的精準(zhǔn)性。

對(duì)用戶(hù)數(shù)據(jù)及內(nèi)容數(shù)據(jù)處理能力的升級(jí),使得YouTube有了更強(qiáng)大、精準(zhǔn)的個(gè)性化推薦服務(wù)。

針對(duì)創(chuàng)作者型用戶(hù),YouTube則著力提供更有效的數(shù)據(jù)工具產(chǎn)品。

——內(nèi)容創(chuàng)作工具

例如,YouTube在海量圖像數(shù)據(jù)標(biāo)注基礎(chǔ)上訓(xùn)練視頻分割技術(shù),為創(chuàng)作者推出了自動(dòng)更換背景的視頻拍攝應(yīng)用。

——內(nèi)容表現(xiàn)分析工具

得益于YouTube對(duì)用戶(hù)行為表現(xiàn)及內(nèi)容表現(xiàn)的追蹤及數(shù)據(jù)采集,整合了YouTube Data、YouTube Analystics以及YouTube Reporting三大模塊的YouTube Studio在2017年上線(xiàn),提供給創(chuàng)作者頻道內(nèi)容表現(xiàn)及流量收入可視化分析服務(wù)。

——內(nèi)容版權(quán)保護(hù)工具

YouTube在以熱圖對(duì)比為核心內(nèi)容數(shù)據(jù)處理技術(shù)的Content ID版權(quán)保護(hù)系統(tǒng)基礎(chǔ)上又推出了Copyright Match Tool以及內(nèi)容驗(yàn)證程序(CVP),該兩項(xiàng)服務(wù)可以在用戶(hù)操作基礎(chǔ)上自動(dòng)匹配標(biāo)題、說(shuō)明等視頻數(shù)據(jù),識(shí)別創(chuàng)作侵權(quán)。

3.廣告精準(zhǔn)定位及數(shù)據(jù)開(kāi)放賦能合作者

值得一提的是,YouTube還基于數(shù)據(jù)理解能力不斷賦能合作者。

首先,作為最為重要的合作方之一,廣告主是YouTube數(shù)據(jù)賦能的核心對(duì)象。

1000 (3).jpg

YouTube廣告投放運(yùn)作流程簡(jiǎn)圖

谷歌在2017年打通廣告數(shù)據(jù)之后一直致力于推動(dòng)旗下廣告產(chǎn)品的程序化,也使得YouTube廣告資源全面對(duì)接至Google Ads平臺(tái)。因此,廣告主可以通過(guò)Google Ads平臺(tái)自動(dòng)進(jìn)行YouTube廣告投放。

在這個(gè)過(guò)程中,YouTube用戶(hù)數(shù)據(jù)與內(nèi)容數(shù)據(jù)匯聚至谷歌服務(wù)器,并在機(jī)器學(xué)習(xí)技術(shù)對(duì)數(shù)據(jù)處理分析之后對(duì)YouTube用戶(hù)及內(nèi)容做了基本分類(lèi),以支持廣告主進(jìn)行精準(zhǔn)定位。

——用戶(hù)精準(zhǔn)定位方面

YouTube主要以人口屬性定位、興趣定位、生活事件定位(比如想要“搬家”的用戶(hù)群體)以及潛在目標(biāo)群體等對(duì)用戶(hù)進(jìn)行大致分類(lèi),以便廣告主進(jìn)行篩選。另外,廣告主還可以根據(jù)前序營(yíng)銷(xiāo)活動(dòng)的實(shí)際效果決定是否對(duì)同一批用戶(hù)進(jìn)行新的營(yíng)銷(xiāo)投放。

如果廣告主認(rèn)可這批營(yíng)銷(xiāo)受眾,那么YouTube還可以利用look alike等技術(shù)幫助廣告主拓展相似目標(biāo)用戶(hù)群體,生成更多的用戶(hù)列表。同時(shí),為了進(jìn)一步保證定位精準(zhǔn),YouTube也支持廣告主上傳用戶(hù)群體信息并自定義用戶(hù)群體,協(xié)助Google Ads進(jìn)行用戶(hù)群體圈定。

——內(nèi)容精準(zhǔn)定位方面

YouTube在YouTube頻道、YouTube視頻以及YouTube頻道組三種內(nèi)容類(lèi)型中,向廣告主提供內(nèi)容主題以及內(nèi)容關(guān)鍵詞兩種定位選擇。其中內(nèi)容主題主要是指視頻內(nèi)容所屬垂直行業(yè)類(lèi)型,內(nèi)容關(guān)鍵詞則是與廣告主產(chǎn)品和服務(wù)相關(guān)的關(guān)鍵詞與YouTube內(nèi)容的匹配?;诖耍瑥V告主可以將廣告內(nèi)容投放至與之相匹配的YouTube視頻內(nèi)容上,實(shí)現(xiàn)精準(zhǔn)的內(nèi)容定位。

除了優(yōu)化廣告主服務(wù)外,YouTube也在谷歌數(shù)據(jù)開(kāi)放戰(zhàn)略的推動(dòng)下建設(shè)了YouTube Data API以及YouTube Analytics and Reporting API等為開(kāi)發(fā)者提供數(shù)據(jù)開(kāi)放服務(wù),賦能開(kāi)發(fā)者推進(jìn)數(shù)據(jù)研究或AI訓(xùn)練等方面的進(jìn)度。

04

理解用戶(hù)及內(nèi)容

還需要解決一些問(wèn)題

由此可見(jiàn),YouTube基于對(duì)用戶(hù)和內(nèi)容理解的升級(jí),賦能自身的業(yè)務(wù)與服務(wù)。但是在這個(gè)過(guò)程中,YouTube也陷入了一些問(wèn)題的“泥沼”,主要是數(shù)據(jù)隱私安全以及AI審核弊端問(wèn)題。

1.理解用戶(hù)VS保護(hù)隱私數(shù)據(jù)安全

海外對(duì)數(shù)據(jù)安全問(wèn)題尤為重視,而掌握海量數(shù)據(jù)的谷歌經(jīng)常為此登上輿論的“風(fēng)口浪尖”。

2019年,谷歌就因數(shù)據(jù)隱私問(wèn)題被法國(guó)處以5000萬(wàn)歐元罰款,成為2018年歐盟《通用數(shù)據(jù)保護(hù)條例》生效后開(kāi)出的首個(gè)罰單。而作為谷歌旗下產(chǎn)品的YouTube也難逃被“質(zhì)疑”的命運(yùn)。調(diào)整與改變勢(shì)在必行。

首先谷歌內(nèi)部對(duì)用戶(hù)數(shù)據(jù)處理措施逐漸趨于嚴(yán)格。

上文也談到,谷歌給用戶(hù)開(kāi)放了部分?jǐn)?shù)據(jù)修改權(quán)限,但是實(shí)際上,用戶(hù)刪除數(shù)據(jù)后谷歌會(huì)將部分有價(jià)值的數(shù)據(jù)進(jìn)行階段性或永久性保存。為了維護(hù)這部分?jǐn)?shù)據(jù)的隱私安全,谷歌通過(guò)一些技術(shù)手段進(jìn)行數(shù)據(jù)脫敏。例如,數(shù)據(jù)泛化技術(shù),即將某些可以與特定人關(guān)聯(lián)起來(lái)的數(shù)據(jù)元素移除或使用常見(jiàn)值取而代之;或者向數(shù)據(jù)中添加噪音,影響對(duì)用戶(hù)隱私行為的判斷等。

其次,由于谷歌部分?jǐn)?shù)據(jù)會(huì)交予人工進(jìn)行審核,為了防止內(nèi)部員工對(duì)用戶(hù)敏感數(shù)據(jù)過(guò)多接觸,谷歌開(kāi)始降低人工審核數(shù)據(jù)權(quán)限。

2019年,谷歌降低了人工審核的音頻數(shù)據(jù)審核權(quán)限,內(nèi)部員工所接觸到的語(yǔ)音記錄均是與用戶(hù)賬戶(hù)無(wú)關(guān)的數(shù)據(jù)資料。并且,谷歌對(duì)外承諾將“極大地減少被存儲(chǔ)的音頻數(shù)據(jù)量”。由此,谷歌對(duì)用戶(hù)敏感數(shù)據(jù)的管理愈加嚴(yán)格,而作為谷歌旗下產(chǎn)品的YouTube,將同樣受到相關(guān)內(nèi)部規(guī)定的制約。

最后,為保護(hù)數(shù)據(jù)安全,谷歌開(kāi)始對(duì)外限制第三方數(shù)據(jù)采集權(quán)限,YouTube也對(duì)此推出了相關(guān)舉措,將用戶(hù)數(shù)據(jù)管理權(quán)限集中在自己手中。

2017年,谷歌推出Ads Data Hub以支持不使用像素的跨系統(tǒng)廣告系列衡量后,谷歌對(duì)第三方數(shù)據(jù)采集權(quán)限開(kāi)始進(jìn)行限制。例如,2017年1月,YouTube宣布會(huì)限制像素追蹤和cookies采集;2018年YouTube停止支持第三方廣告投放,切斷了第三方的數(shù)據(jù)訪(fǎng)問(wèn)權(quán)限。

目前,YouTube與Nielsen、ComScore、DoubleVerify等第三方的數(shù)據(jù)合作均已向Ads Data Hub遷移。預(yù)計(jì)2020年遷移完成后,YouTube將不再支持第三方進(jìn)行數(shù)據(jù)采集。

由此可見(jiàn),無(wú)論是內(nèi)部數(shù)據(jù)管理趨緊還是削弱外部數(shù)據(jù)權(quán)限,谷歌對(duì)用戶(hù)數(shù)據(jù)隱私安全是十分重視的,尤其是谷歌限制第三方數(shù)據(jù)權(quán)限,直接增強(qiáng)了谷歌的數(shù)據(jù)管理權(quán)限,對(duì)維護(hù)用戶(hù)數(shù)據(jù)隱私安全更為有利。

2.增強(qiáng)人工審核機(jī)制以解決AI審核弊端

如前文所述,谷歌在AI研發(fā)方面投入頗多,并基于YouTube數(shù)據(jù)建立了多個(gè)數(shù)據(jù)集以支持視頻理解能力的升級(jí),協(xié)助增強(qiáng)AI審核機(jī)制。

但是AI審核也給YouTube帶來(lái)了兩個(gè)新的問(wèn)題:一是內(nèi)容推薦系統(tǒng)下用戶(hù)看到的內(nèi)容是否合適?二是程序化廣告投放下廣告主的廣告是否出現(xiàn)在合適的視頻內(nèi)容位置?也就是說(shuō),內(nèi)容理解的準(zhǔn)確性仍然是困擾YouTube的問(wèn)題之一。

例如,2018年,由于AI對(duì)兒童觀看內(nèi)容審核精準(zhǔn)性不足,導(dǎo)致YouTube“艾爾莎門(mén)”(兒童色情)事件爆發(fā);2019年,YouTube平臺(tái)自動(dòng)刪除了大量格斗機(jī)器人比賽視頻,原因是算法檢測(cè)到該內(nèi)容對(duì)動(dòng)物施以折磨或強(qiáng)迫動(dòng)物對(duì)抗等……AI審核機(jī)制成為YouTube被頻繁質(zhì)疑的核心問(wèn)題點(diǎn)。

為了解決這一系列問(wèn)題,YouTube一方面持續(xù)提升AI內(nèi)容識(shí)別的準(zhǔn)確性,另一方面則宣布增強(qiáng)人工審核團(tuán)隊(duì)進(jìn)行彌補(bǔ)。2018年,YouTube CEO Susan Wojcicki承諾會(huì)雇傭至少一萬(wàn)名人工審核員,以補(bǔ)足算法的局限。2019年YouTube宣布平臺(tái)中的兒童內(nèi)容審核將全面交予人工進(jìn)行處理。

在這個(gè)過(guò)程中,谷歌對(duì)旗下人工審核團(tuán)隊(duì)的內(nèi)容審核要求進(jìn)一步提高,強(qiáng)化了對(duì)視頻標(biāo)題和內(nèi)容的評(píng)估、分類(lèi)的精細(xì)化程度。

通過(guò)部署人工視頻標(biāo)注系統(tǒng)和評(píng)級(jí)系統(tǒng),谷歌對(duì)視頻內(nèi)容規(guī)劃了多個(gè)分類(lèi)標(biāo)簽,每個(gè)分類(lèi)標(biāo)簽下又有多個(gè)子標(biāo)簽。比如,“暴力”分類(lèi)下包含“恐怖主義”、“戰(zhàn)爭(zhēng)和沖突”、“死亡和悲劇”以及“其他”等分類(lèi)。嚴(yán)格的人工視頻標(biāo)注體系也在一定程度上彌補(bǔ)了AI審核機(jī)制的缺陷。或許隨著谷歌AI對(duì)內(nèi)容數(shù)據(jù)處理能力的升級(jí),YouTube在AI審核機(jī)制方面將有更進(jìn)一步的升級(jí)。

結(jié)語(yǔ)

在谷歌大數(shù)據(jù)與人工智能的支撐之下,YouTube不斷提升對(duì)用戶(hù)及內(nèi)容的深層理解,以?xún)?yōu)化自身的運(yùn)營(yíng)能力。雖然效果與問(wèn)題同在,但也我們也有理由相信,隨著谷歌數(shù)據(jù)戰(zhàn)略的調(diào)整以及AI技術(shù)能力的升級(jí),這些問(wèn)題終有解決的那一天。

立即登錄,閱讀全文
原文鏈接:點(diǎn)擊前往 >
版權(quán)說(shuō)明:本文內(nèi)容來(lái)自于騰訊網(wǎng),本站不擁有所有權(quán),不承擔(dān)相關(guān)法律責(zé)任。文章內(nèi)容系作者個(gè)人觀點(diǎn),不代表快出海對(duì)觀點(diǎn)贊同或支持。如有侵權(quán),請(qǐng)聯(lián)系管理員(zzx@kchuhai.com)刪除!
優(yōu)質(zhì)服務(wù)商推薦
更多
掃碼登錄
打開(kāi)掃一掃, 關(guān)注公眾號(hào)后即可登錄/注冊(cè)
加載中
二維碼已失效 請(qǐng)重試
刷新
賬號(hào)登錄/注冊(cè)
小程序
快出海小程序
公眾號(hào)
快出海公眾號(hào)
商務(wù)合作
商務(wù)合作
投稿采訪(fǎng)
投稿采訪(fǎng)
出海管家
出海管家