媒體報(bào)道,蘋(píng)果、Nvidia、Salesforce在未經(jīng)同意情況下,使用眾多新聞、教育節(jié)目及知名網(wǎng)紅的YouTube頻道字幕內(nèi)容來(lái)訓(xùn)練其AI模型。
雖然YouTube明文禁止任何人未經(jīng)同意使用平臺(tái)上內(nèi)容,但調(diào)查報(bào)道媒體Proofnews分析發(fā)現(xiàn),YouTube平臺(tái)上4.8萬(wàn)個(gè)頻道的173,536則視頻的字幕遭到軟件公司未經(jīng)同意用以訓(xùn)練AI模型。被點(diǎn)名的企業(yè)包括蘋(píng)果、Nvidia、Anthropic及Salesforce等。
報(bào)道是研究一個(gè)名為YouTube字幕(YouTube Subtitles)的數(shù)據(jù)集的使用單位。這個(gè)數(shù)據(jù)集搜集了YouTube視頻的字幕,來(lái)源涵蓋教育、新聞、談話節(jié)目、以及知名YouTuber頻道。教育內(nèi)容來(lái)自可汗學(xué)院(Khan Academy)、麻省理工學(xué)院(MIT)及哈佛大學(xué)等,新聞?lì)l道像是華爾街日?qǐng)?bào)、美國(guó)公共廣播電臺(tái)(NPR)、英國(guó)廣播公司(BBC)及談話性節(jié)目如《The Late Show with Stephen Colbert》、《Jimmy Kimmel Live》等。其他視頻來(lái)源包括知名網(wǎng)紅MrBeast、PewDiePie、電玩評(píng)論員Jacksepticeye及科技評(píng)論YouTuber Marques Brownlee頻道、地平理論派的YouTube頻道,以及一些知名政治人物的個(gè)人頻道。
事實(shí)上,“YouTube字幕”是由一個(gè)推動(dòng)AI的自愿非營(yíng)利組織EleutherAI所編輯,名為《The Piles》的數(shù)據(jù)集的一部分。Pile旨在搜集公開(kāi)來(lái)源的文本,供AI學(xué)術(shù)研究使用,如英文版Wikipedia、歐洲議會(huì)法律數(shù)據(jù)、GitHub、PubMed Abstracts、OpenWebText2等數(shù)據(jù)庫(kù)。而“YouTube字幕”單純搜集了教育類、流行文化和自然對(duì)話的YouTube字幕,不包含視頻和圖片,也提供多語(yǔ)言文本,如日文、德文和阿拉伯文。
報(bào)道指出,蘋(píng)果訓(xùn)練OpenELM、Nvidia訓(xùn)練Nemo Megatron、Anthropic的Claude都有用到Y(jié)ouTube字幕,而彭博及Databricks訓(xùn)練的Dolly則使用了《The Piles》數(shù)據(jù)集。
不過(guò)Anthropic指稱,這些數(shù)據(jù)是公開(kāi)可用的,使用來(lái)訓(xùn)練AI并無(wú)爭(zhēng)議。其他企業(yè)則拒絕或沒(méi)有評(píng)論。
大廠使用網(wǎng)絡(luò)上公開(kāi)數(shù)據(jù)不再被視為毫無(wú)問(wèn)題。GitHub和Reddit對(duì)其內(nèi)容被用來(lái)訓(xùn)練AI已經(jīng)表達(dá)不滿,后者已和OpenAI簽下付費(fèi)授權(quán)合約。微軟剛上任的AI主管Mustafa Suleyman上個(gè)月也因?yàn)樵谠L談時(shí)提及復(fù)制、重現(xiàn)網(wǎng)絡(luò)上文本是合理使用,沒(méi)有版權(quán)問(wèn)題而遭到抨擊。