媒體報道,蘋果、Nvidia、Salesforce在未經(jīng)同意情況下,使用眾多新聞、教育節(jié)目及知名網(wǎng)紅的YouTube頻道字幕內(nèi)容來訓(xùn)練其AI模型。
雖然YouTube明文禁止任何人未經(jīng)同意使用平臺上內(nèi)容,但調(diào)查報道媒體Proofnews分析發(fā)現(xiàn),YouTube平臺上4.8萬個頻道的173,536則視頻的字幕遭到軟件公司未經(jīng)同意用以訓(xùn)練AI模型。被點名的企業(yè)包括蘋果、Nvidia、Anthropic及Salesforce等。
報道是研究一個名為YouTube字幕(YouTube Subtitles)的數(shù)據(jù)集的使用單位。這個數(shù)據(jù)集搜集了YouTube視頻的字幕,來源涵蓋教育、新聞、談話節(jié)目、以及知名YouTuber頻道。教育內(nèi)容來自可汗學(xué)院(Khan Academy)、麻省理工學(xué)院(MIT)及哈佛大學(xué)等,新聞頻道像是華爾街日報、美國公共廣播電臺(NPR)、英國廣播公司(BBC)及談話性節(jié)目如《The Late Show with Stephen Colbert》、《Jimmy Kimmel Live》等。其他視頻來源包括知名網(wǎng)紅MrBeast、PewDiePie、電玩評論員Jacksepticeye及科技評論YouTuber Marques Brownlee頻道、地平理論派的YouTube頻道,以及一些知名政治人物的個人頻道。
事實上,“YouTube字幕”是由一個推動AI的自愿非營利組織EleutherAI所編輯,名為《The Piles》的數(shù)據(jù)集的一部分。Pile旨在搜集公開來源的文本,供AI學(xué)術(shù)研究使用,如英文版Wikipedia、歐洲議會法律數(shù)據(jù)、GitHub、PubMed Abstracts、OpenWebText2等數(shù)據(jù)庫。而“YouTube字幕”單純搜集了教育類、流行文化和自然對話的YouTube字幕,不包含視頻和圖片,也提供多語言文本,如日文、德文和阿拉伯文。
報道指出,蘋果訓(xùn)練OpenELM、Nvidia訓(xùn)練Nemo Megatron、Anthropic的Claude都有用到Y(jié)ouTube字幕,而彭博及Databricks訓(xùn)練的Dolly則使用了《The Piles》數(shù)據(jù)集。
不過Anthropic指稱,這些數(shù)據(jù)是公開可用的,使用來訓(xùn)練AI并無爭議。其他企業(yè)則拒絕或沒有評論。
大廠使用網(wǎng)絡(luò)上公開數(shù)據(jù)不再被視為毫無問題。GitHub和Reddit對其內(nèi)容被用來訓(xùn)練AI已經(jīng)表達不滿,后者已和OpenAI簽下付費授權(quán)合約。微軟剛上任的AI主管Mustafa Suleyman上個月也因為在訪談時提及復(fù)制、重現(xiàn)網(wǎng)絡(luò)上文本是合理使用,沒有版權(quán)問題而遭到抨擊。