Google發(fā)布圖片說(shuō)明評(píng)估資料集Crossmodal-3600,該資料集可作為語(yǔ)言圖像說(shuō)明的基準(zhǔn),使研究人員可以更可靠地研究該領(lǐng)域。Crossmodal-3600以36種語(yǔ)言,對(duì)世界各地不同的3,600張照片,加上261,375個(gè)人工生成的參考說(shuō)明,研究人員提到,Crossmodal-3600的圖片說(shuō)明品質(zhì)很好,而且在不同語(yǔ)言中維持風(fēng)格一致。
替圖像自動(dòng)產(chǎn)生說(shuō)明是近年新興的機(jī)器學(xué)習(xí)領(lǐng)域,針對(duì)給定的圖像自動(dòng)生成自然語(yǔ)言文本,這項(xiàng)工作有助改善視障用戶的可訪問(wèn)性,Google提到,目前用于圖像字幕的資料集主要以英文為主,只有少數(shù)資料集涵蓋有限數(shù)量的語(yǔ)言,而且這些資料集無(wú)法表現(xiàn)全球文化的豐富性和多樣性,也就阻礙了各種語(yǔ)言對(duì)圖片說(shuō)明的研究。
Crossmodal-3600包含36種語(yǔ)言,由人工手動(dòng)對(duì)Open Images資料集中3,600張具地理多樣性的圖片,添加261,375個(gè)人工生成的參考說(shuō)明。研究人員選擇英語(yǔ)之外的30種語(yǔ)言,大致根據(jù)網(wǎng)絡(luò)內(nèi)容所占的百分比,另外,他們還另外選擇了5種資源較少的語(yǔ)言,將英文當(dāng)作基準(zhǔn),最終產(chǎn)生36種語(yǔ)言的圖片說(shuō)明。
Crossmodal-3600中的圖像使用具有元數(shù)據(jù)的Open Images資料集,但因?yàn)橛性S多區(qū)域使用一種以上的語(yǔ)言,而且這些圖像并沒有良好地覆蓋部分區(qū)域,因此研究人員設(shè)計(jì)了算法,來(lái)最大化所選圖像和目標(biāo)語(yǔ)言區(qū)域之間的對(duì)應(yīng)關(guān)系。
Google在各語(yǔ)言區(qū)域都對(duì)應(yīng)了100幅圖像,總共3,600張圖片用36種語(yǔ)言進(jìn)行注解,每種語(yǔ)言平均有兩種注解,總共產(chǎn)生261,375個(gè)圖說(shuō)。經(jīng)過(guò)訓(xùn)練的模型會(huì)先對(duì)圖片產(chǎn)生初始的圖說(shuō),Google再請(qǐng)注解者評(píng)估模型產(chǎn)生的說(shuō)明,并且隨后要求注解者單獨(dú)對(duì)每張圖像,添加目標(biāo)語(yǔ)言的描述性說(shuō)明,Crossmodal-3600資料集便是由這些注解者編寫的說(shuō)明組成。
研究人員通過(guò)訓(xùn)練4種圖片說(shuō)明生成模型變體,并使用Crossmodal-3600資料集,比較CIDEr指標(biāo)和人工評(píng)估的輸出,研究人員提到,CIDEr分?jǐn)?shù)差異與人工評(píng)估有很強(qiáng)的關(guān)聯(lián)性,也就是說(shuō)Crossmodal-3600可針對(duì)英語(yǔ)之外的語(yǔ)言,實(shí)現(xiàn)自動(dòng)比較圖片說(shuō)明品質(zhì)。