Google發(fā)布圖片說明評估資料集Crossmodal-3600,該資料集可作為語言圖像說明的基準,使研究人員可以更可靠地研究該領域。Crossmodal-3600以36種語言,對世界各地不同的3,600張照片,加上261,375個人工生成的參考說明,研究人員提到,Crossmodal-3600的圖片說明品質很好,而且在不同語言中維持風格一致。
替圖像自動產(chǎn)生說明是近年新興的機器學習領域,針對給定的圖像自動生成自然語言文本,這項工作有助改善視障用戶的可訪問性,Google提到,目前用于圖像字幕的資料集主要以英文為主,只有少數(shù)資料集涵蓋有限數(shù)量的語言,而且這些資料集無法表現(xiàn)全球文化的豐富性和多樣性,也就阻礙了各種語言對圖片說明的研究。
Crossmodal-3600包含36種語言,由人工手動對Open Images資料集中3,600張具地理多樣性的圖片,添加261,375個人工生成的參考說明。研究人員選擇英語之外的30種語言,大致根據(jù)網(wǎng)絡內(nèi)容所占的百分比,另外,他們還另外選擇了5種資源較少的語言,將英文當作基準,最終產(chǎn)生36種語言的圖片說明。
Crossmodal-3600中的圖像使用具有元數(shù)據(jù)的Open Images資料集,但因為有許多區(qū)域使用一種以上的語言,而且這些圖像并沒有良好地覆蓋部分區(qū)域,因此研究人員設計了算法,來最大化所選圖像和目標語言區(qū)域之間的對應關系。
Google在各語言區(qū)域都對應了100幅圖像,總共3,600張圖片用36種語言進行注解,每種語言平均有兩種注解,總共產(chǎn)生261,375個圖說。經(jīng)過訓練的模型會先對圖片產(chǎn)生初始的圖說,Google再請注解者評估模型產(chǎn)生的說明,并且隨后要求注解者單獨對每張圖像,添加目標語言的描述性說明,Crossmodal-3600資料集便是由這些注解者編寫的說明組成。
研究人員通過訓練4種圖片說明生成模型變體,并使用Crossmodal-3600資料集,比較CIDEr指標和人工評估的輸出,研究人員提到,CIDEr分數(shù)差異與人工評估有很強的關聯(lián)性,也就是說Crossmodal-3600可針對英語之外的語言,實現(xiàn)自動比較圖片說明品質。