Facebook利用AI改善針對(duì)視障人士的照片描述

來(lái)源： cnBeta

作者：cnBeta

時(shí)間：2021-01-21

在Facebook和其他社交媒體平臺(tái)上最常見(jiàn)的分享內(nèi)容之一是照片。雖然大多數(shù)社交媒體用戶都能看懂一張圖片，并了解它所代表的內(nèi)容，但對(duì)于那些盲人或視障人士來(lái)說(shuō)就不那么容易了。Facebook表示，屏幕閱讀器可以使用合成語(yǔ)音描述這些圖片的內(nèi)容，讓盲人或視障用戶能夠理解Facebook feed中的圖片。

然而，許多照片在發(fā)布時(shí)沒(méi)有alt文字，導(dǎo)致Facebook在2016年推出了自動(dòng)替代文本（AAT）。該技術(shù)利用對(duì)象識(shí)別技術(shù)為盲人或視障用戶按需生成照片的描述。自2016年以來(lái)，F(xiàn)acebook一直致力于改進(jìn)AAT，并在最近推出了下一代技術(shù)。Facebook在AAT上的進(jìn)步改善了用戶的照片體驗(yàn)，AAT可以可靠地檢測(cè)和識(shí)別照片中的概念數(shù)量擴(kuò)大了十倍以上。這意味著沒(méi)有描述的照片減少了，提供的描述也更加詳細(xì)。AAT可以識(shí)別活動(dòng)、地標(biāo)、動(dòng)物類型等等。

AAT現(xiàn)在會(huì)給出這樣的描述："可能是兩個(gè)人的自拍，戶外，比薩斜塔"。Facebook還表示，能夠在照片中加入有關(guān)元素的潛在位置和相對(duì)大小的信息是行業(yè)首創(chuàng)。它不是簡(jiǎn)單地描述"可能是五人的合影"，而是描述成“兩個(gè)人在照片的中心，另外三個(gè)人向邊緣分散。”

Facebook表示，這一進(jìn)步可以幫助盲人或視力受損的用戶更好地理解家人和朋友發(fā)布照片中的內(nèi)容。最新版本的AAT使用了一個(gè)在數(shù)十億張Instagram公開(kāi)圖片和標(biāo)簽數(shù)據(jù)上訓(xùn)練出來(lái)的模型。訓(xùn)練后產(chǎn)生的模型更加準(zhǔn)確，并且在文化和人口統(tǒng)計(jì)方面更具包容性。改進(jìn)后的AAT可以可靠地識(shí)別1200多個(gè)概念。

立即登錄，閱讀全文

AI Facebook

上一篇：AWS安全講堂：身份認(rèn)證秘籍！

版權(quán)說(shuō)明：

本文內(nèi)容來(lái)自于cnBeta，本站不擁有所有權(quán)，不承擔(dān)相關(guān)法律責(zé)任。文章內(nèi)容系作者個(gè)人觀點(diǎn)，不代表快出海對(duì)觀點(diǎn)贊同或支持。如有侵權(quán)，請(qǐng)聯(lián)系管理員（zzx@kchuhai.com）刪除！

相關(guān)文章