Meta發(fā)布也能產(chǎn)生圖說(shuō)的圖像生成模型CM3Leon

來(lái)源:十輪網(wǎng)
作者:十輪網(wǎng)
時(shí)間:2023-07-19
2515
Meta上周發(fā)布了可同時(shí)支持文本與圖像生成的CM3Leon模型,這是史上第一個(gè)由純文本語(yǔ)言模型配方所訓(xùn)練的多模態(tài)模型,并宣稱其圖像生成所使用的訓(xùn)練計(jì)算資源只要其它方法的15,即可達(dá)到先進(jìn)性能。

0717-_cm3leon_by_meta-960.jpg

Meta上周發(fā)布了可同時(shí)支持文本與圖像生成的CM3Leon模型,這是史上第一個(gè)由純文本語(yǔ)言模型配方所訓(xùn)練的多模態(tài)模型,并宣稱其圖像生成所使用的訓(xùn)練計(jì)算資源只要其它方法的1/5,即可達(dá)到先進(jìn)性能。

CM3Leon是個(gè)基于Token、檢索增強(qiáng)與decoder-only的模型,它采用因果隱蔽混合模態(tài)(Causal Masked Mixed-Modal,CM3)架構(gòu),代表該模型得以僅關(guān)注之前的元素來(lái)生成輸出串行,確保生成內(nèi)容的連貫性,且于訓(xùn)練過(guò)程中能夠忽視或隱蔽某些組件,以生成更好的結(jié)果,還可同時(shí)處理文本及圖像的輸入。

Meta強(qiáng)調(diào)CM3Leon是個(gè)通用模型,通過(guò)單一模型即可處理許多不同的任務(wù),像是以文本描述來(lái)生成圖像,也能以文本描述來(lái)編輯圖像,或者是要求該模型替圖像生成圖說(shuō)等。

例如以文本要求它生成“在撒哈拉沙漠的一株小仙人掌戴上了一頂內(nèi)嵌霓虹太陽(yáng)眼鏡的草帽”的圖像;也能利用文本幫《戴珍珠耳環(huán)的少女》戴上墨鏡,或是以文本調(diào)整天空的顏色;用戶還可要求CM3Leon替圖像生成圖說(shuō),以文本描繪圖像中的元素。

0717-CM3Leon-by-Meta-600-1.jpg0717-CM3Leon-by-Meta-600-2.jpg

圖片來(lái)源_Meta

研究人員表示,CM3Leon僅使用30億個(gè)Token的文本數(shù)據(jù)進(jìn)行訓(xùn)練,大幅低于OpenFlamingo的400億個(gè)Token與Flamingo的1,000億個(gè)Token,但它卻能在替圖像產(chǎn)生圖說(shuō),以及回答圖像問(wèn)題等兩個(gè)任務(wù)上,達(dá)到與OpenFlamingo相當(dāng)?shù)膠ero-shot性能等級(jí)。此外,它在回答VizWiz數(shù)據(jù)集中圖像問(wèn)題的表現(xiàn)還勝過(guò)Flamingo。

有別于今年5月大方開(kāi)源集成文本、聲音與視覺(jué)數(shù)據(jù)的多模態(tài)AI模型ImageBind,此次Meta并未公布是否或何時(shí)發(fā)布CM3Leon。

立即登錄,閱讀全文
原文鏈接:點(diǎn)擊前往 >
版權(quán)說(shuō)明:本文內(nèi)容來(lái)自于十輪網(wǎng),本站不擁有所有權(quán),不承擔(dān)相關(guān)法律責(zé)任。文章內(nèi)容系作者個(gè)人觀點(diǎn),不代表快出海對(duì)觀點(diǎn)贊同或支持。如有侵權(quán),請(qǐng)聯(lián)系管理員(zzx@kchuhai.com)刪除!
優(yōu)質(zhì)服務(wù)商推薦
更多
掃碼登錄
打開(kāi)掃一掃, 關(guān)注公眾號(hào)后即可登錄/注冊(cè)
加載中
二維碼已失效 請(qǐng)重試
刷新
賬號(hào)登錄/注冊(cè)
小程序
快出海小程序
公眾號(hào)
快出海公眾號(hào)
商務(wù)合作
商務(wù)合作
投稿采訪
投稿采訪
出海管家
出海管家