Meta發(fā)布也能產(chǎn)生圖說的圖像生成模型CM3Leon

來源：十輪網(wǎng)

作者：十輪網(wǎng)

時間：2023-07-19

Meta上周發(fā)布了可同時支持文本與圖像生成的CM3Leon模型，這是史上第一個由純文本語言模型配方所訓(xùn)練的多模態(tài)模型，并宣稱其圖像生成所使用的訓(xùn)練計算資源只要其它方法的15，即可達(dá)到先進(jìn)性能。

Meta上周發(fā)布了可同時支持文本與圖像生成的CM3Leon模型，這是史上第一個由純文本語言模型配方所訓(xùn)練的多模態(tài)模型，并宣稱其圖像生成所使用的訓(xùn)練計算資源只要其它方法的1/5，即可達(dá)到先進(jìn)性能。

CM3Leon是個基于Token、檢索增強(qiáng)與decoder-only的模型，它采用因果隱蔽混合模態(tài)（Causal Masked Mixed-Modal，CM3）架構(gòu)，代表該模型得以僅關(guān)注之前的元素來生成輸出串行，確保生成內(nèi)容的連貫性，且于訓(xùn)練過程中能夠忽視或隱蔽某些組件，以生成更好的結(jié)果，還可同時處理文本及圖像的輸入。

Meta強(qiáng)調(diào)CM3Leon是個通用模型，通過單一模型即可處理許多不同的任務(wù)，像是以文本描述來生成圖像，也能以文本描述來編輯圖像，或者是要求該模型替圖像生成圖說等。

例如以文本要求它生成“在撒哈拉沙漠的一株小仙人掌戴上了一頂內(nèi)嵌霓虹太陽眼鏡的草帽”的圖像；也能利用文本幫《戴珍珠耳環(huán)的少女》戴上墨鏡，或是以文本調(diào)整天空的顏色；用戶還可要求CM3Leon替圖像生成圖說，以文本描繪圖像中的元素。

圖片來源_Meta

研究人員表示，CM3Leon僅使用30億個Token的文本數(shù)據(jù)進(jìn)行訓(xùn)練，大幅低于OpenFlamingo的400億個Token與Flamingo的1,000億個Token，但它卻能在替圖像產(chǎn)生圖說，以及回答圖像問題等兩個任務(wù)上，達(dá)到與OpenFlamingo相當(dāng)?shù)膠ero-shot性能等級。此外，它在回答VizWiz數(shù)據(jù)集中圖像問題的表現(xiàn)還勝過Flamingo。

有別于今年5月大方開源集成文本、聲音與視覺數(shù)據(jù)的多模態(tài)AI模型ImageBind，此次Meta并未公布是否或何時發(fā)布CM3Leon。

Meta

上一篇：Threads為應(yīng)對垃圾內(nèi)容推出“限流”功能，馬斯克評價其“抄襲推特

原文鏈接：點(diǎn)擊前往 >

版權(quán)說明：本文內(nèi)容來自于十輪網(wǎng)，本站不擁有所有權(quán)，不承擔(dān)相關(guān)法律責(zé)任。文章內(nèi)容系作者個人觀點(diǎn)，不代表快出海對觀點(diǎn)贊同或支持。如有侵權(quán)，請聯(lián)系管理員（zzx@kchuhai.com）刪除！

相關(guān)文章