除了大熱門(mén)生成式AI聊天機(jī)器人應(yīng)用,圖像生成AI模型也在進(jìn)步。Meta最近公布新圖像生成AI模型CM3leon,稱(chēng)性能再提升。
Meta新CM3leon是多模態(tài)基礎(chǔ)模型(Multi-Modal Model),輸入文本可產(chǎn)生圖像,以及反過(guò)來(lái)輸入圖像產(chǎn)生文本,可用于自動(dòng)生成標(biāo)題等場(chǎng)景。Meta指之前文本產(chǎn)生圖像技術(shù)主要依賴(lài)擴(kuò)散模型輸出圖像,CM3leon是不同方法,使用基于標(biāo)記的自回歸模型(Token-based Autoregressive Model)。
Meta〈擴(kuò)展自回歸多模態(tài)模型〉論文解釋?zhuān)瑪U(kuò)散模型因強(qiáng)大性能和相對(duì)低計(jì)算成本,近來(lái)圖像產(chǎn)生占主導(dǎo)地位,相比以前基于標(biāo)記的自回歸模型雖然也能產(chǎn)生強(qiáng)大結(jié)果,尤其是有更好全局圖像一致性,但訓(xùn)練和推理成本要高許多。
這次CM3leon研發(fā)成果證明基于標(biāo)記的自回歸模型也能比基于擴(kuò)散模型的方法更有效率,文本產(chǎn)生圖像性能更強(qiáng)勁,訓(xùn)練數(shù)據(jù)運(yùn)算量比以前基于變換器法少5倍。
(首圖來(lái)源:Meta)