除了大熱門生成式AI聊天機器人應用,圖像生成AI模型也在進步。Meta最近公布新圖像生成AI模型CM3leon,稱性能再提升。
Meta新CM3leon是多模態(tài)基礎模型(Multi-Modal Model),輸入文本可產生圖像,以及反過來輸入圖像產生文本,可用于自動生成標題等場景。Meta指之前文本產生圖像技術主要依賴擴散模型輸出圖像,CM3leon是不同方法,使用基于標記的自回歸模型(Token-based Autoregressive Model)。
Meta〈擴展自回歸多模態(tài)模型〉論文解釋,擴散模型因強大性能和相對低計算成本,近來圖像產生占主導地位,相比以前基于標記的自回歸模型雖然也能產生強大結果,尤其是有更好全局圖像一致性,但訓練和推理成本要高許多。
這次CM3leon研發(fā)成果證明基于標記的自回歸模型也能比基于擴散模型的方法更有效率,文本產生圖像性能更強勁,訓練數據運算量比以前基于變換器法少5倍。
(首圖來源:Meta)