近來一波波圖片生成模型出現(xiàn),無論是貼近提示要求或在圖片處理細(xì)節(jié)上,許多情況下展現(xiàn)出令人驚艷的高品質(zhì)。Google也不甘示弱,日前發(fā)布自主開發(fā)的大型語言模型VideoPoet。
為了探索語言模型在圖片生成中的應(yīng)用,Google引進(jìn)全新大型語言模型VideoPoet,能夠執(zhí)行包括文本轉(zhuǎn)成視頻、圖片轉(zhuǎn)成視頻、視頻風(fēng)格轉(zhuǎn)換、視頻修復(fù)、視頻生成音頻等五大功能,而且默認(rèn)產(chǎn)生直式短影音。
比方說,文本提示輸入“兩只熊貓打撲克牌”,VideoPoet產(chǎn)生兩只熊貓坐在桌邊打撲克牌的短片。圖片轉(zhuǎn)成視頻方面,像是上傳一張油畫圖片,畫中一艘駛向大海的船遭遇雷電交加、波濤洶涌,借由VideoPoet可以轉(zhuǎn)變成動圖形態(tài)。VideoPoet也能為視頻產(chǎn)生音頻,例如先以模型產(chǎn)生2秒短片,并嘗試在沒有任何文本提示下配上音頻,于是從單一模型就能產(chǎn)生視頻和音頻。
VideoPoet五大功能概述
VideoPoet是訓(xùn)練一個自回歸語言模型,通過使用多個標(biāo)記器(用于視頻和圖片的MAGVIT V2,以及用于音頻的SoundStream)學(xué)習(xí)視頻、圖片、音頻、文本形式,像是通過文本和圖片輸入分解、標(biāo)記,進(jìn)而產(chǎn)生復(fù)雜的圖片。
Google目標(biāo)希望VideoPoet能夠“any-to-any”,根據(jù)任何提示任意轉(zhuǎn)換,同時也要擴(kuò)展至文本轉(zhuǎn)成音頻、音頻轉(zhuǎn)成視頻、產(chǎn)生視頻字幕等功能。
VideoPoet將許多圖片生成功能無縫集成至單一模型,而不是針對不同任務(wù)單獨(dú)訓(xùn)練模型,特別在產(chǎn)生有趣視頻和高品質(zhì)動作上,展現(xiàn)出大型語言模型具高度競爭力的圖片生成品質(zhì)。
開發(fā)團(tuán)隊(duì)制作一部由VideoPoet產(chǎn)生不同短影音組合而成的介紹視頻。
(圖片來源:Google Research Blog)