Google推出圖片生成模型VideoPoet,五大功能產(chǎn)生直式短影音

來源:十輪網(wǎng)
作者:十輪網(wǎng)
時間:2023-12-27
2865
近來一波波圖片生成模型出現(xiàn),無論是貼近提示要求或在圖片處理細(xì)節(jié)上,許多情況下展現(xiàn)出令人驚艷的高品質(zhì)。Google也不甘示弱,日前發(fā)布自主開發(fā)的大型語言模型VideoPoet。

Google-introduces-VideoPoet-1-800x450.jpg

近來一波波圖片生成模型出現(xiàn),無論是貼近提示要求或在圖片處理細(xì)節(jié)上,許多情況下展現(xiàn)出令人驚艷的高品質(zhì)。Google也不甘示弱,日前發(fā)布自主開發(fā)的大型語言模型VideoPoet。

為了探索語言模型在圖片生成中的應(yīng)用,Google引進(jìn)全新大型語言模型VideoPoet,能夠執(zhí)行包括文本轉(zhuǎn)成視頻、圖片轉(zhuǎn)成視頻、視頻風(fēng)格轉(zhuǎn)換、視頻修復(fù)、視頻生成音頻等五大功能,而且默認(rèn)產(chǎn)生直式短影音。

比方說,文本提示輸入“兩只熊貓打撲克牌”,VideoPoet產(chǎn)生兩只熊貓坐在桌邊打撲克牌的短片。圖片轉(zhuǎn)成視頻方面,像是上傳一張油畫圖片,畫中一艘駛向大海的船遭遇雷電交加、波濤洶涌,借由VideoPoet可以轉(zhuǎn)變成動圖形態(tài)。VideoPoet也能為視頻產(chǎn)生音頻,例如先以模型產(chǎn)生2秒短片,并嘗試在沒有任何文本提示下配上音頻,于是從單一模型就能產(chǎn)生視頻和音頻。

Google-introduces-VideoPoet-2.jpg

VideoPoet五大功能概述

VideoPoet是訓(xùn)練一個自回歸語言模型,通過使用多個標(biāo)記器(用于視頻和圖片的MAGVIT V2,以及用于音頻的SoundStream)學(xué)習(xí)視頻、圖片、音頻、文本形式,像是通過文本和圖片輸入分解、標(biāo)記,進(jìn)而產(chǎn)生復(fù)雜的圖片。

Google目標(biāo)希望VideoPoet能夠“any-to-any”,根據(jù)任何提示任意轉(zhuǎn)換,同時也要擴(kuò)展至文本轉(zhuǎn)成音頻、音頻轉(zhuǎn)成視頻、產(chǎn)生視頻字幕等功能。

VideoPoet將許多圖片生成功能無縫集成至單一模型,而不是針對不同任務(wù)單獨(dú)訓(xùn)練模型,特別在產(chǎn)生有趣視頻和高品質(zhì)動作上,展現(xiàn)出大型語言模型具高度競爭力的圖片生成品質(zhì)。

開發(fā)團(tuán)隊(duì)制作一部由VideoPoet產(chǎn)生不同短影音組合而成的介紹視頻。

(圖片來源:Google Research Blog)

立即登錄,閱讀全文
原文鏈接:點(diǎn)擊前往 >
文章來源:十輪網(wǎng)
版權(quán)說明:本文內(nèi)容來自于十輪網(wǎng),本站不擁有所有權(quán),不承擔(dān)相關(guān)法律責(zé)任。文章內(nèi)容系作者個人觀點(diǎn),不代表快出海對觀點(diǎn)贊同或支持。如有侵權(quán),請聯(lián)系管理員(zzx@kchuhai.com)刪除!
優(yōu)質(zhì)服務(wù)商推薦
更多