Google推出圖片生成模型VideoPoet，五大功能產(chǎn)生直式短影音

來源：十輪網(wǎng)

作者：十輪網(wǎng)

時(shí)間：2023-12-27

近來一波波圖片生成模型出現(xiàn)，無論是貼近提示要求或在圖片處理細(xì)節(jié)上，許多情況下展現(xiàn)出令人驚艷的高品質(zhì)。Google也不甘示弱，日前發(fā)布自主開發(fā)的大型語言模型VideoPoet。

為了探索語言模型在圖片生成中的應(yīng)用，Google引進(jìn)全新大型語言模型VideoPoet，能夠執(zhí)行包括文本轉(zhuǎn)成視頻、圖片轉(zhuǎn)成視頻、視頻風(fēng)格轉(zhuǎn)換、視頻修復(fù)、視頻生成音頻等五大功能，而且默認(rèn)產(chǎn)生直式短影音。

比方說，文本提示輸入“兩只熊貓打撲克牌”，VideoPoet產(chǎn)生兩只熊貓坐在桌邊打撲克牌的短片。圖片轉(zhuǎn)成視頻方面，像是上傳一張油畫圖片，畫中一艘駛向大海的船遭遇雷電交加、波濤洶涌，借由VideoPoet可以轉(zhuǎn)變成動(dòng)圖形態(tài)。VideoPoet也能為視頻產(chǎn)生音頻，例如先以模型產(chǎn)生2秒短片，并嘗試在沒有任何文本提示下配上音頻，于是從單一模型就能產(chǎn)生視頻和音頻。

VideoPoet五大功能概述

VideoPoet是訓(xùn)練一個(gè)自回歸語言模型，通過使用多個(gè)標(biāo)記器（用于視頻和圖片的MAGVIT V2，以及用于音頻的SoundStream）學(xué)習(xí)視頻、圖片、音頻、文本形式，像是通過文本和圖片輸入分解、標(biāo)記，進(jìn)而產(chǎn)生復(fù)雜的圖片。

Google目標(biāo)希望VideoPoet能夠“any-to-any”，根據(jù)任何提示任意轉(zhuǎn)換，同時(shí)也要擴(kuò)展至文本轉(zhuǎn)成音頻、音頻轉(zhuǎn)成視頻、產(chǎn)生視頻字幕等功能。

VideoPoet將許多圖片生成功能無縫集成至單一模型，而不是針對(duì)不同任務(wù)單獨(dú)訓(xùn)練模型，特別在產(chǎn)生有趣視頻和高品質(zhì)動(dòng)作上，展現(xiàn)出大型語言模型具高度競(jìng)爭(zhēng)力的圖片生成品質(zhì)。

開發(fā)團(tuán)隊(duì)制作一部由VideoPoet產(chǎn)生不同短影音組合而成的介紹視頻。

（圖片來源：Google Research Blog）

Google 谷歌

上一篇：外媒：Shein和Temu每天向美國(guó)客戶發(fā)運(yùn)約100萬個(gè)包裹

原文鏈接：點(diǎn)擊前往 >

版權(quán)說明：本文內(nèi)容來自于十輪網(wǎng)，本站不擁有所有權(quán)，不承擔(dān)相關(guān)法律責(zé)任。文章內(nèi)容系作者個(gè)人觀點(diǎn)，不代表快出海對(duì)觀點(diǎn)贊同或支持。如有侵權(quán)，請(qǐng)聯(lián)系管理員（zzx@kchuhai.com）刪除！

相關(guān)文章