近日,AI初創(chuàng)公司Stability.AI的子公司Stability.AI在其官方網(wǎng)站上宣布推出了最新的AI視頻生成模型——Stable Video Diffusion。這一模型是在Stability.AI之前發(fā)布的AI圖片生成模型Stable Diffusion和AI音頻生成模型Stable Audio基礎(chǔ)上的最新發(fā)布,至此,Stability.AI幾乎實現(xiàn)了對媒體內(nèi)容生成的全覆蓋。
目前該模型已經(jīng)可以在Github和Huggingface上下載。
Stable Video Diffusion有兩種模型形式:SVD和SVD-XT。SVD將靜態(tài)圖像轉(zhuǎn)換為14幀的576×1024視頻,而SVD-XT則將幀數(shù)增加到24。據(jù)悉,Stability.AI最初在包含數(shù)百萬個視頻的數(shù)據(jù)集上進行了訓(xùn)練,隨后在包含數(shù)十萬到一百萬個剪輯的較小集合上進行了微調(diào)。然而,關(guān)于訓(xùn)練視頻的確切來源仍然不明確,這引發(fā)了一些關(guān)于版權(quán)問題的擔(dān)憂。
Stability.AI的白皮書指出,Stable Video Diffusion目前處于“研究預(yù)覽”階段,用戶需同意一些使用條款,明確了其預(yù)期應(yīng)用場景(如“教育或創(chuàng)意工具”、“設(shè)計和其他藝術(shù)過程”等)以及非預(yù)期應(yīng)用場景(如“人物或事件的真實陳述”)。這一模型的開源性也引起了一些擔(dān)憂,畢竟類似AI生成的虛假視頻在社媒上流傳此前就造成過麻煩。
盡管Stable Video Diffusion具有一定的局限性,如不能生成沒有運動或快速攝像機移動的視頻,但它在生成高質(zhì)量的四秒片段方面表現(xiàn)出色,與業(yè)界其他主流模型相媲美。
Stability.AI表示,Stable Video Diffusion的未來發(fā)展方向包括推出“一系列”基于SVD和SVD-XT的模型,并計劃推出一個“文本到視頻”工具,將文本提示引入網(wǎng)絡(luò)模型。該公司強調(diào),Stable Video Diffusion具有潛在的廣告、教育和娛樂應(yīng)用。
然而,Stability.AI最近面臨了一些挑戰(zhàn),包括高管的離職和財務(wù)壓力。該公司的音頻副總裁Ed Newton-Rex因為與模型訓(xùn)練數(shù)據(jù)版權(quán)問題產(chǎn)生分歧而辭職。此外,據(jù)報道,Stability AI一度面臨現(xiàn)金流問題,導(dǎo)致AWS威脅要撤銷其對GPU實例的訪問權(quán)限。
在AI領(lǐng)域,Stability.AI并非唯一一家持續(xù)努力推動產(chǎn)品路線圖的初創(chuàng)公司。然而,Stable Video Diffusion的推出標(biāo)志著該公司對生成媒體內(nèi)容領(lǐng)域的持續(xù)投入,并表明其在商業(yè)化上的雄心。
在這個AI熱潮中,Stability.AI的一系列工具和模型,因其普遍開源的特性,對于游戲行業(yè)可能帶來深遠影響。游戲公司可以在Stability.AI公布的基礎(chǔ)模型上進行精細調(diào)整,以快速生成各種場景所需的視頻素材。此外,廣告公司也可以利用Stable Video Diffusion等工具,快速生成各種買量廣告素材,提高廣告創(chuàng)作的效率和創(chuàng)意。
除了Stable Video Diffusion,Stability.AI還推出了Stable Audio,進一步拓展了其影響范圍。Stable Audio由Stability.AI內(nèi)部的聲音實驗室Harmonai研發(fā),采用了與Stable Diffusion類似的擴散模型技術(shù)。該模型在音頻生成領(lǐng)域也取得了一定的成就,但與此同時,公司也面臨一些商業(yè)化和版權(quán)的挑戰(zhàn)。
綜合而言,Stability.AI的一系列工具和模型為媒體內(nèi)容生成領(lǐng)域帶來了新的可能性,在未來,隨著這些模型的不斷發(fā)展和完善,它們可能成為游戲行業(yè)和廣告行業(yè)關(guān)鍵工具。