阿里云宣布自研EMO模型上線通義App，用照片+音頻生成唱歌視頻

來源：IT之家

作者：問舟

時(shí)間：2024-04-27

EMO（Emote Portrait Alive）是一個(gè)由阿里巴巴集團(tuán)智能計(jì)算研究院開發(fā)的框架，一個(gè)音頻驅(qū)動的AI肖像視頻生成系統(tǒng)，能夠通過輸入單一的參考圖像和語音音頻，生成具有表現(xiàn)力的面部表情和各種頭部姿勢的視頻。

IT之家 4月25日消息，EMO（Emote Portrait Alive）是一個(gè)由阿里巴巴集團(tuán)智能計(jì)算研究院開發(fā)的框架，一個(gè)音頻驅(qū)動的AI肖像視頻生成系統(tǒng)，能夠通過輸入單一的參考圖像和語音音頻，生成具有表現(xiàn)力的面部表情和各種頭部姿勢的視頻。

阿里云今日宣布，通義實(shí)驗(yàn)室研發(fā)的AI模型——EMO正式上線通義App，并開放給所有用戶免費(fèi)使用。借助這一功能，用戶可以在歌曲、熱梗、表情包中任選一款模板，然后通過上傳一張肖像照片就能讓EMO合成演戲唱歌視頻。

據(jù)介紹，通義App首批上線了80多個(gè)EMO模板，包括熱門歌曲《上春山》《野狼Disco》等，還有網(wǎng)絡(luò)熱梗“缽缽雞”“回手掏”等，但目前暫未開放自定義音頻。

IT之家附EMO官網(wǎng)入口：

·官方項(xiàng)目主頁：https://humanaigc.github.io/emote-portrait-alive/

·arXiv研究論文：https://arxiv.org/abs/2402.17485

·GitHub：https://github.com/HumanAIGC/EMO（模型和源碼待開源）

EMO的主要特點(diǎn)

·音頻驅(qū)動的視頻生成：EMO能夠根據(jù)輸入的音頻（如說話或唱歌）直接生成視頻，無需依賴于預(yù)先錄制的視頻片段或3D面部模型。

·高表現(xiàn)力和逼真度：EMO生成的視頻具有高度的表現(xiàn)力，能夠捕捉并再現(xiàn)人類面部表情的細(xì)微差別，包括微妙的微表情，以及與音頻節(jié)奏相匹配的頭部運(yùn)動。

·無縫幀過渡：EMO確保視頻幀之間的過渡自然流暢，避免了面部扭曲或幀間抖動的問題，從而提高了視頻的整體質(zhì)量。

·身份保持：通過FrameEncoding模塊，EMO能夠在視頻生成過程中保持角色身份的一致性，確保角色的外觀與輸入的參考圖像保持一致。

·穩(wěn)定的控制機(jī)制：EMO采用了速度控制器和面部區(qū)域控制器等穩(wěn)定控制機(jī)制，以增強(qiáng)視頻生成過程中的穩(wěn)定性，避免視頻崩潰等問題。

·靈活的視頻時(shí)長：EMO可以根據(jù)輸入音頻的長度生成任意時(shí)長的視頻，為用戶提供了靈活的創(chuàng)作空間。

·跨語言和跨風(fēng)格：EMO的訓(xùn)練數(shù)據(jù)集涵蓋了多種語言和風(fēng)格，包括中文和英文，以及現(xiàn)實(shí)主義、動漫和3D風(fēng)格，這使得EMO能夠適應(yīng)不同的文化和藝術(shù)風(fēng)格。

App 阿里云

上一篇：亞馬遜宣布Prime Day購物節(jié)活動將于2024年7月回歸

原文鏈接：點(diǎn)擊前往 >

版權(quán)說明：本文內(nèi)容來自于IT之家，本站不擁有所有權(quán)，不承擔(dān)相關(guān)法律責(zé)任。文章內(nèi)容系作者個(gè)人觀點(diǎn)，不代表快出海對觀點(diǎn)贊同或支持。如有侵權(quán)，請聯(lián)系管理員（zzx@kchuhai.com）刪除！

相關(guān)文章