展會(huì)信息港展會(huì)大全

復(fù)旦大學(xué)與百度聯(lián)合發(fā)布可控人臉視頻生成模型
來(lái)源:互聯(lián)網(wǎng)   發(fā)布日期:2024-06-19 16:54:46   瀏覽:13002次  

導(dǎo)讀:復(fù)旦大學(xué)與百度合作發(fā)布了名為Hallo的人臉視頻生成模型,并在公開(kāi)的學(xué)術(shù)論文Hallo: Hierarchical Audio-Driven Visual Synthesis for Portrait Image Animation中對(duì)該模型進(jìn)行了詳細(xì)闡述。這一模型是首個(gè)基于擴(kuò)散技術(shù)實(shí)現(xiàn)端到端生成高度逼真人臉視頻的開(kāi)源項(xiàng)...

復(fù)旦大學(xué)與百度合作發(fā)布了名為"Hallo"的人臉視頻生成模型,并在公開(kāi)的學(xué)術(shù)論文"Hallo: Hierarchical Audio-Driven Visual Synthesis for Portrait Image Animation"中對(duì)該模型進(jìn)行了詳細(xì)闡述。這一模型是首個(gè)基于擴(kuò)散技術(shù)實(shí)現(xiàn)端到端生成高度逼真人臉視頻的開(kāi)源項(xiàng)目。用戶只需提供一段音頻和所選人像,即可輕松制作出具有極高真實(shí)感的人臉視頻。這一技術(shù)的推出代表著數(shù)字人相關(guān)的視頻生成領(lǐng)域的重要進(jìn)展。

項(xiàng)目主頁(yè):https://fudan-generative-vision.github.io/hallo/

論文鏈接:https://arxiv.org/abs/2406.08801

GitHub鏈接:https://github.com/fudan-generative-vision/hall

端到端人臉視頻生成方案

在過(guò)去的技術(shù)發(fā)展過(guò)程中,由于缺乏有效的聲音到視頻生成方案,人臉視頻合成通常需要依賴參數(shù)化模型作為中間媒介。騰訊、螞蟻金服、微軟等公司推出的Sadtalker、AniPortrait、GAIA等技術(shù)方法便是這一路徑的典型代表。然而,這些方法常常受制于參數(shù)化模型在表情和動(dòng)作表達(dá)能力上的限制,以及聲音與動(dòng)作之間的弱相關(guān)性,導(dǎo)致生成的視頻在真實(shí)感和連貫性方面存在不足。最近,一些端到端的人臉視頻生成方案逐漸出現(xiàn),避免了中間表示形式的局限性。這些方案利用擴(kuò)散模型強(qiáng)大的生成能力,可以直接生成高度逼真、高度連貫的視頻。然而,這類(lèi)方案中的音頻和視覺(jué)特征通常通過(guò)全局交叉注意力模塊進(jìn)行直接交互,缺乏對(duì)唇部和動(dòng)作的精細(xì)約束,導(dǎo)致生成視頻的口型精度不如依賴參數(shù)化模型的解決方案,且動(dòng)作生成能力較差,需要額外輸入動(dòng)作進(jìn)行驅(qū)動(dòng)。此次,復(fù)旦與百度推出的直接從聲音驅(qū)動(dòng)生成視頻的端到端模型,無(wú)需復(fù)雜的參數(shù)化中間表示和額外的動(dòng)作輸入,即可生成口型、表情、動(dòng)作極其自然豐富的人臉視頻。這一創(chuàng)新依賴于以下幾個(gè)關(guān)鍵方面:

1.分層音畫(huà)特征融合

在音畫(huà)交叉注意力過(guò)程中,由于人臉的嘴唇、面部表情、人頭姿勢(shì)對(duì)語(yǔ)音的運(yùn)動(dòng)響應(yīng)方式并不相同,Hallo的研究人員采用了分層交叉注意力操作,針對(duì)不同區(qū)域分別提取掩碼特征。通過(guò)他們提出的輔助交叉注意力模塊與音頻特征融合,從而學(xué)習(xí)到不同區(qū)域的運(yùn)動(dòng)特征。具體來(lái)說(shuō),研究人員使用了嘴唇、面部和頭部的掩碼(如下圖左圖所示),讓音頻分別對(duì)口型、表情和姿勢(shì)進(jìn)行引導(dǎo)生成。隨后,通過(guò)一個(gè)自適應(yīng)機(jī)制將這三個(gè)部分融合在一起,無(wú)需額外參數(shù)化表示和動(dòng)作驅(qū)動(dòng),即可直接生成表情和動(dòng)作自然生動(dòng)的人臉動(dòng)畫(huà)視頻。經(jīng)過(guò)對(duì)注意力圖的分析,研究人員發(fā)現(xiàn),音頻特征與不同區(qū)域視覺(jué)特征分別交互,顯著提高了注意力模塊對(duì)面部信息的捕捉能力。模型的注意力可視化效果也呈現(xiàn)出更加聚焦于面部區(qū)域的特點(diǎn),從而能夠顯著提升口型、表情和動(dòng)作的真實(shí)度。這一方法的整體精度超越了其他現(xiàn)有方法。

2.不同人臉特征的控制能力

在Hallo系統(tǒng)中的分層音頻-視覺(jué)注意力機(jī)制具有將音頻特征與圖像的不同區(qū)域進(jìn)行融合對(duì)齊的能力,從而提升口型、表情和姿勢(shì)的精準(zhǔn)度和自然度,并提供了全局運(yùn)動(dòng)的可控性。通過(guò)調(diào)整各區(qū)域的權(quán)重,可以實(shí)現(xiàn)對(duì)不同區(qū)域視頻運(yùn)動(dòng)的精確控制。此外,Hallo采用專(zhuān)門(mén)的人臉編碼模型來(lái)替代傳統(tǒng)的圖像-語(yǔ)義預(yù)訓(xùn)練模型(如CLIP)。人臉編碼模型的主要目的是生成高度保真的肖像身份特征。與以往通過(guò)在大型圖像和文本描述數(shù)據(jù)集上進(jìn)行聯(lián)合訓(xùn)練CLIP以獲得通用視覺(jué)特征編碼的方法不同,Hallo使用預(yù)先訓(xùn)練的人臉編碼器來(lái)提取身份特征。這些特征與擴(kuò)散網(wǎng)絡(luò)的交叉注意力模塊進(jìn)行交互,生成與輸入角色特征忠實(shí)一致的肖像動(dòng)畫(huà)。這一方法不僅確保了人臉特征提取的泛化能力,還準(zhǔn)確地保留和展現(xiàn)了個(gè)人身份特征,例如面部表情、年齡和性別。

3.大規(guī)模數(shù)字人視頻數(shù)據(jù)集

在訓(xùn)練中,Hallo系統(tǒng)利用了大量高質(zhì)量的數(shù)字人視頻數(shù)據(jù)。盡管互聯(lián)網(wǎng)上存在大量的數(shù)字人視頻數(shù)據(jù),但這些數(shù)據(jù)質(zhì)量參差不齊,存在諸如音畫(huà)不匹配、背景雜音、視頻抖動(dòng)等各種問(wèn)題的數(shù)據(jù)噪聲。為了解決這一問(wèn)題,研發(fā)團(tuán)隊(duì)構(gòu)建了一套自動(dòng)化數(shù)字人視頻清洗引擎。截至目前,這一引擎已成功清洗了數(shù)千小時(shí)的高質(zhì)量數(shù)字人視頻,涵蓋了上萬(wàn)個(gè)信息脫敏的數(shù)字人肖像。這項(xiàng)工作使得大規(guī)模數(shù)據(jù)訓(xùn)練數(shù)字人視頻生成模型成為可能。

Hallo實(shí)踐效果

高質(zhì)量人臉動(dòng)畫(huà)生成:在真人數(shù)據(jù)集上,Hallo展示出了高度一致的口型,并能夠體現(xiàn)出音頻的豐富細(xì)節(jié),如情緒和講話節(jié)奏。

多類(lèi)型人像風(fēng)格支持:盡管Hallo僅在真人視頻數(shù)據(jù)集上進(jìn)行訓(xùn)練,但表現(xiàn)出了極強(qiáng)的泛化性,包括卡通、素描、雕塑等各類(lèi)風(fēng)格,這得益于原始擴(kuò)散模型在超大規(guī)模圖像數(shù)據(jù)集上的訓(xùn)練。

全局運(yùn)動(dòng)可控性:Hallo的另一個(gè)重要特點(diǎn)是全局可控性。相較于以往方法中需要借助參數(shù)化模型控制人臉運(yùn)動(dòng)強(qiáng)度,Hallo利用分層面部特征注意力機(jī)制,通過(guò)調(diào)整三個(gè)區(qū)域的權(quán)重系數(shù),能針對(duì)性地控制口型、表情和動(dòng)作的運(yùn)動(dòng)強(qiáng)度,從而大幅提升人臉動(dòng)畫(huà)生成的可控性。

影視制作的潛在應(yīng)用:除此之外,Hallo展示了在影視制作領(lǐng)域的巨大潛力。通過(guò)僅有一段電影對(duì)白和一個(gè)虛擬角色,可以讓虛擬角色生動(dòng)演繹經(jīng)典電影場(chǎng)景。

應(yīng)用前景

Hallo的發(fā)布為多個(gè)行業(yè)帶來(lái)了廣泛的應(yīng)用前景。在娛樂(lè)產(chǎn)業(yè)方面,AI驅(qū)動(dòng)的角色動(dòng)畫(huà)技術(shù)具有廣泛的應(yīng)用潛力,可在電影、電視劇和短視頻制作中發(fā)揮重要作用。通過(guò)運(yùn)用這項(xiàng)技術(shù),制作團(tuán)隊(duì)可以提高制作效率,實(shí)現(xiàn)更高質(zhì)量的動(dòng)畫(huà)效果,并最終實(shí)現(xiàn)成本的降低。這種技術(shù)的運(yùn)用將為娛樂(lè)產(chǎn)業(yè)帶來(lái)更多的創(chuàng)意空間和商業(yè)機(jī)會(huì)。此外,在游戲和虛擬現(xiàn)實(shí)領(lǐng)域,AI生成的角色動(dòng)畫(huà)為用戶提供更加沉浸式的體驗(yàn)。通過(guò)引入AI角色,游戲和虛擬現(xiàn)實(shí)應(yīng)用可以呈現(xiàn)更生動(dòng)、真實(shí)的虛擬世界,增強(qiáng)用戶的沉浸感和參與感。這將為游戲產(chǎn)業(yè)和虛擬現(xiàn)實(shí)技術(shù)帶來(lái)新的發(fā)展機(jī)遇,推動(dòng)這些領(lǐng)域的創(chuàng)新和進(jìn)步。

在教育領(lǐng)域,AI數(shù)字人對(duì)于弱勢(shì)人群的教學(xué)具有極其重要的意義。通過(guò)整合AI角色到教學(xué)視頻和活動(dòng)中,可以為這一群體設(shè)計(jì)更具包容性和可訪問(wèn)性的教學(xué)方法。AI數(shù)字人能通過(guò)多感官交互如視覺(jué)、聽(tīng)覺(jué)和觸覺(jué)增加學(xué)習(xí)的直觀性和互動(dòng)性。這不僅能夠吸引學(xué)生的注意力,還能夠幫助他們更好地理解抽象概念和復(fù)雜信息,從而提高學(xué)習(xí)的有效性。此外,AI數(shù)字人可以模擬悉心的教師角色,提供持續(xù)的鼓勵(lì)和支持,幫助學(xué)生在遇到挑戰(zhàn)時(shí)保持積極和自信。通過(guò)這種方式,高質(zhì)量AI數(shù)字人的應(yīng)用不僅能夠提供更符合弱勢(shì)人群需求的教育內(nèi)容,還能夠幫助他們提高社交技能和生活自理能力,從而更好地融入社會(huì),提高生活質(zhì)量。這種教育方式的推廣和應(yīng)用,有望為弱勢(shì)群體打開(kāi)新的學(xué)習(xí)大門(mén),為他們帶來(lái)更多的學(xué)習(xí)機(jī)會(huì)和社會(huì)參與可能。

未來(lái)展望

隨著人工智能圖形計(jì)算(AIGC)技術(shù)的飛速進(jìn)步,AI驅(qū)動(dòng)的角色動(dòng)畫(huà)將展現(xiàn)更加逼真自然的表現(xiàn)。未來(lái),復(fù)旦和百度的研究團(tuán)隊(duì)將持續(xù)優(yōu)化模型性能,提升動(dòng)畫(huà)生成質(zhì)量,并擴(kuò)展更廣泛的應(yīng)用領(lǐng)域。通過(guò)與社區(qū)緊密合作和開(kāi)源共享,Hallo有望在多個(gè)產(chǎn)業(yè)領(lǐng)域發(fā)揮作用,為國(guó)家人工智能技術(shù)的發(fā)展和推廣貢獻(xiàn)力量。

贊助本站

人工智能實(shí)驗(yàn)室
相關(guān)內(nèi)容
AiLab云推薦
推薦內(nèi)容
展開(kāi)

熱門(mén)欄目HotCates

Copyright © 2010-2024 AiLab Team. 人工智能實(shí)驗(yàn)室 版權(quán)所有    關(guān)于我們 | 聯(lián)系我們 | 廣告服務(wù) | 公司動(dòng)態(tài) | 免責(zé)聲明 | 隱私條款 | 工作機(jī)會(huì) | 展會(huì)港