展會(huì)信息港展會(huì)大全

超越Sora極限,120秒超長(zhǎng)AI視頻模型誕生!
來(lái)源:互聯(lián)網(wǎng)   發(fā)布日期:2024-03-26 13:47:10   瀏覽:7562次  

導(dǎo)讀:新智元報(bào)道 編輯:潤(rùn) 好困 【新智元導(dǎo)讀】UT奧斯丁等機(jī)構(gòu)提出了一種名為StreamingT2V的技術(shù),讓AI視頻的長(zhǎng)度擴(kuò)展至近乎無(wú)限,而且一致性,動(dòng)作幅度也非常好! Sora一出,文生視頻的在長(zhǎng)度這個(gè)指標(biāo)上就卷的沒(méi)邊了。 從Pika和Runway的4秒,到VideoPoet的理論無(wú)...

新智元報(bào)道

編輯:潤(rùn) 好困

【新智元導(dǎo)讀】UT奧斯丁等機(jī)構(gòu)提出了一種名為StreamingT2V的技術(shù),讓AI視頻的長(zhǎng)度擴(kuò)展至近乎無(wú)限,而且一致性,動(dòng)作幅度也非常好!

Sora一出,文生視頻的在長(zhǎng)度這個(gè)指標(biāo)上就卷的沒(méi)邊了。

從Pika和Runway的4秒,到VideoPoet的理論無(wú)限長(zhǎng),各個(gè)團(tuán)隊(duì)都在通過(guò)各種不同的技術(shù)路徑不斷延長(zhǎng)視頻生成長(zhǎng)度的上限。

最近,來(lái)自Picsart AI Research,UT Austin和Shi Labs的研究團(tuán)隊(duì)提出了一個(gè)新的文生視頻技術(shù)StreamingT2,可以生成高度一致而且長(zhǎng)度可擴(kuò)展的視頻。

文生視頻技術(shù)進(jìn)入長(zhǎng)視頻時(shí)代。

論文地址:https://arxiv.org/abs/2403.14773

具體來(lái)說(shuō),StreamingT2V可以生成1200幀甚至理論上無(wú)限長(zhǎng)的長(zhǎng)視頻,并且能保證視頻內(nèi)容過(guò)渡非常自然平滑,內(nèi)容豐富多樣。

帝國(guó)士兵在煙霧中不停奔跑,雖然動(dòng)作很滑稽,但是幅度很大,人物一致性很好。

它的核心構(gòu)架由3個(gè)部分組成:

- 一個(gè)短期記憶單元條件注意力模塊(CAM),它能夠確保視頻的連貫性,通過(guò)關(guān)注前一個(gè)視頻片段的特征來(lái)引導(dǎo)當(dāng)前片段的生成;

- 一個(gè)長(zhǎng)期記憶單元外觀保持模塊,它幫助模型記住視頻開(kāi)頭的場(chǎng)景和對(duì)象,防止隨著時(shí)間推移而遺忘開(kāi)頭的場(chǎng)景;

- 一種隨機(jī)混合技術(shù),使得即使是無(wú)限長(zhǎng)的視頻也能保持一致性,避免了視頻片段之間的不協(xié)調(diào)。

而且,StreamingT2V的特點(diǎn)并不限定于使用特定的文生視頻模型。

這意味著只要將基礎(chǔ)模型的性能不斷提高,生成的視頻效果還能不斷提升。

效果展示

1200幀,2分鐘

可以看到,在兩分鐘的視頻中場(chǎng)景的動(dòng)態(tài)效果很好,雖然在細(xì)微材質(zhì)上還是有一些粗糙和畸變,但是整體的運(yùn)動(dòng)幅度基本上已經(jīng)達(dá)到了Sora的水準(zhǔn)。

和其他的「長(zhǎng)」視頻AI技術(shù)相比,StreamingT2V的動(dòng)態(tài)效果明顯好太多了。

600幀1分鐘

整個(gè)鏡頭的晃動(dòng)感有一種手持?jǐn)z影機(jī)拍攝的風(fēng)格,而且鳥(niǎo)的動(dòng)作細(xì)節(jié)也很真實(shí)。

蜜蜂在花上的運(yùn)動(dòng)效果也很逼真,鏡頭運(yùn)動(dòng)幅度和動(dòng)作幅度都很大,而且蜜蜂形態(tài)的一致性保持得也很好。

航拍鏡頭的運(yùn)動(dòng)也很合理,只是場(chǎng)景中的大面積的植物顏色和細(xì)節(jié)還是不太穩(wěn)定。

雖然珊瑚還是會(huì)出現(xiàn)無(wú)中生有的情況,但是鏡頭運(yùn)動(dòng)的幅度和場(chǎng)景整體的一致性已經(jīng)非常高了。

240幀,24秒

而這個(gè)圣誕老人雖然動(dòng)作顯得非常鬼畜滑稽,但是一致性保持得非常好,動(dòng)作幅度更是吊打大部分的文生視頻模型。

對(duì)于爆炸和煙霧的處理也已經(jīng)非常成熟,逼真了。

開(kāi)花的動(dòng)態(tài)效果非常自然,已經(jīng)可以以假亂真真實(shí)的加速播放的靜物運(yùn)動(dòng)攝影了。

80幀,8秒

在時(shí)間更短的的視頻中,無(wú)論是內(nèi)容的一致性和動(dòng)作的自然程度和動(dòng)作幅度效果都很好。

只是在場(chǎng)景和環(huán)境的表現(xiàn)上,還有一些明顯的瑕疵。

實(shí)現(xiàn)方法

StreamingT2V技術(shù)的工作流程可以分為三個(gè)主要階段。

首先,在初始化階段,研究人員利用一個(gè)文本到視頻的模型來(lái)創(chuàng)造出視頻的前16幀,這相當(dāng)于視頻的起始段落。

接下來(lái),進(jìn)入Streaming T2V階段,研究人員會(huì)繼續(xù)生成視頻的后續(xù)幀,這一過(guò)程是通過(guò)一種稱(chēng)為自回歸的技術(shù)來(lái)實(shí)現(xiàn)的,意味著每一個(gè)新幀的生成都會(huì)參考之前已生成的幀,從而確保視頻內(nèi)容的連貫性。

最后,在Streaming Refinement階段,研究人員對(duì)已生成的長(zhǎng)視頻(無(wú)論是600癥1200幀還是更多)進(jìn)行進(jìn)一步的優(yōu)化。

在這一階段,研究人員采用了一種高分辨率的文本到短視頻模型,并結(jié)合了研究人員獨(dú)特的隨機(jī)混合技術(shù),這樣不僅提升了視頻的畫(huà)質(zhì),還增強(qiáng)了視頻的動(dòng)態(tài)效果和視覺(jué)吸引力。

StreamingT2V技術(shù)通過(guò)引入兩個(gè)關(guān)鍵模塊來(lái)增強(qiáng)視頻的生成質(zhì)量。

首先,條件注意力模塊(CAM)充當(dāng)短期記憶,它通過(guò)一個(gè)特殊的編碼器分析前一個(gè)視頻片段,確保視頻的連續(xù)性和流暢過(guò)渡。這個(gè)機(jī)制特別適用于動(dòng)作頻繁的視頻,使得視頻看起來(lái)更加自然流暢。

其次,外觀保持模塊(APM)作為長(zhǎng)期記憶,它專(zhuān)注于從視頻的某一關(guān)鍵幀中提取重要的視覺(jué)特征,并將這些特征貫穿整個(gè)視頻生成過(guò)程,確保視頻中的對(duì)象或場(chǎng)景保持一致性和連貫性。

這兩個(gè)模塊的結(jié)合,使得StreamingT2V不僅能夠生成動(dòng)態(tài)連貫的視頻,還能在整個(gè)視頻中保持高質(zhì)量的視覺(jué)效果。

條件注意力模塊

它由一個(gè)特征提取器和一個(gè)特征注入器組成,并將其注入 Video-LDM UNet。

特征提取器使用幀圖像編碼器E cond,然后是與 Video-LDM UNet相同的編碼器層,直到中間層(并使用UNet的權(quán)重初始化)。

在特征注入方面,研究人員讓UNet中的每個(gè)長(zhǎng)程跳轉(zhuǎn)連接通過(guò)交叉關(guān)注來(lái)關(guān)注CAM生成的相應(yīng)特征。

特征提取器使用幀圖像編碼器E cond,然后是與Video-LDM UNet相同的編碼器層,直到中間層(并使用UNet的權(quán)重初始化)。

在特征注入方面,研究人員讓UNet中的每個(gè)長(zhǎng)程跳轉(zhuǎn)連接通過(guò)交叉關(guān)注來(lái)關(guān)注 CAM 生成的相應(yīng)特征。

CAM利用前一個(gè)分塊的最后F個(gè)條件幀作為輸入。交叉關(guān)注可將基礎(chǔ)模型的F幀條件化為CAM。相比之下,稀疏編碼器使用卷積進(jìn)行特征注入。

外觀保存模塊

自回歸視頻生成器通常會(huì)遺忘初始對(duì)象和場(chǎng)景特征,從而導(dǎo)致嚴(yán)重的外觀變化。

為了解決這個(gè)問(wèn)題,研究人員利用研究人員提出的「外觀保存模塊」(Appearance Preservation Module,APM),通過(guò)利用第一個(gè)片段的固定錨幀所包含的信息,將長(zhǎng)期記憶納入其中。這有助于在各代視頻塊中保持場(chǎng)景和物體特征(見(jiàn)下圖6)。

自動(dòng)回歸視頻增強(qiáng)

為了進(jìn)一步提高文本-視頻結(jié)果的質(zhì)量和分辨率,研究人員利用高分辨率(1280x720)文本-(短)視頻模型(Refiner Video-LDM,見(jiàn)圖3)對(duì)生成的24幀視頻塊進(jìn)行自回歸增強(qiáng)。

使用文本到視頻模型作為24幀視頻塊的提煉器/增強(qiáng)器,是通過(guò)在輸入視頻塊中添加大量噪聲,并使用文本到視頻擴(kuò)散模型進(jìn)行去噪來(lái)實(shí)現(xiàn)的。

更確切地說(shuō),研究人員使用一個(gè)高分辨率文本到視頻模型(例如MS-Vid2Vid-XL)和一個(gè)24幀的低分辨率視頻塊,首先將其雙線(xiàn)性放大到目標(biāo)高分辨率。

然后,研究人員使用圖像編碼器E對(duì)幀進(jìn)行編碼,從而得到潛碼。然后,研究人員應(yīng)用T ′ < T前向擴(kuò)散步驟,使xT′仍然包含信號(hào)信息(主要是視頻結(jié)構(gòu)信息),并使用高分辨率視頻擴(kuò)散模型對(duì)其進(jìn)行去噪。

評(píng)估

在定量評(píng)估方面,研究人員采用了一些指標(biāo)來(lái)評(píng)估研究人員方法的時(shí)間一致性、文本對(duì)齊和每幀質(zhì)量。

在時(shí)間一致性方面,研究人員引入了SCuts,即使用PySceneDetect軟件包中的AdaptiveDetector算法和默認(rèn)參數(shù),計(jì)算視頻中檢測(cè)到的場(chǎng)景切割次數(shù)。

此外,研究人員還提出了一種名為運(yùn)動(dòng)感知翹曲誤差(MAWE)的新指標(biāo),該指標(biāo)能連貫地評(píng)估運(yùn)動(dòng)量和翹曲誤差,當(dāng)視頻同時(shí)表現(xiàn)出一致性和大量運(yùn)動(dòng)時(shí),該指標(biāo)就會(huì)產(chǎn)生一個(gè)低值。

為此,研究人員使用OFS(光流得分)來(lái)測(cè)量運(yùn)動(dòng)量,它可以計(jì)算視頻中任意兩個(gè)連續(xù)幀之間所有光流向量的平均值。

此外,對(duì)于視頻V,研究人員還考慮了平均翹曲誤差W(V),該誤差測(cè)量了從幀到其翹曲后的平均L2像素距離平方。

其中,c對(duì)齊了兩個(gè)指標(biāo)的不同尺度。為此,研究人員對(duì)數(shù)據(jù)集驗(yàn)證視頻的一個(gè)子集進(jìn)行了回歸分析,得出c = 9.5。

MAWE要求高運(yùn)動(dòng)量和低翹曲誤差,以獲得較低的指標(biāo)值。對(duì)于涉及光流的指標(biāo),計(jì)算時(shí)將所有視頻的大小調(diào)整為720×720分辨率。

在視頻文本對(duì)齊方面,研究人員采用了CLIP文本圖像相似度得分(CLIP),它適用于視頻的所有鄭CLIP計(jì)算視頻序列中CLIP文本編碼與CLIP圖像編碼之間的余弦相似度。

對(duì)于每個(gè)幀的質(zhì)量,研究人員在視頻所有幀的CLIP圖像嵌入基礎(chǔ)上計(jì)算出美學(xué)分?jǐn)?shù)。

所有指標(biāo)都是先按視頻計(jì)算,然后對(duì)所有視頻求平均值,所有視頻都生成了80幀用于定量分析。

研究人員將StreamingT2V與主流的視頻生成模型和構(gòu)架在這個(gè)框架下進(jìn)行了比較。

可以看到(上圖),在這個(gè)針對(duì)時(shí)間一致性、文本對(duì)齊和每幀質(zhì)量的測(cè)試集上,StreamingT2V的成績(jī)確實(shí)是最好的。

參考資料:

https://streamingt2v.github.io/

贊助本站

人工智能實(shí)驗(yàn)室
相關(guān)內(nèi)容
AiLab云推薦
推薦內(nèi)容
展開(kāi)

熱門(mén)欄目HotCates

Copyright © 2010-2024 AiLab Team. 人工智能實(shí)驗(yàn)室 版權(quán)所有    關(guān)于我們 | 聯(lián)系我們 | 廣告服務(wù) | 公司動(dòng)態(tài) | 免責(zé)聲明 | 隱私條款 | 工作機(jī)會(huì) | 展會(huì)港