當(dāng)前位置：人工智能實(shí)驗(yàn)室> 人工智能應(yīng)用 > 超越Sora極限，120秒超長(zhǎng)AI視頻模型誕生！

超越Sora極限，120秒超長(zhǎng)AI視頻模型誕生！
來(lái)源：互聯(lián)網(wǎng) 發(fā)布日期：2024-03-26 13:47:10 瀏覽：7562次

導(dǎo)讀：新智元報(bào)道編輯：潤(rùn) 好困【新智元導(dǎo)讀】UT奧斯丁等機(jī)構(gòu)提出了一種名為StreamingT2V的技術(shù)，讓AI視頻的長(zhǎng)度擴(kuò)展至近乎無(wú)限，而且一致性，動(dòng)作幅度也非常好！ Sora一出，文生視頻的在長(zhǎng)度這個(gè)指標(biāo)上就卷的沒(méi)邊了。從Pika和Runway的4秒，到VideoPoet的理論無(wú)...

新智元報(bào)道

編輯：潤(rùn) 好困

【新智元導(dǎo)讀】UT奧斯丁等機(jī)構(gòu)提出了一種名為StreamingT2V的技術(shù)，讓AI視頻的長(zhǎng)度擴(kuò)展至近乎無(wú)限，而且一致性，動(dòng)作幅度也非常好！

Sora一出，文生視頻的在長(zhǎng)度這個(gè)指標(biāo)上就卷的沒(méi)邊了。

從Pika和Runway的4秒，到VideoPoet的理論無(wú)限長(zhǎng)，各個(gè)團(tuán)隊(duì)都在通過(guò)各種不同的技術(shù)路徑不斷延長(zhǎng)視頻生成長(zhǎng)度的上限。

最近，來(lái)自Picsart AI Research，UT Austin和Shi Labs的研究團(tuán)隊(duì)提出了一個(gè)新的文生視頻技術(shù)StreamingT2，可以生成高度一致而且長(zhǎng)度可擴(kuò)展的視頻。

文生視頻技術(shù)進(jìn)入長(zhǎng)視頻時(shí)代。

論文地址：https://arxiv.org/abs/2403.14773

具體來(lái)說(shuō)，StreamingT2V可以生成1200幀甚至理論上無(wú)限長(zhǎng)的長(zhǎng)視頻，并且能保證視頻內(nèi)容過(guò)渡非常自然平滑，內(nèi)容豐富多樣。

帝國(guó)士兵在煙霧中不停奔跑，雖然動(dòng)作很滑稽，但是幅度很大，人物一致性很好。

它的核心構(gòu)架由3個(gè)部分組成：

- 一個(gè)短期記憶單元條件注意力模塊（CAM），它能夠確保視頻的連貫性，通過(guò)關(guān)注前一個(gè)視頻片段的特征來(lái)引導(dǎo)當(dāng)前片段的生成；

- 一個(gè)長(zhǎng)期記憶單元外觀保持模塊，它幫助模型記住視頻開(kāi)頭的場(chǎng)景和對(duì)象，防止隨著時(shí)間推移而遺忘開(kāi)頭的場(chǎng)景；

- 一種隨機(jī)混合技術(shù)，使得即使是無(wú)限長(zhǎng)的視頻也能保持一致性，避免了視頻片段之間的不協(xié)調(diào)。

而且，StreamingT2V的特點(diǎn)并不限定于使用特定的文生視頻模型。

這意味著只要將基礎(chǔ)模型的性能不斷提高，生成的視頻效果還能不斷提升。

效果展示

1200幀，2分鐘

可以看到，在兩分鐘的視頻中場(chǎng)景的動(dòng)態(tài)效果很好，雖然在細(xì)微材質(zhì)上還是有一些粗糙和畸變，但是整體的運(yùn)動(dòng)幅度基本上已經(jīng)達(dá)到了Sora的水準(zhǔn)。

和其他的「長(zhǎng)」視頻AI技術(shù)相比，StreamingT2V的動(dòng)態(tài)效果明顯好太多了。

600幀1分鐘

整個(gè)鏡頭的晃動(dòng)感有一種手持?jǐn)z影機(jī)拍攝的風(fēng)格，而且鳥(niǎo)的動(dòng)作細(xì)節(jié)也很真實(shí)。

蜜蜂在花上的運(yùn)動(dòng)效果也很逼真，鏡頭運(yùn)動(dòng)幅度和動(dòng)作幅度都很大，而且蜜蜂形態(tài)的一致性保持得也很好。

航拍鏡頭的運(yùn)動(dòng)也很合理，只是場(chǎng)景中的大面積的植物顏色和細(xì)節(jié)還是不太穩(wěn)定。

雖然珊瑚還是會(huì)出現(xiàn)無(wú)中生有的情況，但是鏡頭運(yùn)動(dòng)的幅度和場(chǎng)景整體的一致性已經(jīng)非常高了。

240幀，24秒

而這個(gè)圣誕老人雖然動(dòng)作顯得非常鬼畜滑稽，但是一致性保持得非常好，動(dòng)作幅度更是吊打大部分的文生視頻模型。

對(duì)于爆炸和煙霧的處理也已經(jīng)非常成熟，逼真了。

開(kāi)花的動(dòng)態(tài)效果非常自然，已經(jīng)可以以假亂真真實(shí)的加速播放的靜物運(yùn)動(dòng)攝影了。

80幀，8秒

在時(shí)間更短的的視頻中，無(wú)論是內(nèi)容的一致性和動(dòng)作的自然程度和動(dòng)作幅度效果都很好。

只是在場(chǎng)景和環(huán)境的表現(xiàn)上，還有一些明顯的瑕疵。

實(shí)現(xiàn)方法

StreamingT2V技術(shù)的工作流程可以分為三個(gè)主要階段。

首先，在初始化階段，研究人員利用一個(gè)文本到視頻的模型來(lái)創(chuàng)造出視頻的前16幀，這相當(dāng)于視頻的起始段落。

接下來(lái)，進(jìn)入Streaming T2V階段，研究人員會(huì)繼續(xù)生成視頻的后續(xù)幀，這一過(guò)程是通過(guò)一種稱(chēng)為自回歸的技術(shù)來(lái)實(shí)現(xiàn)的，意味著每一個(gè)新幀的生成都會(huì)參考之前已生成的幀，從而確保視頻內(nèi)容的連貫性。

最后，在Streaming Refinement階段，研究人員對(duì)已生成的長(zhǎng)視頻（無(wú)論是600癥1200幀還是更多）進(jìn)行進(jìn)一步的優(yōu)化。

在這一階段，研究人員采用了一種高分辨率的文本到短視頻模型，并結(jié)合了研究人員獨(dú)特的隨機(jī)混合技術(shù)，這樣不僅提升了視頻的畫(huà)質(zhì)，還增強(qiáng)了視頻的動(dòng)態(tài)效果和視覺(jué)吸引力。

StreamingT2V技術(shù)通過(guò)引入兩個(gè)關(guān)鍵模塊來(lái)增強(qiáng)視頻的生成質(zhì)量。

首先，條件注意力模塊（CAM）充當(dāng)短期記憶，它通過(guò)一個(gè)特殊的編碼器分析前一個(gè)視頻片段，確保視頻的連續(xù)性和流暢過(guò)渡。這個(gè)機(jī)制特別適用于動(dòng)作頻繁的視頻，使得視頻看起來(lái)更加自然流暢。

其次，外觀保持模塊（APM）作為長(zhǎng)期記憶，它專(zhuān)注于從視頻的某一關(guān)鍵幀中提取重要的視覺(jué)特征，并將這些特征貫穿整個(gè)視頻生成過(guò)程，確保視頻中的對(duì)象或場(chǎng)景保持一致性和連貫性。

這兩個(gè)模塊的結(jié)合，使得StreamingT2V不僅能夠生成動(dòng)態(tài)連貫的視頻，還能在整個(gè)視頻中保持高質(zhì)量的視覺(jué)效果。

條件注意力模塊

它由一個(gè)特征提取器和一個(gè)特征注入器組成，并將其注入 Video-LDM UNet。

特征提取器使用幀圖像編碼器E cond，然后是與 Video-LDM UNet相同的編碼器層，直到中間層（并使用UNet的權(quán)重初始化）。

在特征注入方面，研究人員讓UNet中的每個(gè)長(zhǎng)程跳轉(zhuǎn)連接通過(guò)交叉關(guān)注來(lái)關(guān)注CAM生成的相應(yīng)特征。

特征提取器使用幀圖像編碼器E cond，然后是與Video-LDM UNet相同的編碼器層，直到中間層（并使用UNet的權(quán)重初始化）。

在特征注入方面，研究人員讓UNet中的每個(gè)長(zhǎng)程跳轉(zhuǎn)連接通過(guò)交叉關(guān)注來(lái)關(guān)注 CAM 生成的相應(yīng)特征。

CAM利用前一個(gè)分塊的最后F個(gè)條件幀作為輸入。交叉關(guān)注可將基礎(chǔ)模型的F幀條件化為CAM。相比之下，稀疏編碼器使用卷積進(jìn)行特征注入。

外觀保存模塊

自回歸視頻生成器通常會(huì)遺忘初始對(duì)象和場(chǎng)景特征，從而導(dǎo)致嚴(yán)重的外觀變化。

為了解決這個(gè)問(wèn)題，研究人員利用研究人員提出的「外觀保存模塊」（Appearance Preservation Module，APM），通過(guò)利用第一個(gè)片段的固定錨幀所包含的信息，將長(zhǎng)期記憶納入其中。這有助于在各代視頻塊中保持場(chǎng)景和物體特征（見(jiàn)下圖6）。

自動(dòng)回歸視頻增強(qiáng)

為了進(jìn)一步提高文本-視頻結(jié)果的質(zhì)量和分辨率，研究人員利用高分辨率（1280x720）文本-（短）視頻模型（Refiner Video-LDM，見(jiàn)圖3）對(duì)生成的24幀視頻塊進(jìn)行自回歸增強(qiáng)。

使用文本到視頻模型作為24幀視頻塊的提煉器/增強(qiáng)器，是通過(guò)在輸入視頻塊中添加大量噪聲，并使用文本到視頻擴(kuò)散模型進(jìn)行去噪來(lái)實(shí)現(xiàn)的。

更確切地說(shuō)，研究人員使用一個(gè)高分辨率文本到視頻模型（例如MS-Vid2Vid-XL）和一個(gè)24幀的低分辨率視頻塊，首先將其雙線(xiàn)性放大到目標(biāo)高分辨率。

然后，研究人員使用圖像編碼器E對(duì)幀進(jìn)行編碼，從而得到潛碼。然后，研究人員應(yīng)用T ′ < T前向擴(kuò)散步驟，使xT′仍然包含信號(hào)信息（主要是視頻結(jié)構(gòu)信息），并使用高分辨率視頻擴(kuò)散模型對(duì)其進(jìn)行去噪。

評(píng)估

在定量評(píng)估方面，研究人員采用了一些指標(biāo)來(lái)評(píng)估研究人員方法的時(shí)間一致性、文本對(duì)齊和每幀質(zhì)量。

在時(shí)間一致性方面，研究人員引入了SCuts，即使用PySceneDetect軟件包中的AdaptiveDetector算法和默認(rèn)參數(shù)，計(jì)算視頻中檢測(cè)到的場(chǎng)景切割次數(shù)。

此外，研究人員還提出了一種名為運(yùn)動(dòng)感知翹曲誤差（MAWE）的新指標(biāo)，該指標(biāo)能連貫地評(píng)估運(yùn)動(dòng)量和翹曲誤差，當(dāng)視頻同時(shí)表現(xiàn)出一致性和大量運(yùn)動(dòng)時(shí)，該指標(biāo)就會(huì)產(chǎn)生一個(gè)低值。

為此，研究人員使用OFS（光流得分）來(lái)測(cè)量運(yùn)動(dòng)量，它可以計(jì)算視頻中任意兩個(gè)連續(xù)幀之間所有光流向量的平均值。

此外，對(duì)于視頻V，研究人員還考慮了平均翹曲誤差W(V)，該誤差測(cè)量了從幀到其翹曲后的平均L2像素距離平方。

其中，c對(duì)齊了兩個(gè)指標(biāo)的不同尺度。為此，研究人員對(duì)數(shù)據(jù)集驗(yàn)證視頻的一個(gè)子集進(jìn)行了回歸分析，得出c = 9.5。

MAWE要求高運(yùn)動(dòng)量和低翹曲誤差，以獲得較低的指標(biāo)值。對(duì)于涉及光流的指標(biāo)，計(jì)算時(shí)將所有視頻的大小調(diào)整為720×720分辨率。

在視頻文本對(duì)齊方面，研究人員采用了CLIP文本圖像相似度得分（CLIP），它適用于視頻的所有鄭CLIP計(jì)算視頻序列中CLIP文本編碼與CLIP圖像編碼之間的余弦相似度。

對(duì)于每個(gè)幀的質(zhì)量，研究人員在視頻所有幀的CLIP圖像嵌入基礎(chǔ)上計(jì)算出美學(xué)分?jǐn)?shù)。

所有指標(biāo)都是先按視頻計(jì)算，然后對(duì)所有視頻求平均值，所有視頻都生成了80幀用于定量分析。

研究人員將StreamingT2V與主流的視頻生成模型和構(gòu)架在這個(gè)框架下進(jìn)行了比較。

可以看到（上圖），在這個(gè)針對(duì)時(shí)間一致性、文本對(duì)齊和每幀質(zhì)量的測(cè)試集上，StreamingT2V的成績(jī)確實(shí)是最好的。

參考資料：

https://streamingt2v.github.io/

相關(guān)熱詞： 超越 Sora 極限 120秒超長(zhǎng) 視頻模型誕生

上一篇：機(jī)器人行業(yè)多個(gè)會(huì)議即將舉行人形機(jī)器人板塊有望迎來(lái)催化

下一篇：以色列退伍軍人用AI繪制地下3D地圖，剛?cè)诹?個(gè)億

AiLab云推薦

超越Sora極限，120秒超長(zhǎng)AI視頻模型誕生！
來(lái)源：互聯(lián)網(wǎng) 發(fā)布日期：2024-03-26 13:47:10 瀏覽：7562次

相關(guān)內(nèi)容

AiLab云推薦

最新資訊

本月熱點(diǎn)

熱門(mén)排行

推薦內(nèi)容

在線(xiàn)客服

熱門(mén)欄目HotCates

關(guān)于我們

版權(quán)聲明

超越Sora極限，120秒超長(zhǎng)AI視頻模型誕生！ 來(lái)源：互聯(lián)網(wǎng) 發(fā)布日期：2024-03-26 13:47:10 瀏覽：7562次

相關(guān)內(nèi)容

AiLab云推薦

最新資訊

本月熱點(diǎn)

熱門(mén)排行

推薦內(nèi)容

在線(xiàn)客服

熱門(mén)欄目HotCates

關(guān)于我們

版權(quán)聲明

超越Sora極限，120秒超長(zhǎng)AI視頻模型誕生！
來(lái)源：互聯(lián)網(wǎng) 發(fā)布日期：2024-03-26 13:47:10 瀏覽：7562次