當(dāng)前位置：人工智能實(shí)驗(yàn)室> 人工智能動態(tài) > 揭秘最強(qiáng)視頻生成模型Sora，OpenAI是怎么實(shí)現(xiàn)1分鐘一鏡到底的？

揭秘最強(qiáng)視頻生成模型Sora，OpenAI是怎么實(shí)現(xiàn)1分鐘一鏡到底的？
來源：互聯(lián)網(wǎng) 發(fā)布日期：2024-02-20 19:41:15 瀏覽：8615次

導(dǎo)讀：最近，OpenAI 從「彈藥庫」里掏出了 AI 視頻生成工具 Sora，瞬間占據(jù)了各大新聞?lì)^條。就連一向和 OpenAI 不對付的馬斯克也甘心承認(rèn) Sora 的強(qiáng)大，并借此盛贊「在未來的幾年里，人類借助 AI 的力量，將創(chuàng)造出卓越的作品。」 Sora 的強(qiáng)大之處在于能夠根據(jù)文本...

最近，OpenAI 從「彈藥庫」里掏出了 AI 視頻生成工具 Sora，瞬間占據(jù)了各大新聞?lì)^條。

就連一向和 OpenAI 不對付的馬斯克也甘心承認(rèn) Sora 的強(qiáng)大，并借此盛贊「在未來的幾年里，人類借助 AI 的力量，將創(chuàng)造出卓越的作品�！�

Sora 的強(qiáng)大之處在于能夠根據(jù)文本描述，生成長達(dá) 60 秒連貫流暢的的視頻，其中包含細(xì)膩復(fù)雜的場景、生動的角色表情以及復(fù)雜的鏡頭運(yùn)動。

對比其他只能生成短至個(gè)位數(shù)長度的視頻，Sora 的一分鐘時(shí)長無疑起到了掀桌的效果。

更為重要的是，無論是在視頻的真實(shí)性、長度、穩(wěn)定性、一致性、分辨率還是對文本的理解方面，Sora 均展現(xiàn)出了目前最佳的水平。讓我們先來欣賞一下官方發(fā)布的演示視頻片段。

Prompt: Beautiful, snowy Tokyo city is bustling. The camera moves through the bustling city street, following several people enjoying the beautiful snowy weather and shopping at nearby stalls. Gorgeous sakura petals are flying through the wind along with snowflakes.

在這段視頻中，無人機(jī)視角下的一對情侶穿梭于繁華的城市街道，美麗的櫻花花瓣伴隨著雪花在空中翩翩起舞。

當(dāng)其他工具還在努力保持單鏡頭穩(wěn)定時(shí)，Sora 已經(jīng)絲滑實(shí)現(xiàn)多鏡頭的無縫切換，且鏡頭切換的連貫性和對象的一致性效果都遙遙領(lǐng)先，真降維打擊。

▲源自 @gabor

在過去，要拍攝這樣一段視頻可能需要耗費(fèi)大量時(shí)間和精力進(jìn)行劇本創(chuàng)作、分鏡頭設(shè)計(jì)等一系列繁瑣的工作。而現(xiàn)在，僅需一段簡單的文本描述，Sora 就能徹底生成這樣的大場面，相關(guān)從業(yè)者或許已經(jīng)開始瑟瑟發(fā)抖了。

網(wǎng)友 @debarghya_das 用 OpenAI Sora 剪輯、David Attenborough 在 Eleven Labs 上的聲音以及 iMovie 上 Youtube 上的一些自然音樂樣本，在 15 分鐘內(nèi)制作了這個(gè) 20 多秒的預(yù)告片。

Sora 是怎么實(shí)現(xiàn)強(qiáng)大效果的？

OpenAI 也發(fā)布了一份關(guān)于 Sora 詳細(xì)的技術(shù)報(bào)告，介紹了其背后的技術(shù)原理和應(yīng)用。

那么，Sora 是如何實(shí)現(xiàn)這一突破的呢？受到 LLM 成功實(shí)踐經(jīng)驗(yàn)的啟發(fā)，OpenAI 引入了視覺塊嵌入代碼（patches)，這是一種高度可擴(kuò)展且有效的視覺數(shù)據(jù)表現(xiàn)形式，能夠極大地提升生成模型處理多樣化視頻和圖像數(shù)據(jù)的能力。

在高維度空間中，OpenAI 首先將視頻數(shù)據(jù)壓縮至一個(gè)低維潛在空間，然后再將其分解為時(shí)空嵌入，從而將視頻轉(zhuǎn)化為一系列編碼塊。

接下來，OpenAI 訓(xùn)練了一個(gè)專門用于降低視覺數(shù)據(jù)維度的網(wǎng)絡(luò)。該網(wǎng)絡(luò)以原始視頻作為輸入，輸出的潛在表示在時(shí)間和空間上都經(jīng)過了壓縮。Sora 正是在這個(gè)壓縮后的潛在空間中進(jìn)行訓(xùn)練，并在該空間內(nèi)生成視頻。

此外，OpenAI 還訓(xùn)練了一個(gè)解碼器模型，能夠?qū)⑦@些潛在表征還原為像素級的視頻圖像。

通過對壓縮后的視頻輸入進(jìn)行處理，研究人員能夠提取出一系列的時(shí)空 patchs，這些 patchs 在模型中扮演著類似于 Transformer Tokens 的角色。

采用基于 patchs 的表現(xiàn)形式，Sora 能夠適應(yīng)不同分辨率、持續(xù)時(shí)間及寬高比的視頻和圖像，在生成新視頻內(nèi)容時(shí)，可以通過將這些隨機(jī)初始化的 patchs 按照需要的大小排列成網(wǎng)格，來控制最終視頻的大小和形式。

盡管上述原理聽起來頗為復(fù)雜，但實(shí)際上 OpenAI 所用到的這項(xiàng)新技術(shù)視覺塊嵌入代碼（簡稱視覺塊）就好比是將一堆雜亂無章的積木整理好放入一個(gè)小盒子中。如此一來，即便面對眾多積木，只要找到了這個(gè)小盒子就能輕松找到所需積木。

由于視頻數(shù)據(jù)被轉(zhuǎn)化為了一個(gè)個(gè)小方塊的形式，當(dāng) OpenAI 向 Sora 提供一個(gè)新的視頻任務(wù)時(shí)，他們首先會從該視頻中提取出一些包含時(shí)間和空間信息的小方塊。隨后將這些小方塊交給 Sora 讓其根據(jù)這些信息生成新的視頻。

這樣就可以像拼拼圖一樣，把視頻重新組合起來。這樣做的好處是，計(jì)算機(jī)可以更快地學(xué)習(xí)和處理各種不同類型的圖片和視頻。

隨著 Sora 的訓(xùn)練越來越深入，OpenAI 的研究人員還發(fā)現(xiàn)隨著訓(xùn)練計(jì)算量的增加，樣本質(zhì)量得到了顯著提高。OpenAI 發(fā)現(xiàn)直接在數(shù)據(jù)的原始尺寸上進(jìn)行訓(xùn)練具有諸多優(yōu)勢：

Sora 訓(xùn)練時(shí)沒有對素材進(jìn)行裁切，使得 Sora 能夠直接按照不同設(shè)備的原生寬高比創(chuàng)建內(nèi)容。在視頻的原生寬高比上進(jìn)行訓(xùn)練，能夠顯著提升視頻的構(gòu)圖與布局質(zhì)量。

此外，Sora 還具有以下特性：

訓(xùn)練文本到視頻生成系統(tǒng)需要大量帶有文字標(biāo)題的視頻。OpenAI 將在 DALLE 3 中引入的重新標(biāo)注技術(shù)應(yīng)用到視頻上。

類似于 DALLE 3，OpenAI 利用 GPT 將用戶的簡短提示轉(zhuǎn)換成更長的詳細(xì)說明，然后發(fā)送給視頻模型，從而使得 Sora 能夠生成高質(zhì)量的視頻。

除了可以從文字轉(zhuǎn)化而來，Sora 還能接受圖片或已有視頻的輸入。這項(xiàng)功能讓 Sora 能夠完成各種圖片和視頻編輯任務(wù)，比如制作無縫循環(huán)視頻、給靜態(tài)圖片添加動畫效果、延長視頻的播放時(shí)間等。

形成「SORA」字樣的逼真云朵圖像。

在一個(gè)裝飾華麗的歷史大廳里，一道巨大的海浪正準(zhǔn)備沖擊而來。兩位沖浪者抓住機(jī)會，巧妙地駕馭著海浪。

無需任何預(yù)先示例，Sora 就能改變視頻中的風(fēng)格和環(huán)境。甚至兩個(gè)風(fēng)格迥異的視頻也能平滑連接起來。

Sora 還能文生圖，研究團(tuán)隊(duì)通過在一個(gè)時(shí)間范圍僅為一幀的空間網(wǎng)格里排列高斯噪聲塊來創(chuàng)造出各種尺寸的圖像，最大分辨率達(dá)到了 2048x2048。

實(shí)在的 OpenAI 也坦率地承認(rèn)了 Sora 當(dāng)前存在的局限問題，比如它無法模擬復(fù)雜場景的物理效應(yīng)，以及理解某些特定因果關(guān)系。舉例來說，它無法精確模擬像玻璃破碎這樣的基本物理互動。

▲ 相反方向的跑步

不過 OpenAI 堅(jiān)信，Sora 目前的能力表明，持續(xù)擴(kuò)展視頻模型是朝著開發(fā)能夠模擬物理和數(shù)字世界及其內(nèi)部的物體、動物和人類的有能力的模擬器的一條充滿希望的途徑。

世界模型，AI 的下一個(gè)方向？

OpenAI 發(fā)現(xiàn)，在大規(guī)模訓(xùn)練下，Sora 展示出了一系列引人注目的涌現(xiàn)能力，能夠在一定程度上模擬真實(shí)世界中的人、動物和環(huán)境。

這些能力并非基于對三維空間或物體的特定預(yù)設(shè)，而是由大規(guī)模數(shù)據(jù)驅(qū)動產(chǎn)生的。

三維空間的連貫性

Sora 能生成帶有動態(tài)視角變化的視頻。當(dāng)攝像機(jī)位置和角度變動時(shí)，視頻中的人物和場景元素能夠在三維空間連貫移動。遠(yuǎn)距離連續(xù)性與物體持久性

即使人物、動物或物體被遮擋或移出畫面，Sora 也能保持長時(shí)間視頻的連續(xù)性。同樣，它能在同一視頻樣本中多次展示同一角色，并確保外觀一致。數(shù)字世界的模擬

Sora 還能模擬數(shù)字化過程，如視頻游戲，只需提及「Minecraft」等字樣，就能激發(fā)其相關(guān)能力。

OpenAI 將 Sora 視為「能夠理解和模擬現(xiàn)實(shí)世界的模型的基垂，相信其能力「將是實(shí)現(xiàn) AGI 的重要里程碑」。

對于 Sora 的到來，英偉達(dá)高級科學(xué)家 Jim Fan 表示：

如果你認(rèn)為 OpenAI 的 Sora 就像 DALLE 那樣，是一個(gè)用于創(chuàng)意實(shí)驗(yàn)的工具，那你可能需要重新考慮了。

Sora 實(shí)際上是一款基于數(shù)據(jù)的物理模擬引擎，它能夠模擬出真實(shí)或虛構(gòu)的世界。這款模擬器通過去噪和梯度計(jì)算，學(xué)會了復(fù)雜的圖像渲染、「直觀」的物理行為、長遠(yuǎn)規(guī)劃能力以及語義層面的理解。

而這種模型能力的基礎(chǔ)正是世界通用模型，這是一種人工智能系統(tǒng)，它的目標(biāo)是建立一個(gè)可以更新狀態(tài)的神經(jīng)網(wǎng)絡(luò)模塊，用以記憶和建模環(huán)境。

這種模型能夠根據(jù)當(dāng)前的觀測（如圖像、狀態(tài)等）和即將采取的動作，預(yù)測下一個(gè)可能的觀測。它通過學(xué)習(xí)世界的規(guī)律和常識，模擬環(huán)境中可能的未來事件。

實(shí)際上，世界模型并不是什么新鮮的概念，早在去年 12 月，AI 視頻生成的領(lǐng)頭羊 Runway 就官宣下場打造通用世界模型，目的是創(chuàng)建一種與現(xiàn)有的 LLM 不同，并且能夠更真實(shí)模擬現(xiàn)實(shí)世界的人工智能系統(tǒng)。

具體來說，世界模型的核心思想是通過記憶歷史經(jīng)驗(yàn)來學(xué)習(xí)世界的運(yùn)作方式，進(jìn)而預(yù)測未來可能發(fā)生的事件。例如，從一段物體下落的錄像中，模型可以根據(jù)當(dāng)前的畫面預(yù)測下一幀的畫面，從而學(xué)習(xí)到物體運(yùn)動的物理規(guī)律。

圖靈獎得主 Yann LeCun 也曾提出過類似的概念，并批評了基于概率生成自回歸的大模型，如 GPT，認(rèn)為這類模型無法破解幻覺難題。LeCun 和他的團(tuán)隊(duì)甚至預(yù)言，GPT 這類模型在未來五年內(nèi)可能會被淘汰。

世界模型可以被看作是人工智能領(lǐng)域中，試圖創(chuàng)建更接近人類智能水平 AI 的一個(gè)研究方向。通過模擬和學(xué)習(xí)真實(shí)世界的環(huán)境和事件，世界模型有潛力推動 AI 向更高層次的模擬和預(yù)測能力發(fā)展。

2 月份的時(shí)候，知名風(fēng)險(xiǎn)投資公司 a16z 的合伙人 Justine Moore 深入分析了 AI 視頻生成領(lǐng)域的現(xiàn)狀。在生成式 AI 逐漸步入大眾視野的兩年間，AI 視頻生成領(lǐng)域迎來了百花齊放，百家爭鳴的繁榮景象。

隨著 OpenAI Sora 的加入，AI 視頻生成領(lǐng)域?qū)⑾破鹛咸炀蘩�，現(xiàn)有的主流平臺如 Runway、Pika 和 Stable Video Diffusion 等都可能會受到波及。

同時(shí)，獨(dú)立創(chuàng)作者的游戲規(guī)則將會徹底改變，任何人只要有創(chuàng)意和想法，就可以使用 Sora 來生成自己的視頻內(nèi)容。創(chuàng)作門檻的降低，也意味著獨(dú)立創(chuàng)作者將會迎來黃金時(shí)代。

正如《三體》中所說，「主不在乎」，無論目前的競爭態(tài)勢如何，AI 視頻生成領(lǐng)域都可能會被新的技術(shù)和創(chuàng)新所顛覆。而 Sora 的入局僅僅只是個(gè)開始，遠(yuǎn)不是終點(diǎn)。

相關(guān)熱詞： 揭秘最強(qiáng) 視頻生成模型 Sora OpenAI 怎么

上一篇：芒果超媒：將探索文生視頻等AI技術(shù)在傳媒領(lǐng)域的落地應(yīng)用

下一篇：穿越奇點(diǎn) | AI進(jìn)化的“奇點(diǎn)”來了嗎？北京社科院王鵬：人類已處于這一時(shí)刻前夜

AiLab云推薦

揭秘最強(qiáng)視頻生成模型Sora，OpenAI是怎么實(shí)現(xiàn)1分鐘一鏡到底的？
來源：互聯(lián)網(wǎng) 發(fā)布日期：2024-02-20 19:41:15 瀏覽：8615次

相關(guān)內(nèi)容

AiLab云推薦

最新資訊

本月熱點(diǎn)

熱門排行

推薦內(nèi)容

在線客服

熱門欄目HotCates

關(guān)于我們

版權(quán)聲明

揭秘最強(qiáng)視頻生成模型Sora，OpenAI是怎么實(shí)現(xiàn)1分鐘一鏡到底的？ 來源：互聯(lián)網(wǎng) 發(fā)布日期：2024-02-20 19:41:15 瀏覽：8615次

相關(guān)內(nèi)容

AiLab云推薦

最新資訊

本月熱點(diǎn)

熱門排行

推薦內(nèi)容

在線客服

熱門欄目HotCates

關(guān)于我們

版權(quán)聲明

揭秘最強(qiáng)視頻生成模型Sora，OpenAI是怎么實(shí)現(xiàn)1分鐘一鏡到底的？
來源：互聯(lián)網(wǎng) 發(fā)布日期：2024-02-20 19:41:15 瀏覽：8615次