當(dāng)前位置：人工智能實驗室> 人工智能動態(tài) > 哲學(xué)家萬字解析Sora本質(zhì)，楊立昆點贊轉(zhuǎn)發(fā)，AI視頻離世界模擬器還多遠

哲學(xué)家萬字解析Sora本質(zhì)，楊立昆點贊轉(zhuǎn)發(fā)，AI視頻離世界模擬器還多遠
來源：互聯(lián)網(wǎng) 發(fā)布日期：2024-03-11 08:22:48 瀏覽：4660次

導(dǎo)讀：智東西（公眾號：zhidxcom）編譯|香草編輯|李水青近日，深度學(xué)習(xí)三巨頭之一、Meta首席科學(xué)家楊立昆點贊分享了一篇萬字博文《視頻生成器是世界模擬器嗎？（Are Video Generation Models World Simulators?）》。 ▲楊立昆在X平臺上轉(zhuǎn)發(fā)并稱這是一篇好...

智東西（公眾號：zhidxcom）

編譯|香草

編輯|李水青

近日，深度學(xué)習(xí)三巨頭之一、Meta首席科學(xué)家楊立昆點贊分享了一篇萬字博文《視頻生成器是世界模擬器嗎？（Are Video Generation Models World Simulators?）》。

▲楊立昆在X平臺上轉(zhuǎn)發(fā)并稱這是一篇好文章

文章從Sora的工作原理、模擬假說、直觀物理學(xué)、世界模型的定義、圖像生成等角度，深入探討了標題所提出的問題，并得出結(jié)論：像Sora這樣的視頻生成器，可能不是人們想象中的“世界模擬器”，但從更寬泛的定義上來看，它們可以被視作有限的“世界模型”。

本文作者以文生圖模型為例證，論述了Sora可能和Stable Diffusion類似，生成過程超出了對像素空間表面統(tǒng)計的擬合，可能受到3D幾何和動態(tài)關(guān)鍵方面的潛在表示的影響，從而學(xué)到有用的深度、因果等特征的抽象表征。換句話說，Sora能在潛在空間中學(xué)習(xí)抽象規(guī)律，具有部分模擬世界的能力。

自Sora于今年初發(fā)布以來，“Sora是否理解物理世界”話題引來眾多大佬下場討論。其中英偉達的科學(xué)家Jim Fan將Sora描述為“數(shù)據(jù)驅(qū)動的物理引擎”；楊立坤則多次開噴Sora，稱Sora的訓(xùn)練方式無法構(gòu)建世界模型，通過生成像素的方式來建模世界，與幾乎已經(jīng)被拋棄的“綜合分析”方法一樣，浪費時間且“是一次徹頭徹尾的失敗”。

該文章的作者是澳大利亞悉尼麥考瑞大學(xué)的哲學(xué)講師拉斐爾米利埃爾（Raphal Millière），他主要從事AI、認知科學(xué)和心智哲學(xué)等方面的學(xué)術(shù)研究。以下是對該文章的全文編譯，由于篇幅原因進行了部分刪減。

▲文章首頁截圖

原文地址：

https://artificialcognition.net/posts/video-generation-world-simulators/#concluding-thoughts

一、Sora是一項工程壯舉，架構(gòu)沒有真正突破

2024年2月16日，OpenAI推出Sora，一個令人印象深刻的新型深度學(xué)習(xí)模型，可以根據(jù)文本提示生成視頻和圖像。Sora可以生成長達一分鐘的視頻，具有不同的分辨率和寬高比。雖然目前無法測試該模型，但OpenAI挑選的結(jié)果表明它在先前的技術(shù)水平上有了巨大的改進。

OpenAI有些自大地聲稱Sora是一個“世界模擬器”。那么什么是世界模擬器呢？這是OpenAI對訓(xùn)練Sora動機的陳述：

“我們正在教AI如何理解和模擬物理世界中的運動，目標是訓(xùn)練出能夠幫助人們解決需要與現(xiàn)實世界進行交互的問題的模型。”

OpenAI還發(fā)布了Sora技術(shù)報告，其中闡述了對Sora理論意義的理解：

“我們的研究結(jié)果表明，擴展視頻生成模型是建立物理世界通用模擬器的一條可行之路。”

Sora的技術(shù)報告對細節(jié)描述得很少，但提供了一些關(guān)于架構(gòu)的線索。其核心是一個擴散變換器（Diffusion Transformer，簡稱DiT），這是比爾皮布爾斯（Bill Peebles，也是Sora的主要作者之一）紐約大學(xué)的謝賽寧設(shè)計的一種架構(gòu)。

DiT是一種具有Transformer主干網(wǎng)絡(luò)的擴散模型。我們熟悉的圖像生成模型，如Stable Diffusion是潛在擴散模型。它們使用預(yù)訓(xùn)練的變分自動編碼器（VAE）將原始圖像從像素空間壓縮到潛在空間；然后，擴散模型在從VAE學(xué)習(xí)的較低維潛在空間上進行訓(xùn)練，而不是在高維像素空間上。這種擴散過程通常使用U-Net骨干實現(xiàn)。U-Net是一種卷積神經(jīng)網(wǎng)絡(luò)，最初用于圖像分割，后來被調(diào)整用于去噪擴散。

DiT架構(gòu)受潛在擴散模型的啟發(fā)，但將U-Net骨干替換為修改后的視覺Transformer（ViT）。ViT是專門用于視覺任務(wù)的Transformer模型，它不以語言標記作為輸入，而是接收圖像塊的序列。例如，一幅圖像可以分割成16*16的補丁（Patches），從而為Transformer提供256個輸入Tokens。同樣，作為DiT的核心修改后，ViT接受來自VAE的圖像補丁的潛在表示作為序列輸入Tokens。相較于帶有U-Net的傳統(tǒng)潛在擴散模型，DiT具有一些優(yōu)勢：效率更高、擴展性更好，而且易于適應(yīng)不同的生成分辨率。

在Sora之前，DiT架構(gòu)已經(jīng)被用于文本條件下的圖像和視頻生成。OpenAI提出的解決方案使用所謂的“視頻壓縮網(wǎng)絡(luò)”（Video compressor network），這可能是針對視頻進行改編的VAE。其基本思想與最初的DiT相同：

（1）視頻壓縮網(wǎng)絡(luò)將原始視頻輸入壓縮為潛在時空表示；

（2）壓縮后的視頻被轉(zhuǎn)換為“時空補丁”，作為輸入Token提供給擴散變換器；

（3）在最后一個Transformer塊之后，與視頻壓縮網(wǎng)絡(luò)一起訓(xùn)練的解碼器模型將生成的潛在表示映射回像素空間。

與OpenAI之前的GPT-3等成就一樣，大家的共識似乎是，Sora的架構(gòu)并沒有什么真正的突破。正如謝賽寧所說，它實質(zhì)上是一種適用于視頻的DiT，沒有額外的花哨功能。

因此，Sora在很大程度上是一項工程壯舉，也是對擴展能力的又一次證明。技術(shù)報告生動地說明了樣本質(zhì)量隨著訓(xùn)練計算量的增加而提高。與語言模型一樣，某些能力似乎也會隨著規(guī)模的擴大而顯現(xiàn)；自然地，Sora也再次引發(fā)了關(guān)于純粹的擴展到底能達到什么程度的激烈爭論。

二、模擬假說：視頻生成模型在訓(xùn)練中習(xí)得物理規(guī)律

Sora的技術(shù)報告聲稱，隨著規(guī)模的擴大，Sora獲得了“新興的模擬能力”。它提到了通過動態(tài)攝像機運動、遮擋、客體永久性和視頻游戲模擬等來實現(xiàn)場景一致性，作為此類能力的示例。報告繼續(xù)得出結(jié)論：

“這些能力表明，視頻模型的持續(xù)擴展是開發(fā)高性能物理和數(shù)字世界模擬器的有力路徑，這些模擬器涵蓋了生活在其中的對象、動物和人。”

我們稱之為模擬假說（Simulation hypothesis）。

這個假設(shè)的問題在于，它非常模糊。視頻生成模型模擬物理世界到底意味著什么？什么樣的證據(jù)可以支持這一主張？讓我們逐一回答這些問題。

在Sora發(fā)布之后，AI行業(yè)的知名人士紛紛表達了他們對模擬假說的理解。英偉達的Jim Fan將Sora描述為“數(shù)據(jù)驅(qū)動的物理引擎”。他這樣解釋這句話的含義：

“Sora通過大量視頻的梯度下降，在神經(jīng)參數(shù)中隱式地學(xué)習(xí)物理引擎。Sora是一個可學(xué)習(xí)的模擬器，或者說是‘世界模型’。

Sora必須學(xué)習(xí)一些隱式的文本到3D、3D變換、光線追蹤渲染和物理規(guī)則，以便盡可能準確地模擬視頻像素。它必須學(xué)習(xí)游戲引擎的概念，以滿足目標。”

物理引擎的術(shù)語有些令人困惑，尤其是考慮到有猜測認為Sora是在虛幻5場景上訓(xùn)練得到的，所以讓我們先澄清這一點。

據(jù)我所知，包括Jim Fan在內(nèi)，沒有人真的認為Sora在推理時有一個物理引擎在循環(huán)中。換句話說，作為一個DiT模型，它不會在生成視頻時調(diào)用虛幻引擎。

實際上，神經(jīng)網(wǎng)絡(luò)調(diào)用物理引擎以前已經(jīng)有人嘗試過，但不是用于視頻生成，而是為了物理推理。2023年，谷歌大腦的一篇論文Mind’s Eye通過物理引擎模擬可能的結(jié)果，來提高語言模型在物理推理問題上的表現(xiàn)，將這些模擬的結(jié)果作為提示詞中的線索。

▲Mind’s Eye論文截圖

那么，我們應(yīng)該如何理解Sora類似于“數(shù)據(jù)驅(qū)動的物理引擎”模擬物理世界的主張呢？谷歌DeepMind的Nando de Freitas這樣說：

“一個有限大小的神經(jīng)網(wǎng)絡(luò)能夠預(yù)測任何情況下會發(fā)生什么的唯一方式，是通過學(xué)習(xí)內(nèi)部模型來促進這種預(yù)測，包括直觀的物理定律。”

我們越來越接近模擬假說的明確陳述：一個基于端到端神經(jīng)網(wǎng)絡(luò)架構(gòu)、參數(shù)設(shè)置有限的足夠好的視頻生成模型，應(yīng)該有望在訓(xùn)練過程中獲得物理世界的內(nèi)部模型，因為這是神經(jīng)網(wǎng)絡(luò)生成任意場景的連貫、逼真視頻的最有效方法也許是唯一的方法。

Sora 是否真的從 2D 視頻中歸納出物理定律？

如上所述，這可能看起來很荒謬。

游戲引擎通常也不模擬這些法則。雖然它們可能會模擬熱效應(yīng)（火災(zāi)、爆炸）和做功（物體克服摩擦力移動），但這些模擬通常是高度抽象的，并不嚴格遵守?zé)崃W(xué)方程。他們根本不需要這樣做，因為他們的重點是渲染場景的視覺和交互可信度，而不是嚴格的物理準確性。

Sora會做類似的事情嗎？

如果想回答這個問題，我們需要探討直觀物理學(xué)。

三、像人一樣，通過直觀物理引擎模擬事件？

對人類而言，即使是嬰兒也展現(xiàn)出對物理世界的穩(wěn)定預(yù)期。例如看到一只球沿著地板滾向墻壁，我們會直覺地知道球會撞到墻壁并反彈回來，而不是穿過它。

這就是認知科學(xué)家稱之為直觀物理學(xué)（Intuitive physics）的東西：一種快速、自動的日常推理，它讓人們知道當(dāng)各種物體相互作用時會發(fā)生什么，而不需要有意識地進行物理計算。

▲作為概率推理的直觀物理學(xué)論文截圖

人類是如何做到的呢？認知科學(xué)家提出了一個著名的假設(shè)，人們使用一個直觀物理引擎（IPE）來模擬物理事件。

IPE類似于計算機游戲中的物理引擎，它基于不完全準確的物理原理，通過隨機模擬來預(yù)測物理現(xiàn)象。根據(jù)這種觀點，當(dāng)我們觀察物理場景時，會根據(jù)質(zhì)量、摩擦、彈性等感知證據(jù)構(gòu)建對物體、屬性和作用力的心理表征，然后運行內(nèi)部模擬來預(yù)測接下來會發(fā)生什么。

然而，關(guān)于IPE假設(shè)也存在爭議。批評者指出，人類的物理推理有時會偏離IPE式模擬預(yù)測，包括系統(tǒng)偏差和錯誤以及對視覺捷徑的依賴等。一些人認為，非牛頓心理模型、深度學(xué)習(xí)模型可能更好地解釋人類對物理的直覺。

盡管存在爭議，但至少有一個相對合理且有豐富實驗文獻支持的案例支持模擬假說�，F(xiàn)在，我們可以將這一背景知識應(yīng)用于人工神經(jīng)網(wǎng)絡(luò)，探討它們是否能夠模擬物理世界。

四、已有“世界模型”，未達強因果概念高標準

通過心理學(xué)中的直觀物理學(xué)，我們提出了一個重要的點：對物理場景進行心理模擬，與僅僅表示物理世界的各個方面（例如幾何形狀）之間存在表面上的區(qū)別，這個區(qū)別在討論像視頻生成模型這樣的神經(jīng)網(wǎng)絡(luò)的能力時非常重要。

世界模型（World models）的含義已經(jīng)被淡化，以至于在實踐中變得相當(dāng)難以捉摸。在機器學(xué)習(xí)研究中，它主要起源于20世紀90年代Juergen Schmidhuber實驗室的強化學(xué)習(xí)文獻。在這種情況下，世界模型指的是智能體對其交互的外部環(huán)境的內(nèi)部表示。具體來說，給定環(huán)境狀態(tài)和智能體行動，世界模型可以預(yù)測智能體采取該行動后環(huán)境的未來狀態(tài)。

在2018年Ha和Schmidhuber發(fā)表的世界模型論文中，他們提出世界模型包括一個感官組件，它處理原始觀察結(jié)果，并將它們壓縮成一個緊湊的編碼。具體來說，基于RNN的世界模型被訓(xùn)練為在智能體之前的經(jīng)驗條件下，內(nèi)部模擬并預(yù)測未來的潛在觀察編碼、獎勵和終止信號（完成狀態(tài)）。

▲Ha和Schmidhuber的世界模型模擬的環(huán)境中駕駛的智能體

Ha和Schmidhuber的世界模型論文影響了許多后續(xù)作品。谷歌DeepMind近日推出了基礎(chǔ)世界模型Genie，雖然它不是一個強化學(xué)習(xí)系統(tǒng)，但它與Ha和Schmidhuber的框架具有關(guān)鍵的相似之處。

Genie生成一個交互式環(huán)境，人類用戶可以通過影響未來視頻生成的操作來控制智能體，它引入了無監(jiān)督動作空間學(xué)習(xí)的概念，以避免訓(xùn)練過程中對動作標簽的依賴。因此，任意視頻都可以作為訓(xùn)練數(shù)據(jù)，而不是帶有動作標記的示例。

▲Genie

另一個值得一提的世界模型概念來自楊立昆，這在他的聯(lián)合嵌入式預(yù)測架構(gòu)（JEPA）中得到了突出體現(xiàn)。在他的框架中，世界模型是一個智能體用于規(guī)劃和推理世界如何運作的內(nèi)部預(yù)測模型，用于兩個關(guān)鍵功能：

（1）估算智能體感知系統(tǒng)未提供的有關(guān)當(dāng)前世界狀態(tài)的缺失信息；

（2）預(yù)測智能體提出的一系列動作可能產(chǎn)生的多個可能的未來世界狀態(tài)。

▲楊立昆提出的自主機器智能認知架構(gòu)的高層示意圖

在JEPA架構(gòu)中，世界模型模塊是由預(yù)測器網(wǎng)絡(luò)實現(xiàn)的。它最近被應(yīng)用于視頻，自監(jiān)督模型V-JEPA通過預(yù)測視頻潛在空間中遮蔽時空區(qū)域的表示來學(xué)習(xí)。V-JEPA和Sora之間的一個關(guān)鍵區(qū)別是它們各自的學(xué)習(xí)目標，以及這些目標可能對其潛在表示產(chǎn)生的下游影響。Sora針對像素空間的幀重建進行訓(xùn)練的，而V-JEPA則針對潛在空間的特征預(yù)測進行訓(xùn)練。根據(jù)楊立昆的觀點，這會導(dǎo)致它們潛在表示之間的巨大差異。在他看來，像素級別的生成目標根本不足以誘導(dǎo)可能對在世界中規(guī)劃和行動有用的抽象表示。

總之，人們使用“世界模型”一詞的方式略有不同。無論是生成模型、強化模型，還是JEPA模型，都沒有達到因果推理文獻中“世界模型”這一強因果概念所設(shè)定的高標準。

那么像Sora這樣的視頻生成模型呢？我們可以從圖像生成模型中尋找線索。

五、圖像生成模型能學(xué)習(xí)3D幾何結(jié)構(gòu)，提供重要線索

Sora模型的核心是DiT，它受到常用于圖像生成的潛在擴散模型的啟發(fā)，但將U-Net骨干替換為了ViT。

這引發(fā)了一系列問題：基于潛在擴散的圖像生成模型實際上編碼了哪些信息？是僅僅編碼了圖像表面的啟發(fā)式信息，還是編碼了視覺場景的潛在變量，比如3D幾何結(jié)構(gòu)？

目前，關(guān)于這個問題的研究并不多。

Zhan等人于2023年提出了一種方法來評估潛在擴散模型是否編碼了圖像中描繪的3D場景的不同物理屬性。測試結(jié)果顯示，像Stable Diffusion這樣的模型能夠編碼關(guān)于3D場景幾何、支持關(guān)系、照明和相對深度的信息，盡管在遮擋方面的分類性能較低。

這項研究僅僅表明物理屬性的信息可以從模型的激活中解碼出來，并不意味著這些信息在模型行為上具有因果效力。

Chen等人在2023年的研究填補了這一空白。他們創(chuàng)建了一個由潛在擴散模型Stable Diffusion生成的圖像數(shù)據(jù)集，并訓(xùn)練線性探測器來預(yù)測顯著對象的分割和深度值。通過干預(yù)實驗，他們發(fā)現(xiàn)模型的內(nèi)部激活對生成圖像的幾何形狀有因果影響。

▲用Chen等人的擴散模型解碼的深度和突出物體表示

這個實驗表明，像SD這樣的潛在擴散模型能夠?qū)W習(xí)到關(guān)于簡單場景幾何的線性表示，特別是與深度和前景/背景區(qū)分相關(guān)的表示，即使它們僅僅在沒有顯式深度監(jiān)督的情況下，只通過2D圖像進行訓(xùn)練。

此外，這些表示在迭代采樣過程的早期階段就出現(xiàn)了，而在這些階段，圖像本身對于人類觀察者來說仍然像是隨機噪聲，并且?guī)缀醪话疃刃畔�。這表明潛在擴散模型所做的遠遠超出了對像素空間表面統(tǒng)計的擬合。它們引導(dǎo)了關(guān)于深度和顯著性的潛在信息，因為這樣的信息對于生成逼真的圖像目標非常有用。

還有其他關(guān)于圖像生成模型的相關(guān)研究。低秩自適應(yīng)（LoRA）可以用來直接從潛在擴散模型中提取內(nèi)在的“場景圖”，如表面法線和深度。該方法可以將任何圖像生成模型轉(zhuǎn)化為固有場景屬性預(yù)測器，而不需要額外的解碼網(wǎng)絡(luò)。結(jié)果表明，可以通過利用模型參數(shù)中已經(jīng)存在的信息來提取關(guān)于3D場景幾何的精細預(yù)測。

▲在SD的內(nèi)在場景地圖使用I-LoRA方法

這并不意味著潛在擴散模型能完美地表示視覺場景的各個方面的三維幾何。實際上，經(jīng)過訓(xùn)練的人眼通�？梢宰⒁獾捷敵鲋械母鞣N缺陷，物理不一致性甚至可以通過分類器進行量化，就像Sarker等人（2023年）所做的那樣。這些不一致性包括物體及其陰影的錯位，以及違反投影幾何學(xué)的情況，例如線條未能正確地收斂到消失點或不遵循線性透視：

▲AI生成的圖像中存在的物理不一致性

對于如何修復(fù)生成圖像中這些持續(xù)存在的缺陷，有很多有趣的猜想。一個假設(shè)是，測試的模型可能不夠大，或者訓(xùn)練數(shù)據(jù)不夠充分。通過擴大參數(shù)和數(shù)據(jù)集的規(guī)模，可能足以使?jié)撛跀U散模型學(xué)習(xí)正確的投影幾何，就像它足以修復(fù)先前模型中的許多其他逼真性和連貫性問題一樣。但也有可能存在更基本的問題，阻止?jié)撛跀U散模型正確學(xué)習(xí)投影幾何。例如，它們的架構(gòu)可能缺乏適當(dāng)?shù)臍w納偏差。在這種情況下，使用ViT作為主干結(jié)構(gòu)的DiT也可能減輕純潛在擴散的不足之處。

總之，對潛在擴散模型的探測和干預(yù)研究表明，它們確實能表示視覺場景3D幾何的一些特征，這與它們原則上可以學(xué)習(xí)至少有限程度的“世界模型”的假設(shè)是一致的。它們的潛在空間編碼了結(jié)構(gòu)保持、因果有效的信息，這些信息超越了像素空間的表面統(tǒng)計數(shù)據(jù)。這是解決關(guān)于Sora和模擬假說的猜測的重要線索。

六、Sora在潛在空間中學(xué)習(xí)抽象規(guī)律，是有限的“世界模擬器”

與用于圖像生成的潛在擴散模型一樣，Sora是根據(jù)視覺輸入進行端到端訓(xùn)練的，其訓(xùn)練和生成都沒有明確地以物理變量為條件。但就像潛在擴散模型一樣，它的輸出表現(xiàn)出驚人的規(guī)律性。

在回顧了認知科學(xué)和機器學(xué)習(xí)中的直觀物理模擬和世界模型的不同方式后，我們可以肯定的第一件事是，Sora從根本上不同于使用專用“直觀物理引擎”來運行模擬的復(fù)合模型。

與直觀物理引擎模型不同，Sora沒有專門的感知、預(yù)測和決策模塊，需要像物理引擎這樣的接口；它只是一個高維空間，其中潛在表示經(jīng)歷跨層的連續(xù)變換。

Sora也與Ha和Schmidhuber的世界模型大不相同。它不基于離散動作、觀察和獎勵信號的歷史來運行模擬。

在這方面，OpenAI的技術(shù)報告有些誤導(dǎo)性內(nèi)容。其給出的Sora演示視頻看起來像是從Minecraft這樣的視頻游戲中捕獲的，但技術(shù)報告對這些輸出結(jié)果的解釋卻更進一步：Sora可通過基本策略（basic policy）控制Minecraft中的玩家，同時還能高保真地呈現(xiàn)世界及其動態(tài)效果。

▲Sora演示視頻

這表明Sora模仿了一個智能體（“可控”角色）的政策，就像離線強化學(xué)習(xí)一樣。但這里沒有傳統(tǒng)意義上的“策略”或者說代理、動作、獎勵。與Genie不同，Sora沒有接受過從視頻中誘發(fā)潛在動作的訓(xùn)練，并且其輸出也不以此類動作為條件。

如果按照字面意思，技術(shù)報告暗示Sora已經(jīng)自發(fā)地學(xué)會了在Minecraft角色內(nèi)部表示類似隱式策略的東西，但這肯定不是我們僅通過查看輸出就可以推斷出來的。這是一個相當(dāng)大膽的主張，應(yīng)該通過分析模型內(nèi)部的情況來澄清和支持。

因此，Sora與IPE模型、基于RL世界模型以及Genie不同，在以下強定義上，它不是一個“世界模擬器”。

定義1：一個可以對環(huán)境的元素和動態(tài)進行向前時間模擬，并且其預(yù)測是基于這些模擬的輸出條件的系統(tǒng)。

Sora對時空Token的預(yù)測是基于先前的時空Token序列進行的，它不涉及運行大量關(guān)于2D視頻場景中所描繪的3D世界的向前時間模擬。它不會像傳統(tǒng)搜索算法一樣，通過運行多個內(nèi)部模擬來預(yù)測合法移動，并根據(jù)結(jié)果調(diào)整下一步的預(yù)測。

然而，我們不能完全排除Sora是一個“世界模擬器”的假設(shè)，或者稍微不那么嚴謹?shù)卣f，它是一個“世界模型”，這個概念的弱意義是受到Othello-GPT等系統(tǒng)的啟發(fā)。

定義2：一種可學(xué)習(xí)其輸入域（包括三維環(huán)境的物理屬性等）屬性的結(jié)構(gòu)保留、因果效應(yīng)表征的系統(tǒng)。

作為DiT，Sora本質(zhì)上是一個潛在擴散模型，盡管它有一個Transformer主干網(wǎng)絡(luò)。Sora與像Stable Diffusion這樣的潛在擴散模型在兩個重要方面有所不同：（1）處理視頻（3D“時空”對象）的潛在表示，而不是圖像；（2）其規(guī)模可能要大得多，并且在更多的數(shù)據(jù)上進行訓(xùn)練。因此，我們可以預(yù)期，Stable Diffusion在潛在空間中的3D幾何圖形，可以轉(zhuǎn)化為像Sora這樣的系統(tǒng)；我們也可以預(yù)期，Sora能代表其輸入域的更多“世界屬性”，包括隨時間展開的過程屬性等。

加里馬庫斯（Gary Marcus）等批評者指出，Sora的某些輸出結(jié)果公然違反了物理學(xué)原理，以此作為反對模擬假說的證據(jù)。OpenAI在自己的博文和Sora技術(shù)報告中承認了這些局限性，并提供了一些特別嚴重的例子。例如，在下面摘錄的視頻中，我們可以看到明顯的時空不一致，包括違反重力、碰撞動力學(xué)、穩(wěn)固性和物體永恒性。

▲Sora生成的視頻違反重力和碰撞物理學(xué)原理

▲Sora生成的視頻違反了實體和客體永恒性

首先要注意的是，雖然這些不一致的現(xiàn)象自然會讓我們覺得不可思議，但這些視頻也表現(xiàn)出了高度的一致性。玻璃杯懸涪液體在玻璃中流動、椅子變形為奇怪的形狀、人在被遮擋時突然出現(xiàn)……這些反�，F(xiàn)象之所以讓人覺得奇怪，部分原因是其他一切看起來都與人們預(yù)想的差不多。這就是為什么這些輸出結(jié)果看起來更像是來自一個物理原理奇特的世界的怪異科幻特效，而不是抽象混亂的視覺圖案。例如，場景的全局3D幾何結(jié)構(gòu)相當(dāng)一致，各種場景元素的運動軌跡也是如此。

Sora的輸出結(jié)果顯然會在直觀物理方面出錯，就像SD的輸出結(jié)果會在投影幾何方面出錯一樣，但這并不能排除這樣一種假設(shè)，即該模型在某些方面的三維幾何和動態(tài)表現(xiàn)是一致的。

我們在討論Sora架構(gòu)時提到的一點值得重溫。與用于生成圖像的潛在擴散模型一樣，Sora的生成過程并不是在像素空間中進行的，而是在潛在空間中進行的，即對時空斑塊的潛在表征進行編碼的空間。這大概率是很重要的一點，因為一些評論家認為Sora只是學(xué)會了在逐幀像素變化中插值常見模式。對這一評價的一種理解是，Sora只是對像素空間中視頻時空“紋理”的常見變換進行近似處理。

以這種方式思考Sora如何生成視頻可能會產(chǎn)生誤導(dǎo)。在Sora的架構(gòu)中，編碼器和解碼器之間發(fā)生的一切都發(fā)生在潛在空間中。正如對潛在擴散模型的研究表明，深度等屬性的潛在表征可以從早期擴散時間步開始產(chǎn)生因果效應(yīng)。Sora的情況也可能如此：與場景直觀物理相關(guān)的屬性的潛在表征即使在早期擴散時間步也能對生成過程產(chǎn)生因果效應(yīng)，這并非不可信。

楊立昆等人可能不同意這一觀點，因為Sora的訓(xùn)練目標是像素級重建，盡管生成過程發(fā)生在潛在空間。因此，有人認為Sora對視頻場景的潛在表征不可能那么抽象。但是，同樣的論點也適用于用于圖像生成的潛在擴散模型；而且，我們也有具體證據(jù)表明，這些模型確實能學(xué)習(xí)到有用的深度等特征的抽象表征。也許V-JEPA的表征比Sora的更加抽象和結(jié)構(gòu)化，但這是一個開放的經(jīng)驗性問題。

結(jié)語：視頻生成模型，從娛樂到世界模擬的探索

那么，像Sora這樣的視頻生成模型是世界模擬器嗎？

或許在某種程度上是，但不一定是人們所想象的方式。它們的生成過程并不以直觀物理的前向時間模擬為條件，就像直觀物理引擎那樣；但它可能受到3D幾何和動態(tài)關(guān)鍵方面的潛在表示的影響。

從更弱的意義上說，Sora可能有一個有限的世界模型，就像用于圖像生成的潛在擴散模型有一個更有限的世界模型一樣。但我們還不能確定，除非某個研究小組以正確的方式對Sora進行研究。OpenAI仍然偶爾進行可解釋性研究，所以還是有希望的；我們希望看到更廣泛的研究團隊能在可解釋性方面做出努力，比如Stable Video這樣的開源視頻生成模型。雖然這些模型的能力遠不如Sora，但它們便于研究。

在我們進行猜想的同時，請允許我對視頻生成模型的未來做一個簡單的推測。我曾說過，Sora并不是一個模擬器，因為它并不是通過先對場景進行一系列模擬來預(yù)測視頻幀的。不過，也許Sora或其他更強大的視頻生成模型可以在一個更綜合的系統(tǒng)中用作模擬器。例如，Genie論文的作者們暗示了類似的模型可以用來為訓(xùn)練強化學(xué)習(xí)智能體生成多樣化的模擬環(huán)境。未來，我們可以想象機器人系統(tǒng)將使用三個主要組件：

（1）一個大型的視覺語言模型，用于解析語言指令，將其轉(zhuǎn)化為計劃，并對視覺輸入進行推理；

（2）一個大型的視頻生成模型，用于模擬未來可能的觀察結(jié)果，以進行底層規(guī)劃；

（3）一個通用的逆動力學(xué)模型，用于從這些模擬中提取合適的行動，并據(jù)此執(zhí)行計劃。

也許（2）和（3）可以合并到一個通用的Genie式生成模型中，該模型具有內(nèi)置的（或者學(xué)習(xí)到的）表示潛在動作的能力；也可以將這三個模型合并成一個巨大的Gato式多模態(tài)模型，該模型可以解析和生成語言、時空和動作的標記。這些推測性的場景揭示了從視頻的生成建模到更強大意義上的“世界模擬”之間的路徑。

讓我們以一個有趣的開放性問題來做個總結(jié)。無論視頻生成模型在AI和機器人技術(shù)的未來中扮演什么角色，人們可能會問，與任何深度學(xué)習(xí)模型一樣，它們是否會以非表面的方式與認知科學(xué)相關(guān)。正如前面討論的那樣，關(guān)于人類物理推理在多大程度上依賴于直觀物理引擎的顯式模擬，目前仍未達成共識。也許視頻生成模型的進展，以及未來對其作為基于代理架構(gòu)的實際模擬器的可行性研究，會給IPE模型帶來一些壓力。這也可能會引發(fā)有趣的討論，即是否應(yīng)將能可靠模擬直觀物理的神經(jīng)網(wǎng)絡(luò)作為端到端學(xué)習(xí)IPE的核心機制，而不是作為直觀物理IPE模型的真正替代品。

無論人們對Sora和OpenAI持何種觀點，思考視頻生成模型如何超越其娛樂價值而與深度學(xué)習(xí)和認知科學(xué)的關(guān)鍵研究問題相關(guān)，都是一件令人興奮的事情。從GIF生成器到世界模擬器，我們拭目以待。