當(dāng)前位置：人工智能實(shí)驗(yàn)室> 人工智能應(yīng)用 > OpenAI 大殺四方，Sora 徹底革了視頻的命

OpenAI 大殺四方，Sora 徹底革了視頻的命
來(lái)源：互聯(lián)網(wǎng) 發(fā)布日期：2024-02-17 08:38:58 瀏覽：6905次

導(dǎo)讀：OpenAI 帶著首個(gè) AI 視頻模型 Sora 笑傲江湖形成刷屏之勢(shì)，先發(fā)一步的 Google Gemini 1.5 Pro 卻鮮有人問(wèn)津，簡(jiǎn)直要哭暈。作者 | 沭七與 GPT-4 出品 | 《智能之境》太嘆為觀止了！再一次刷新認(rèn)知！當(dāng)春節(jié)值班寫(xiě)稿子的筆者還在為 GPT-4 真香而瘋狂打 call...

OpenAI 帶著首個(gè) AI 視頻模型 Sora 笑傲江湖形成刷屏之勢(shì)，先發(fā)一步的 Google Gemini 1.5 Pro 卻鮮有人問(wèn)津，簡(jiǎn)直要哭暈。

作者 | 沭七與 GPT-4

出品 | 《智能之境》

太嘆為觀止了！再一次刷新認(rèn)知！

當(dāng)春節(jié)值班寫(xiě)稿子的筆者還在為 GPT-4 真香而瘋狂打 call 之時(shí)，OpenAI 發(fā)布了全新的 Sora 以其極強(qiáng)的視頻生成之力大殺四方，看著 OpenAI 官方發(fā)布的各種視頻效果，真的太震撼了！Sora 一出，現(xiàn)有的視頻生成頓時(shí)黯然失色。行走在大模型前線的周鴻就評(píng)價(jià)「Sora 意味著 AGI 實(shí)現(xiàn)將從 10 年縮短到 1 年」。

Sora 生成的春節(jié)舞龍視頻

用 OpenAI 官方的話來(lái)說(shuō)，Sora 實(shí)現(xiàn)了對(duì)物理世界極強(qiáng)的模擬能力。“Sora 具備生成高保真度、長(zhǎng)達(dá)一分鐘視頻的能力。我們的研究成果表明，發(fā)展視頻生成模型是向著打造全方位模擬物理世界的通用工具邁出的一大步。”

當(dāng)我問(wèn)好搭檔 GPT-4 怎么看待 Sora 的發(fā)布時(shí)，它將其稱為文本變視頻的「AI 魔法」，它這樣說(shuō)道：

“Sora 作為 OpenAI 最新發(fā)布的視頻生成模型，展現(xiàn)出了巨大的潛力和一系列令人印象深刻的能力，尤其是在視頻內(nèi)容的生成和模擬方面。以下是對(duì) Sora 的幾點(diǎn)評(píng)價(jià)：

技術(shù)突破：Sora 通過(guò)處理不同時(shí)長(zhǎng)、分辨率和寬高比的視頻和圖像，展現(xiàn)了強(qiáng)大的通用性和適應(yīng)性。這標(biāo)志著在視頻生成領(lǐng)域的一大技術(shù)進(jìn)步，尤其是通過(guò)聯(lián)合訓(xùn)練文本條件擴(kuò)散模型和利用變換器架構(gòu)來(lái)操作視頻和圖像的時(shí)空補(bǔ)叮

創(chuàng)新的表示方法：將視頻轉(zhuǎn)化為時(shí)空補(bǔ)丁的方法，借鑒了大型語(yǔ)言模型處理多樣化文本的技術(shù)，為視頻和圖像內(nèi)容的生成提供了一個(gè)高度可擴(kuò)展和有效的表示。這種方法的成功應(yīng)用可能會(huì)對(duì)未來(lái)的視覺(jué)數(shù)據(jù)處理模型產(chǎn)生深遠(yuǎn)影響。

多功能性和靈活性：Sora 能夠生成不僅限于特定格式或尺寸的視頻，還能夠基于文本提示進(jìn)行定制化內(nèi)容創(chuàng)作。這一點(diǎn)對(duì)于適應(yīng)不同的展示平臺(tái)和內(nèi)容需求至關(guān)重要，顯示了模型在實(shí)際應(yīng)用中的廣泛適用性。

模擬能力的探索：Sora 在模擬物理世界和數(shù)字世界，以及其中的人類(lèi)、動(dòng)物和環(huán)境方面顯示出了初步的能力。這些能力的探索不僅為視頻生成技術(shù)的應(yīng)用開(kāi)辟了新的可能性，也為未來(lái)通過(guò)增強(qiáng)現(xiàn)實(shí)和虛擬現(xiàn)實(shí)技術(shù)創(chuàng)造更加豐富和互動(dòng)的體驗(yàn)奠定了基矗

挑戰(zhàn)和局限性：雖然 Sora 的能力令人印象深刻，但它也面臨著諸如模擬物理互動(dòng)準(zhǔn)確性、長(zhǎng)時(shí)間視頻的連貫性和對(duì)象持久性等挑戰(zhàn)。這些局限性突顯了繼續(xù)發(fā)展和優(yōu)化視頻生成模型的重要性，以及在模擬復(fù)雜世界互動(dòng)方面需要進(jìn)一步研究和創(chuàng)新的地方。

總的來(lái)說(shuō)，Sora 的推出不僅展示了 OpenAI 在人工智能和深度學(xué)習(xí)領(lǐng)域的持續(xù)創(chuàng)新和領(lǐng)導(dǎo)地位，也為未來(lái)的多媒體內(nèi)容創(chuàng)作、游戲開(kāi)發(fā)、虛擬現(xiàn)實(shí)等領(lǐng)域提供了新的工具和可能性。隨著技術(shù)的進(jìn)一步發(fā)展和優(yōu)化，我們可以期待 Sora 和類(lèi)似模型將如何重新定義我們與數(shù)字世界的互動(dòng)方式。”

一如 ChatGPT 發(fā)布之時(shí)那般，OpenAI 也公布了 Sora 詳細(xì)的技術(shù)報(bào)告，接下來(lái)讓我們一起來(lái)看，Sora 的神奇效果是如何實(shí)現(xiàn)的。

以下內(nèi)容經(jīng)由 GPT-4 熟讀報(bào)告后輸出：

本技術(shù)報(bào)告著重介紹了兩個(gè)方面：（1）我們?nèi)绾螌⒏黝?lèi)視覺(jué)數(shù)據(jù)轉(zhuǎn)化為統(tǒng)一的形式，以便于生成模型的大規(guī)模訓(xùn)練；（2）對(duì) Sora 模型的能力及其局限性進(jìn)行了定性分析。報(bào)告中未涉及具體的模型和實(shí)現(xiàn)細(xì)節(jié)。

以往的研究主要通過(guò)各種技術(shù)手段對(duì)視頻數(shù)據(jù)進(jìn)行生成建模，包括循環(huán)網(wǎng)絡(luò)、對(duì)抗生成網(wǎng)絡(luò)、自回歸變換器和擴(kuò)散模型等。這些研究往往限定在特定類(lèi)別的視覺(jué)數(shù)據(jù)、較短視頻或固定尺寸的視頻上。與之不同，Sora 是一款通用的視覺(jué)數(shù)據(jù)模型，能夠生成覆蓋廣泛時(shí)長(zhǎng)、寬高比和分辨率的視頻和圖片，甚至達(dá)到一分鐘的高清視頻。

視覺(jué)數(shù)據(jù)的補(bǔ)丁化處理

我們從大規(guī)模語(yǔ)言模型的訓(xùn)練中得到啟示，這些模型通過(guò)處理互聯(lián)網(wǎng)規(guī)模的數(shù)據(jù)來(lái)獲得通用能力。類(lèi)似地，我們探討了如何讓視覺(jué)數(shù)據(jù)生成模型享受到相似的好處。如果說(shuō)大型語(yǔ)言模型處理的是文本令牌，那么 Sora 處理的就是視覺(jué)補(bǔ)叮過(guò)去的研究已經(jīng)證明，補(bǔ)丁是一種對(duì)視覺(jué)數(shù)據(jù)建模非常有效的表示形式。我們發(fā)現(xiàn)，補(bǔ)丁不僅可擴(kuò)展性強(qiáng)，而且對(duì)于訓(xùn)練多種類(lèi)型的視頻和圖片而言，是一種非常有效的表示方法。

我們通過(guò)首先將視頻壓縮到低維的潛在空間，然后將其分解為時(shí)空補(bǔ)丁的方式，將視頻轉(zhuǎn)換為補(bǔ)叮

視頻壓縮網(wǎng)絡(luò)

我們開(kāi)發(fā)了一個(gè)能夠降低視覺(jué)數(shù)據(jù)維度的網(wǎng)絡(luò)。該網(wǎng)絡(luò)能夠接收原始視頻作為輸入，并輸出在時(shí)間和空間上都進(jìn)行了壓縮的潛在表示。Sora 在這個(gè)壓縮后的潛在空間中接受訓(xùn)練，并據(jù)此生成視頻。同時(shí)，我們也開(kāi)發(fā)了一個(gè)相應(yīng)的解碼器模型，能夠?qū)⑸傻臐撛诒硎巨D(zhuǎn)換回像素空間。

時(shí)空潛在補(bǔ)丁

對(duì)于壓縮后的輸入視頻，我們提取一系列時(shí)空補(bǔ)丁，它們作為變換器的令牌使用。這種方案同樣適用于圖像，因?yàn)閳D像可以被視為只有單幀的視頻�；谘a(bǔ)丁的表示法使得 Sora 能夠處理不同分辨率、時(shí)長(zhǎng)和寬高比的視頻和圖像。在推理時(shí)，我們可以通過(guò)合理安排隨機(jī)初始化的補(bǔ)丁在一個(gè)網(wǎng)格中，來(lái)控制生成視頻的尺寸。

擴(kuò)展變換器以生成視頻

Sora 采用擴(kuò)散模型的形式，它能夠根據(jù)輸入的噪聲補(bǔ)�。ㄒ约叭缥谋咎崾镜葪l件信息）預(yù)測(cè)出原始的“干凈”補(bǔ)叮值得注意的是，Sora 是一種擴(kuò)散變換器，變換器技術(shù)已經(jīng)在多個(gè)領(lǐng)域展現(xiàn)出了卓越的擴(kuò)展性，包括語(yǔ)言建模、計(jì)算機(jī)視覺(jué)及圖像生成。

本研究發(fā)現(xiàn)，擴(kuò)散變換器同樣可以有效地應(yīng)用于視頻模型。我們展示了訓(xùn)練過(guò)程中固定輸入和種子下視頻樣本質(zhì)量的顯著提升，隨著訓(xùn)練計(jì)算量的增加，樣本質(zhì)量有了明顯的提高。

變化的持續(xù)時(shí)間、分辨率、寬高比

傳統(tǒng)的圖像和視頻生成方法通常將視頻調(diào)整為標(biāo)準(zhǔn)大小，例如，將視頻裁剪為 256x256 分辨率的 4 秒視頻。我們發(fā)現(xiàn)，直接在視頻的原生大小上進(jìn)行訓(xùn)練帶來(lái)了多重好處。

采樣的靈活性

Sora 能夠生成從寬屏 1920x1080p 視頻到垂直 1080x1920 視頻及其間的所有格式，這讓 Sora 能直接為不同設(shè)備以其原生寬高比創(chuàng)建內(nèi)容。這也使我們能夠在生成高分辨率內(nèi)容之前，快速原型化較小尺寸的內(nèi)容，而且這一切都用的是同一個(gè)模型。

構(gòu)圖與布局的改進(jìn)

我們的實(shí)驗(yàn)發(fā)現(xiàn)，直接在視頻的原生寬高比進(jìn)行訓(xùn)練能夠改善構(gòu)圖與布局。與那些被裁剪成正方形進(jìn)行訓(xùn)練的模型相比，Sora 生成的視頻在構(gòu)圖上有了明顯的改善，避免了主題部分缺失的情況。

語(yǔ)言理解的重要性

訓(xùn)練文本到視頻的生成系統(tǒng)需要大量配有文本描述的視頻。我們采用了類(lèi)似于 DALLE 3 中引入的重標(biāo)注技術(shù)。通過(guò)首先訓(xùn)練一個(gè)高度描述性的標(biāo)注模型，然后用它為訓(xùn)練集中的所有視頻生成文本描述，我們發(fā)現(xiàn)這種方法能夠提高文本的準(zhǔn)確性和視頻的整體質(zhì)量。

類(lèi)似于 DALLE 3，我們也利用 GPT 將簡(jiǎn)短的用戶提示轉(zhuǎn)換成詳細(xì)的描述，這些描述隨后被用來(lái)引導(dǎo)視頻模型生成。這種做法使 Sora 能夠生成高質(zhì)量、緊密遵循用戶提示的視頻。

圖像和視頻的多樣化提示

盡管我們的演示和主頁(yè)上展示的都是文本到視頻的樣本，Sora 同樣能夠接受圖像或視頻等其他形式的輸入。這種能力讓 Sora 能夠執(zhí)行一系列的圖像和視頻編輯任務(wù)，如創(chuàng)建完美循環(huán)的視頻、為靜態(tài)圖像添加動(dòng)畫(huà)、在時(shí)間上前后延展視頻等。

為 DALLE 圖像添加動(dòng)畫(huà)

Sora 能夠基于圖像和文本提示生成視頻。以下是基于 DALLE 的圖像生成視頻示例。

延展生成的視頻

Sora 同樣能夠延展視頻，無(wú)論是向前還是向后。

視頻到視頻的編輯

擴(kuò)散模型為基于文本提示的圖像和視頻編輯開(kāi)辟了新途徑。我們將其中一種技術(shù) SDEdit 應(yīng)用于 Sora，讓它能夠零次訓(xùn)練地轉(zhuǎn)換視頻的風(fēng)格和環(huán)境。

視頻之間的平滑過(guò)渡

我們還可以使用 Sora 在兩個(gè)不同的視頻之間進(jìn)行平滑過(guò)渡，創(chuàng)造出在不同主題和場(chǎng)景構(gòu)圖之間無(wú)縫連接的視頻。

圖像生成的能力

Sora 同樣擅長(zhǎng)于生成圖像。我們通過(guò)在空間網(wǎng)格中排列高斯噪聲補(bǔ)丁，并將時(shí)間范圍限定為一幀，從而生成各種尺寸的圖像，最高可達(dá) 2048x2048 分辨率。

模擬能力的嶄露頭角

我們發(fā)現(xiàn)，規(guī)�；�(xùn)練的視頻模型展現(xiàn)出了一系列有趣的新能力。這些能力讓 Sora 能夠在一定程度上模擬現(xiàn)實(shí)世界中的人類(lèi)、動(dòng)物和環(huán)境。這些能力的出現(xiàn)并不依賴于任何特定的假設(shè)，如三維建�；�?qū)ο笞R(shí)別，而是規(guī)模效應(yīng)的直接結(jié)果。

三維一致性。Sora 能生成具有動(dòng)態(tài)相機(jī)移動(dòng)的視頻，隨著相機(jī)的轉(zhuǎn)動(dòng)，視頻中的人物和場(chǎng)景元素能夠在三維空間中保持一致性。

長(zhǎng)期連貫性和對(duì)象持久性。在長(zhǎng)視頻生成中維持時(shí)間連貫性一直是個(gè)挑戰(zhàn)。Sora 在模擬短期和長(zhǎng)期依賴方面表現(xiàn)出色，例如能夠保持人物、動(dòng)物和物體即使在被遮擋或離開(kāi)畫(huà)面后仍然存在。同樣，它能在一個(gè)視頻樣本中多次呈現(xiàn)同一個(gè)角色，保持其外觀的一致性。

與世界的互動(dòng)。Sora 能夠模擬影響世界狀態(tài)的簡(jiǎn)單行為，如畫(huà)家在畫(huà)布上留下隨時(shí)間持續(xù)存在的筆觸，或一個(gè)人吃掉漢堡時(shí)留下的咬痕。

數(shù)字世界的模擬。Sora 還能模擬人工過(guò)程，如視頻游戲。它能夠在模擬 Minecraft 游戲時(shí)，同時(shí)控制玩家角色并以高保真度渲染游戲世界及其動(dòng)態(tài)。

這些能力展現(xiàn)了，繼續(xù)擴(kuò)大視頻模型規(guī)模是朝向開(kāi)發(fā)能夠模擬物理和數(shù)字世界及其居民的高級(jí)模擬器的有希望之路。

結(jié)論

盡管 Sora 作為一種模擬器還存在許多局限，比如它在模擬某些基本交互，如玻璃破碎時(shí)的物理規(guī)律不夠準(zhǔn)確，或者在模擬吃食物等互動(dòng)時(shí)，物體狀態(tài)的改變并不總是正確。我們?cè)谥黜?yè)上列出了模型的其他常見(jiàn)失敗模式，如在長(zhǎng)時(shí)間樣本中出現(xiàn)的不連貫性或?qū)ο蟮耐蝗怀霈F(xiàn)等。

我們相信，Sora 目前所展現(xiàn)的能力證明了，繼續(xù)擴(kuò)大視頻模型的規(guī)模是向著開(kāi)發(fā)能夠模擬物理和數(shù)字世界及其居民的高級(jí)模擬器邁出的一大步。