展會信息港展會大全

OpenAI Sora:“原始版”世界模擬器,我們離黑客帝國還有多遠?
來源:互聯(lián)網   發(fā)布日期:2024-02-18 14:20:05   瀏覽:7663次  

導讀:春節(jié)假期臨近尾聲。面對持續(xù)進攻的谷歌等對手,OpenAI堪稱放出了自ChatGPT有史以來最強的大招Sora。 Sora是OpenAI自研的文生視頻擴散模型,可以生成不同長寬比和分辨率的高質量、高保真視頻,長度可達1分鐘。在一些行業(yè)觀察人士眼里,Sora不僅性能遙遙領先于...

春節(jié)假期臨近尾聲。面對持續(xù)進攻的谷歌等對手,OpenAI堪稱放出了自ChatGPT有史以來最強的大招Sora。

Sora是OpenAI自研的文生視頻擴散模型,可以生成不同長寬比和分辨率的高質量、高保真視頻,長度可達1分鐘。在一些行業(yè)觀察人士眼里,Sora不僅性能遙遙領先于競爭對手,甚至可以被視為一款“世界模擬器”。

Sora:大力出奇跡的產物

剛剛發(fā)布Gemini 1.5 Pro的谷歌,沒有嘗到半點甜頭。剛剛官宣更新幾個小時,OpenAI就拿著Sora來炸場,和Gemini有關的消息,基本都被埋在了鋪天蓋地的Sora新聞流里。

據(jù)一些觀察人士推測,OpenAI可能早在去年3月就已經完成了Sora的開發(fā),所以才能在公關戰(zhàn)中穩(wěn)穩(wěn)占據(jù)主動權。

Sora到底優(yōu)秀在哪里?簡單來說,它是一個“大力出奇跡”的產物。

Sora結合了擴散模型(DALL-E3)和轉換器架構(ChatGPT)。通過這種組合,該模型可以像ChatGPT處理文本一樣處理視頻(即圖像幀的時間序列)。

最令人印象深刻的特點是它能夠逼真地模擬物理世界(OpenAI 將其描述為 "新興的模擬能力")。在此之前,還沒有任何文字視頻模型能與之相媲美。

例如,Sora"可以在單個生成的視頻中創(chuàng)建多個鏡頭,準確地體現(xiàn)人物和視覺風格”。它可以制作長達1分鐘的視頻,但你也可以隨心所欲地制作短視頻?梢灾谱鞑煌直媛实呢Q版、方形和水平視頻。而且計算量越高,視頻質量也會越高。

AI科學家、創(chuàng)業(yè)者賈佳亞在社交媒體上表示:

Sora基于視頻的三維結構分解壓縮,用不同分辨率,不同時長,不同場景的各類視頻大量訓練diffusion model。在學術界連VIT的256*256的分辨率都沒法改的情況下,Sora直接用上了高清以及更大的分辨率,這沒幾千上萬張H100都不敢想象如何開始這個項目。

Sora能夠學習真實世界的物理規(guī)則

OpenAI表示,Sora不僅能理解提示中出現(xiàn)的風格、場景、角色、物體和概念等,還能理解"這些事物在物理世界中是如何存在的"。

Sora通過海量視頻,以梯度下降的方式在神經參數(shù)中隱含地學習物理引擎。Sora是一個可學習的模擬器,或稱“世界模型”。亦即,Sora可能已經學會了一套隱含的物理規(guī)則,為視頻生成過程提供信息。

毫無疑問,這是AI理解世界的關鍵一步。OpenAI在博文的最后寫道:

Sora是能夠理解和模擬現(xiàn)實世界的模型的基礎,我們相信這種能力將成為實現(xiàn)AGI的重要里程碑。

在OpenAI的Dalle-3圖像生成器所使用的擴散模型版本和GPT-4基于變換器的引擎的支持下,Sora不僅能按照提示要求制作視頻,而且還能顯示出對電影技術的熟練掌握。

這就是講故事的天賦。在另一部根據(jù)“渲染華麗的珊瑚礁紙藝世界,到處都是五顏六色的魚和海洋生物”的提示制作的視頻中。該項目的另一位研究員Bill Peebles指出,Sora通過拍攝角度和時機的選擇,創(chuàng)造了一種敘事的推動力:

實際上有多個鏡頭的變化這些變化不是拼接在一起的,而是由模型一次性生成的。我們沒有告訴它要這么做,它只是自動這么做了。

Sora不僅能根據(jù)文本制作圖像和視頻,或將圖像和視頻轉換為其他視頻,而且還能以通用、可擴展的方式完成這些工作,這一點與競爭對手不同。

這種通用性和可擴展性促使人們預測人工智能將顛覆好萊塢和整個電影制作?紤]到進步的速度,想象一下幾個月后人工智能模型能夠制作出長達5或10分鐘的多場景、多角色復雜視頻并不是什么瘋狂的事情。

目前Sora還在接受安全檢查和對抗性測試,沒有正式發(fā)布。OpenAI希望從"世界各地的政策制定者、教育工作者和藝術家"那里收集反饋意見。他們還在開發(fā)一種檢測分類器來識別Sora制作的視頻,并研究如何防止錯誤信息。

要想讓文字視頻威脅到真正的電影制作,恐怕還需要很長一段時間。你不可能把120個一分鐘長的Sora片段拼接成一部連貫的電影,因為模型不會以完全相同的方式對提示做出反應,因此無法確保輸出視頻的連續(xù)性。

但時間限制并不妨礙Sora和類似的軟件顛覆TikTok、Reel和其他短視頻平臺的生產方法。

一位研究者表示:

要制作一部專業(yè)電影,你需要大量昂貴的設備,這種模式將使在社交媒體上制作視頻的普通人有能力制作出非常高質量的內容。

贊助本站

人工智能實驗室
相關內容
AiLab云推薦
推薦內容
展開

熱門欄目HotCates

Copyright © 2010-2024 AiLab Team. 人工智能實驗室 版權所有    關于我們 | 聯(lián)系我們 | 廣告服務 | 公司動態(tài) | 免責聲明 | 隱私條款 | 工作機會 | 展會港