展會信息港展會大全

OpenAI Sora問世,通往AGI的又一個ChatGPT時刻!GPT4可能也要被干掉了
來源:互聯(lián)網(wǎng)   發(fā)布日期:2024-02-16 15:43:32   瀏覽:4914次  

導(dǎo)讀:OpenAI的文生視頻模型Sora刷屏了。 它有多震撼呢?這么說吧,上一次這么瘋狂的刷屏可能還是人類第一次見到ChatGPT的時候。以及,Sora之前幾小時Google剛剛推出了它最強的LLM Gemini1.5,并試圖宣稱自己終于殺死了GPT-4,然而,顯然現(xiàn)在沒人關(guān)注了。 因為看完...

OpenAI的文生視頻模型Sora刷屏了。

它有多震撼呢?這么說吧,上一次這么瘋狂的刷屏可能還是人類第一次見到ChatGPT的時候。以及,Sora之前幾小時Google剛剛推出了它最強的LLM Gemini1.5,并試圖宣稱自己終于殺死了GPT-4,然而,顯然現(xiàn)在沒人關(guān)注了。

因為看完Sora你可能會發(fā)現(xiàn),OpenAI自己可能要用它先殺死GPT-4了。

每個人都可以創(chuàng)造自己的世界了

先來看看Sora。

人們一直期待GPT-5,但Sora帶來的轟動不亞于一次GPT-5的發(fā)布。

作為OpenAI 首推的文本轉(zhuǎn)視頻模型,Sora能夠根據(jù)文本指令或靜態(tài)圖像生成長達 1分鐘的視頻,其中包含精細復(fù)雜的場景、生動的角色表情以及復(fù)雜的鏡頭運動。同時也接受現(xiàn)有視頻擴展或填補缺失的鄭

每條提示60秒的視頻長度與Pika Labs的3秒、Meta Emu Video的4秒、和Runway公司Gen-2的18秒相比,妥妥地鐵贏了。并且從官方發(fā)布的演示來看,無論從視頻流暢度還是細節(jié)表現(xiàn)能力上,Sora的效果都相當(dāng)驚艷。

比如官推里這條14秒的東京雪景視頻。

提示詞:Beautiful, snowy Tokyo city is bustling. The camera moves through the bustling city street, following several people enjoying the beautiful snowy weather and shopping at nearby stalls. Gorgeous sakura petals are flying through the wind along with snowflakes.

「美麗的,被雪覆蓋的東京正繁忙著。鏡頭穿過繁忙的城市街道,跟隨著幾個享受雪景和在附近攤位購物的人。美麗的櫻花瓣隨風(fēng)飄落,與雪花一同飛舞!

穿著時尚的女性漫步在霓虹背景的東京街頭,地面有積水倒影。

對于五官和皮膚的刻畫十分真實,特別是痘印和法令紋,細節(jié)讓人驚嘆。

猛犸象自冰川雪原中緩步從來,背后升騰起雪霧。

燭火旁純真頑皮的3D動畫小怪物,光影、表情和毛茸茸的細節(jié)滿分:

一名24歲女性的眼部特寫,足以以假亂真。

無人機視角的海浪拍打著Big Sur加瑞角海岸崖壁,落日灑下金色光芒。

窗臺上的花朵開放延時影像:

民眾們上街舞龍,慶祝中國農(nóng)歷春節(jié)。

可愛小貓咪在線安撫起床氣。

夜晚街道跑著的快樂小狗。

兩艘微型海盜船在一杯咖啡里對峙。

加州淘金時代罕見“歷史影像”流出 像嗎?Sora做的。

目前Sora還在測試階段,僅對部分評估人員、視覺藝術(shù)家、設(shè)計師和電影制作人們開放訪問權(quán)限,拿到試用資格的人們已經(jīng)開始想象力橫飛。

Sam Altman就轉(zhuǎn)發(fā)網(wǎng)友用Sora制作的“金光燦燦動物園”視頻,玩起了自己的“What”梗:

他還邀請大家踴躍提出想用Sora制作視頻的提示詞,團隊馬上為大家生成,瞬間8千多條回復(fù)。

網(wǎng)友腦洞大開,要看海洋生物的自行車公開賽。

兩只金毛在山上戴著耳機開播客。

當(dāng)然也不忘cue一下去向成謎的Ilya,要求生成一個“Ilya眼中的真實世界”。

不過OpenAI也表示,雖然Sora 對自然語言有著深入的理解,能夠準(zhǔn)確洞悉提示詞,生成表達豐富的內(nèi)容,并可以創(chuàng)建多個鏡頭、保持角色和視覺風(fēng)格的一致性,但仍不可避免地存在一些弱點。

例如,它在準(zhǔn)確模擬復(fù)雜場景的物理現(xiàn)象方面存在困難,也可能不理解特定的因果關(guān)系。比方說“一個人咬一口餅干后,餅干上可能并沒有咬痕。”

模型也可能混淆提示的空間細節(jié),像是弄錯左右。或者“在準(zhǔn)確體現(xiàn)隨時間發(fā)生的事件方面遇到困難,比如遵循特定的攝像機軌跡”。

Sora也使用了DALLE 3的recaptioning技術(shù),該技術(shù)涉及為視覺訓(xùn)練數(shù)據(jù)生成高度描述性的標(biāo)題。因此模型能夠更忠實地按照用戶在生成視頻中的文本指令進行操作。

它能夠一次性生成整個視頻,或是擴展已生成的視頻使其變長。通過讓模型一次性預(yù)見多幀,解決了即使主體暫時離開視線也能保持不變的挑戰(zhàn)性問題。

關(guān)于安全性,OpenAI表示正與錯誤信息、仇恨內(nèi)容和偏見等領(lǐng)域的專家合作,對模型進行對抗性測試。同時也在開發(fā)幫助檢測誤導(dǎo)性內(nèi)容的工具,識別視頻是否由Sora生成。對于違反使用政策的文本提示,例如暴力、仇恨和侵犯他人知識產(chǎn)權(quán)等內(nèi)容,將拒絕顯示給用戶。

除此以外,為DALLE 3產(chǎn)品構(gòu)建的現(xiàn)有安全方法也同樣適用于Sora。

“盡管進行了廣泛的研究和測試,我們?nèi)詿o法預(yù)測人們將如何利用我們的技術(shù),也無法預(yù)見人們?nèi)绾螢E用它。這就是為什么我們相信,從真實世界的用例中學(xué)習(xí),是隨時間構(gòu)建越來越安全的AI系統(tǒng)的關(guān)鍵組成部分。”

OpenAI對 Sora信心滿滿,認為這為模型理解和模擬真實世界奠定了基礎(chǔ),是“實現(xiàn)AGI的重要里程碑”。

網(wǎng)友們也第n+1次紛紛哀悼起相關(guān)賽道的公司們:

“OpenAI就是不能停止殺死創(chuàng)業(yè)公司。”

“天哪,現(xiàn)在起我們要弄清什么是真的,什么是假的。”

“我的工作沒了。”

“整個影像素材行業(yè)被血洗,安息吧。”

能殺死GPT-4的世界模型?這不就是嗎

OpenAI一如既往沒有給出很詳細的技術(shù)說明,但一些只言片語已經(jīng)足夠讓你浮想聯(lián)翩。

其中最吸引我們注意的第一個點,是對數(shù)據(jù)的處理。

Sora是一個擴散模型(diffusion model),采用類似GPT的Transformer架構(gòu)。而在解決訓(xùn)練中文本資料與視頻數(shù)據(jù)之間的統(tǒng)一方面,OpenAI表示,他們在處理圖像和視頻數(shù)據(jù)時,把對它們進行分割后得到的最小單元,稱為小塊(patches),也就是對應(yīng)LLM里的基本單元tokens。

這是一個很重要的技術(shù)細節(jié)。把它作為模型處理的基本單元,使得深度學(xué)習(xí)算法能夠更有效地處理各種視覺數(shù)據(jù),涵蓋不同的持續(xù)時間、分辨率和寬高比。

從最終的震撼效果看,你很難不得出這樣一個結(jié)論:對語言的理解能力,是可以遷移到對更多形態(tài)的數(shù)據(jù)的理解方法上去的。

此前的Dalle-3的效果就被公認很大程度來自O(shè)penAI在GPT上積累的領(lǐng)先N代的語言能力,哪怕是個圖像為輸出的模型,語言能力提升也是至關(guān)重要的。而今天的視頻模型,同樣如此。

至于它是如何做到的,有不少行業(yè)內(nèi)的專家給出了相同的猜測:它的訓(xùn)練數(shù)據(jù)里使用了游戲領(lǐng)域最前端的物理引擎Unreal Engine5,簡單粗暴的理解,就是語言能力足夠強大之后,它帶來的泛化能力直接可以學(xué)習(xí)引擎生成的圖像視頻數(shù)據(jù)和它體現(xiàn)出的模式,然后還可以直接用學(xué)習(xí)來的,引擎最能理解的方式給這些利用了引擎的強大技術(shù)的視覺模型模塊下指令,生成我們看到的逼真強大的對物理世界體現(xiàn)出“理解”的視頻。

基于這個猜測,OpenAI簡短的介紹中的這句話似乎就更加重要了:

“Sora 是能夠理解和模擬現(xiàn)實世界的模型的基礎(chǔ),OpenAI相信這一功能將成為實現(xiàn)AGI的重要里程碑。”

理解,現(xiàn)實,世界。

這不就是人們總在爭論的那個唯一有可能“干掉”GPT-4的世界模型,F(xiàn)在,OpenAI搞出來了它的雛形,擺在了你的面前。

看起來,這個模型學(xué)會了關(guān)于 3D 幾何形狀和一致性的知識,而且并非OpenAI訓(xùn)練團隊預(yù)先設(shè)定的,而是完全是通過觀察大量數(shù)據(jù)自然而然地學(xué)會的。負責(zé)Sora訓(xùn)練的OpenAI科學(xué)家Tim Brooks表示,AGI將能夠模擬物理世界,而Sora就是邁向這個方向的關(guān)鍵一步。

顯然,在OpenAI眼里,它不只是一個“文生視頻模型”,而是更大的東西。

我們?nèi)绻麌L試進一步給一個暴論,就是:語言是理解一切的基礎(chǔ),理解了視頻后,世界模型才會到來。

可能這才是比今天刷屏感慨“現(xiàn)實不存在了”之外,更恐怖的地方。這可能是人類通往AGI的又一個ChatGPT時刻。

贊助本站

人工智能實驗室

相關(guān)熱詞: OpenAI Sora 問世 通往 AGI 又一個 Chat

相關(guān)內(nèi)容
AiLab云推薦
推薦內(nèi)容
展開

熱門欄目HotCates

Copyright © 2010-2024 AiLab Team. 人工智能實驗室 版權(quán)所有    關(guān)于我們 | 聯(lián)系我們 | 廣告服務(wù) | 公司動態(tài) | 免責(zé)聲明 | 隱私條款 | 工作機會 | 展會港