當(dāng)前位置：人工智能實(shí)驗室> 人工智能應(yīng)用 > OpenAI再次舉起屠刀，以及幾個推論

OpenAI再次舉起屠刀，以及幾個推論
來源：互聯(lián)網(wǎng) 發(fā)布日期：2024-02-16 18:43:24 瀏覽：4273次

導(dǎo)讀：出品 | 虎嗅科技組作者 | 王一鵬頭圖 | OpenAI 官網(wǎng)，by Sora 2月16日凌晨，在沒有任何預(yù)兆和消息透露的情況下，OpenAI突然發(fā)布了自己的首個文生視頻模型：Sora，大幅刷新行業(yè)多個指標(biāo)，重新定義了AI文生視頻在現(xiàn)階段的技術(shù)極限，顛覆了生成式AI在視頻領(lǐng)域...

出品 | 虎嗅科技組

作者 | 王一鵬

頭圖 | OpenAI 官網(wǎng)，by Sora

2月16日凌晨，在沒有任何預(yù)兆和消息透露的情況下，OpenAI突然發(fā)布了自己的首個文生視頻模型：Sora，大幅刷新行業(yè)多個指標(biāo)，重新定義了AI文生視頻在現(xiàn)階段的技術(shù)極限，顛覆了生成式AI在視頻領(lǐng)域的全球市場格局。

Sora使用Transformer架構(gòu)，建立在DALLE3和GPT模型之上，可以生成長達(dá)一分鐘的有運(yùn)動、多機(jī)位視頻。相比業(yè)界水平，Sora將視頻生成的時長一次性提升了15倍，直接邁過了市面上所有短視頻的時長要求。

同時，Sora也帶有世界模型的特質(zhì)。世界模型不是AI視頻生成的必須要素，卻是這個領(lǐng)域較為高端的一個研究方向。所謂世界模型，簡單點(diǎn)說，是要對真實(shí)的物理世界進(jìn)行建模，讓機(jī)器像人類一樣，對世界有一個全面而準(zhǔn)確的認(rèn)知。視頻與文字不同，大多數(shù)是在描繪一個主體，在一個真實(shí)或虛構(gòu)的物理世界中的動作，因此，世界模型會讓AI視頻生成更流暢、更符合邏輯，降低視頻模型的訓(xùn)練成本，提升訓(xùn)練效率。同時，世界模型也為生成式AI真正進(jìn)入自動駕駛行業(yè)鋪好了路。

此次，Sora的世界模型，已經(jīng)能幫助它還原一輛越野車在山區(qū)小路上的行駛情況，在視頻中添加逼近真實(shí)的傾斜和顛簸感。

圖片來自 OpenAI 官網(wǎng)，為 Sora 生成的視頻，部分截取

但Sora的世界模型仍有非常多的問題，比如，一塊餅干被咬過之后，卻沒有留下咬痕。OpenAI非常實(shí)在，把這些問題都寫在了官網(wǎng)上。

目前，Sora僅開放給了少部分人進(jìn)行內(nèi)測，據(jù)稱是一些視覺藝術(shù)家、設(shè)計師和電影制作人。同時，OpenAI內(nèi)部仍在進(jìn)行模型倫理側(cè)的對抗性測試，比如錯誤信息、仇恨內(nèi)容、偏見內(nèi)容，至于色情暴力，則會在文本輸入時，就被拒絕掉。

對于Sora，今天的我們，必須注意到幾個顯而易見的推論：

OpenAI一拳打在了所有人的肝上：全球的AI視頻生成賽道投資邏輯，乃至相關(guān)企業(yè)的生存邏輯，在此刻都已經(jīng)改變了。未來一個季度內(nèi)，如果該企業(yè)的視頻生成能力，仍然停留在4s，或?qū)е轮苯映鼍郑?/p>

AI已經(jīng)快速邁過文生文、Chatbot時期，大步進(jìn)軍視頻生成領(lǐng)域：當(dāng)下最火的短視頻、短劇，將迎接AI的到來；那些卡在瓶頸上的領(lǐng)域，比如自動駕駛、智慧城市，或?qū)⒂瓉硗黄啤?/p>

不要過度神話Sora或其他AI視頻生成工具，當(dāng)下仍有巨量的技術(shù)、產(chǎn)品、商業(yè)問題等待解決；但也不要低估AI技術(shù)的進(jìn)步速度，那個凝固在未來時光中、讓人看不清面貌的AGI（通用人工智能），正在向我們邁步。

圖片來自 OpenAI 官網(wǎng)，為 Sora 生成的視頻，部分截取

Sora到底牛在哪？

就在年前，2024年 1月27日，虎嗅舉辦了一場關(guān)于AI視頻生成的開放沙龍，會上有一個有趣的互動：AI視頻生成多快迎來Midjourney時刻？

選項分別是半年內(nèi)、一年內(nèi)、1-2年或更長。

在現(xiàn)場，每個選項都各有擁躉，但OpenAI今日公布了準(zhǔn)確答案：20天。

AI視頻生成真正的難點(diǎn)是在文生視頻，而非圖生視頻、視頻生視頻。各中奧妙在于，文生視頻，需要根據(jù)指令，從文字解碼出視頻的時空邏輯，同時保證在這一邏輯下，畫面中所有物體的運(yùn)動、變化，符合要求，符合現(xiàn)實(shí)世界規(guī)律。而圖生視頻、視頻生視頻，皆有“照貓畫虎”的意味，因此反倒要簡單一些。這也是為什么，市面上的AI視頻生成，始終停留在2-4s的時長范圍內(nèi)一旦超過了這個時長，視頻的可控性和質(zhì)量都將大大下降。

很多視頻生成，更像是個固定人物配上動態(tài)背景，畫面很單調(diào)，幾乎沒什么動作，這也是因為從文字到視頻，在時空邏輯推理層面的局限。同時，很多企業(yè)更關(guān)注所謂AI視頻生成的產(chǎn)品化、商業(yè)化，聚焦于推出一些基于模板，快速用于營銷的視頻生成工具，在世界模型層面有所欠缺，一旦視頻時長增加，模型不能理解真實(shí)的物理運(yùn)動和相互作用邏輯，變得十分無力。

OpenAI的Sora，就是在文生視頻，增加視頻時長，建立世界模型，這幾大最主要的難點(diǎn)上，走出了突破性的一步。但這并不代表Sora沒有問題，可以以假亂真，當(dāng)下最違和的問題在于憑空生成：三只小狗在嬉鬧，憑空出現(xiàn)了第四只小狗、第五只小狗；一個人撿起一大塊塑料片，憑空出現(xiàn)一把塑料椅子。

另外一類主要問題，在于Sora的世界模型仍然不夠完善。比如一個男人倒著跑跑步機(jī)，且跑步動作并不連貫自然。或者一個籃球撞在籃筐上，發(fā)出符合物理規(guī)律的彈跳，然而下一秒就撞破了籃網(wǎng)，發(fā)生爆炸。一群考古學(xué)家，在沙漠里挖出一個塑料椅子，煞有介事的清理灰塵，而椅子本身則在詭異的漂浮和變形。

男人倒著跑跑步機(jī)，圖片來自 OpenAI 官網(wǎng)，為 Sora 生成的視頻，部分截取

世界模型一直處于一個相當(dāng)狹窄的研究領(lǐng)域，這概念研究難度大，目標(biāo)太高，帶有相當(dāng)?shù)膶W(xué)術(shù)色彩，因此一度參與者寥寥。

值得一提的是，Meta 首席人工智能科學(xué)家、圖靈獎得主楊立昆（YannLeCun）本人，盡管在Meta的生成式AI落后問題上，正承受著巨大的壓力，但其卻是世界模型構(gòu)想的主要提出者。

楊立昆一向?qū)ι墒紸I的幻覺和一系列反智行為嗤之以鼻，并認(rèn)為AI只有真正理解物理世界，才具備真正的價值，斷言GPT模型活不過五年。他在2023年6月基于自己的構(gòu)想，推出了I-JEPA模型，用真實(shí)世界的背景知識，補(bǔ)充圖像缺失的片段，但這仍然是個技術(shù)研究層面的概念。

2023年12月，AI視頻生成的領(lǐng)頭羊之一Runway，官宣下場通用世界模型，高調(diào)發(fā)布系列招聘，宣稱要用生成式AI來模擬整個世界，以應(yīng)對Pika的步步緊逼。

這是一個信號，或許在楊立昆看來，局面一度在向著好的方向發(fā)展：自己的研究方向得到認(rèn)同，拖累Meta的謠言不攻自破。

可這快樂還沒持續(xù)三個月，啪，沒了。

Sora革了誰的命？

Sora發(fā)布前，有很多煙霧彈式的訊息更新，比如：OpenAI組建研究兒童安全的新團(tuán)隊、OpenAI正準(zhǔn)備推出GPT-4.5-turbo，但真正的“殺手級更新”被隱藏的很好，這也導(dǎo)致像Pika、Runway一樣的明星創(chuàng)業(yè)公司，措手不及。何況OpenAI的聯(lián)合創(chuàng)始人AndrejKarpathy本來就是Pika的資方之一。

源碼資本副總裁李露霖在虎嗅主辦的沙龍上表示，短視頻是當(dāng)前硬件基礎(chǔ)設(shè)施MassMarket滲透率最高的形態(tài)。

有數(shù)據(jù)透露，目前國內(nèi)短視頻用戶的規(guī)模在10億以上，有數(shù)據(jù)稱抖音2022年年收入700億美金以上，快手也在900億人民幣以上。不過面對這樣一個市場，在Sora發(fā)布前，所有的視頻生成工具，均沒有達(dá)到可付諸商業(yè)或工業(yè)化生產(chǎn)的水平。

有專家對虎嗅表示，大廠目前對于AI視頻生成的態(tài)度相當(dāng)模棱兩可。根本問題在于，現(xiàn)在的人工視頻生成效果更好，且成本也能接受，AI視頻生成，在此前沒有大家想象的那么顛覆，所以整體策略偏向“防御”，而非“進(jìn)攻”。

這一切，既麻痹了像Pika、Runway一樣的創(chuàng)業(yè)公司，讓他們以為機(jī)會已至、前景夠好；也讓這些公司及其投資人，低估了視頻生成賽道的競爭烈度，以為窗口期仍然足夠長。

所有的AI視頻生成公司，在這種麻痹里，都陷入了同質(zhì)化競爭：過多關(guān)注更高畫質(zhì)、更高成功率、更低成本，而非更大時長以及世界模型。

Pika、Runway、Meta，大體都是如此，在時長不超過4s的范圍內(nèi)，可以做到畫質(zhì)極度精美，但物體本身的運(yùn)動幅度極低，且會變形。

國內(nèi)的字節(jié)跳動，反倒是其中的另類。在視頻領(lǐng)域，字節(jié)的嗅覺更加敏銳。2023年11月，字節(jié)跳動發(fā)布PixelDance，通過上一個視頻片段尾幀，為下一個視頻片段頭幀提供指導(dǎo)的思路，在視頻時長上有所突破，但截止到發(fā)稿時間，仍然沒有開放用戶測試。

PixelDance 官網(wǎng)視頻案例

接下來在資本市場的影響，很可能是隱性的。Pika創(chuàng)始團(tuán)隊曾被打上“學(xué)霸”、“完美”等標(biāo)簽，并在2023年11月底完成5500萬美元融資，可下一輪的資本將在怎樣的時間點(diǎn)，以什么樣的數(shù)額進(jìn)入？Runway2023年5月完成1.41億美元融資，但主攻世界模型的團(tuán)隊還在組建中，下一步融資的節(jié)奏也存疑。

如果說Pika、Runway身上還有布局價值，那么對于國內(nèi)AI出海的企業(yè)而言，形式將變得更加艱難。換句話說，從移動時代遷移至今的、基于場景和產(chǎn)品能力，快速上線一個插件的商業(yè)模式，正在海外AI市場失效

因為像OpenAI這樣的企業(yè)，正屹立在市場上。他們幾乎重現(xiàn)了當(dāng)年Oracle市場領(lǐng)導(dǎo)力，一步快，步步快，降維打擊所有競爭者。對于所有做模式、趕風(fēng)口的機(jī)會主義創(chuàng)始人而言，巨頭若要?dú)⑺滥�，恐怕也只會發(fā)生在一夜之間。