展會信息港展會大全

Sora橫空出世,AI創(chuàng)業(yè)者和投資人們一夜無眠
來源:互聯(lián)網(wǎng)   發(fā)布日期:2024-02-18 14:19:28   瀏覽:7209次  

導(dǎo)讀:來源丨創(chuàng)業(yè)邦(ID:ichuangyebang) 作者丨Juny 編輯丨海腰 題圖丨Sora AI 多年以后,當我們再回看AI視頻生成這件事時,或許都直接可以用Sora前時代和Sora后時代來描述它。 在Sora前時代,如Runway、Pika、Stable Video Diffusion等大量創(chuàng)業(yè)公司還在百家爭鳴...

來源丨創(chuàng)業(yè)邦(ID:ichuangyebang)

作者丨Juny

編輯丨海腰

題圖丨Sora AI

多年以后,當我們再回看“AI視頻生成”這件事時,或許都直接可以用“Sora前時代”和“Sora后時代”來描述它。

在Sora前時代,如Runway、Pika、Stable Video Diffusion等大量創(chuàng)業(yè)公司還在百家爭鳴、平分秋色,而在Sora橫空出世后,這些公司都瞬間黯然失色,遭到降維打擊后不得不去重新審視未來的發(fā)展道路。畢竟,大家如今都可以隨意生成60秒的高清大片了,誰還會為你那4秒的動圖拍手稱贊呢?

當所有人都在為Sora驚嘆狂歡時,在無人在意的角落,是大量AI視頻創(chuàng)業(yè)者和投資人的一夜無眠。

遙遙領(lǐng)先幾個身位

首先,讓我們簡要回顧一下相比于此前行業(yè)內(nèi)的同類型產(chǎn)品,此次OpenAI發(fā)布的Sora有哪些顛覆之處。

1.生成視頻的時間長度。在昨天之前,受制于AI文本到視頻生成的物理和時空推理局限,目前整個行業(yè)中所公布的單個連貫性視頻的最大長度是16秒,行業(yè)的普遍水平是2-4秒之間。但此次Sora的最大支持長度是60秒,直接跨越式升級15倍。

2.鏡頭切換與畫面流暢度。此前AI生成視頻產(chǎn)品都是單鏡頭單生成,在效果層面更像是讓一張圖片動起來。但由Sora所生成的視頻,能夠在保持主體一致性的前提下實現(xiàn)多角度鏡頭無縫切換,整個畫面干凈流暢,從而實現(xiàn)真正的視頻大片效果。

3.使用的基礎(chǔ)模型架構(gòu)。此前的AI生成視頻大部分都是基于“大模型+大數(shù)據(jù)”架構(gòu),因此難以突破AI幻覺問題,Runway也在去年12月正式提出要打造通用世界模型。但此次Sora則已經(jīng)具有了世界模型的雛形,其生成的視頻是基于對真實物理世界的理解,因此內(nèi)容更加符合邏輯也更加令人信服。

那么,關(guān)于這些突破性的進展,很多人可能也好奇,落實到產(chǎn)品效果層面,Sora真的有如此大的優(yōu)勢嗎?

雖然目前Sora只僅對一小部分用戶開放還未開啟公測,但因為它們昨天所發(fā)布的視頻都配有詳細的Prompt文本,所以很多人也用這些同樣的文本對其他工具進行了測試。下面,讓我們來看看一些效果對比的例子。

Prompt:Beautiful, snowy Tokyo city is bustling. The camera moves through the bustling city street, following several people enjoying the beautiful snowy weather and shopping at nearby stalls. Gorgeous sakura petals are flying through the wind along with snowflakes.(提示詞:美麗多雪的東京城熱鬧非凡。鏡頭穿過熙熙攘攘的城市街道,跟隨幾位正在享受美麗雪景和在附近攤位購物的人們。絢麗的櫻花花瓣與雪花一起隨風飛舞。)

圖源:X 賬號@Gabor Cselle

在該對比視頻中我們可以看到,從時長來看,Pika大概3秒、Runway和Stable Video大概4秒,而Sora能長達幾十秒。從內(nèi)容來看,Pika和Runway生成都是類似于一幅動圖的場景,Pika抓住了攤位、櫻花、雪景等關(guān)鍵詞,Runway則更側(cè)重于提示詞的最后一句,Stable video的鏡頭有一定的推伸但似乎少了關(guān)于櫻花的描述。而Sora這邊,鏡頭從一開始帶有東京街道的全景開始再無縫推進到街道上的小攤和人物的特色,提示詞內(nèi)所有元素都沒有缺失并且得到了很好的呈現(xiàn)。

再看一個例子。

Prompt: Photorealistic closeup video of two pirate ships battling each other as they sail inside a cup of coffee.(提示詞:兩艘海盜船在一杯咖啡中航行時的逼真特寫視頻)

在Pika所生成的視頻并沒有體現(xiàn)“航行中逼真特寫”的關(guān)鍵內(nèi)容,而Runway則沒能理解關(guān)于“在一杯咖啡中航行”的重點描述。從視覺效果來看,Sora也更加準確地展現(xiàn)了提示詞中航行激蕩的情形。

圖源:X 賬號@Syntho_elysium

再比如,那段驚艷眾人的描繪一位時尚女性漫步在京東街頭的視頻。完全相同的一段提示詞之下,Runway展現(xiàn)出來是這樣的:

Pika展現(xiàn)出來是這樣的:

而這是Sora的效果:

除了Runway、Pika等熱門產(chǎn)品之外,還有網(wǎng)友結(jié)合使用了AnimateDiff + LCM + StableDiffusion等幾個開源工具,使用了跟Sora相同提示詞,來跟進行了多個視頻畫面的對比。從對比結(jié)果也能看到,幾乎所有的生成視頻內(nèi)容都被Sora“吊打”。

總體來看,雖然目前Runway和Pika等行業(yè)內(nèi)領(lǐng)先工具或許已經(jīng)基本能實現(xiàn)對提示詞的理解和還原,但從生成視頻的效果來看,不僅時長上難以實現(xiàn)4秒突破,內(nèi)容仍然缺少著真實性和連貫性。其中,特別是對真實物理世界的還原這一點上,從以下幾個Sora和Runway的對比中就能看出,世界模型的應(yīng)用確實讓Sora已經(jīng)到達了另一個層次。

Prompt: Reflections in the window of a train traveling through the Tokyo suburbs.

Prompt: Drone view of waves crashing against the rugged cliffs along Big Sur’s garay point beach.

數(shù)百創(chuàng)業(yè)公司一夜崩塌

從以上這一些簡單的對比中可以看出,Sora的出現(xiàn)對整個AI文本生成視頻行業(yè)所產(chǎn)生的影響無疑是具有顛覆性的。這也導(dǎo)致了昨天Sora一經(jīng)發(fā)布之后,大量的行業(yè)投資人拉響了警鐘。

過去一年來,在AI領(lǐng)域幾乎每個月都有AI生成視頻類的公司獲得融資,不僅這些創(chuàng)業(yè)公司的投資者都極具號召力,融資級別也幾乎都在千萬級美元以上。比如,去年6月,Runway宣布獲得新一輪1.41億美元的融資,投資者包括谷歌、英偉達、Salesforce等;去年8月,由A16Z A輪投資4000萬美元的Irreverent Labs宣布獲得三星的新一輪融資;去年 11月,Pika宣布獲得5500萬美元的融資,由Lightspeed Venture Partners領(lǐng)投,其他投資人還包括Quora的創(chuàng)始人Adam D‘Angelo、前GitHub首席執(zhí)行官Nat Friedman等;今年2月,總部位于德國的Colossyan成功獲得由歐洲風投公司Lakestar領(lǐng)投的2200萬美元A輪融資……

2023年AI視頻生成行業(yè)的參與者盤點圖源:A16Z

據(jù)不完全統(tǒng)計,過去一年來全球AI生成視頻類賽道的融資已經(jīng)超過數(shù)10億美元,其中大部分的公司都以種子輪、A輪為主。就在今年1月底,A16Z還專門針對AI視頻生成領(lǐng)域做了一個全面的回顧和展望,并盤點了市場上超過20個明星產(chǎn)品。

可以想象的是,這些創(chuàng)業(yè)公司以及其背后的投資人都因此次Sora的發(fā)布而經(jīng)歷了難熬的一天。有人表示,ChatGPT的出現(xiàn)終結(jié)了那些AI文本生成的創(chuàng)業(yè)公司,現(xiàn)在輪到Sora終結(jié)AI視頻生成公司了,AI視頻創(chuàng)業(yè)者看到Sora之后心情可以用心如死灰來形容。

不僅是創(chuàng)業(yè)者們的努力付諸東流,大量投資者們的錢也或?qū)⒁虼舜蛄怂km然創(chuàng)業(yè)公司的縮水情況我們還不得而知,但就在昨天Sora發(fā)布后,作為擁有直接競爭業(yè)務(wù)的Adobe今日股價就大跌超過了7%。

而關(guān)于Sora發(fā)布后的影響,一些圈內(nèi)人士也陸續(xù)發(fā)表了他們的觀點。

360創(chuàng)始人周鴻在微博長文中表示,Sora的誕生意味著AGI(通用人工智能)實現(xiàn)可能從10年縮短至一兩年。同時,科技競爭本質(zhì)上比拼還是人才的密度和深厚積累,Sora效果吊打Pika和Runway很正常,有人認為有了AI以后,創(chuàng)業(yè)公司只需要做個體戶就行,實際今天再次證明這種想法是非?尚Φ。

此外,前阿里技術(shù)副總裁、目前正在從事AI架構(gòu)創(chuàng)業(yè)的賈揚清也針對Sora在朋友圈發(fā)布了他最新的觀點。他認為此次Sora確實非常厲害,而Sora將帶來的影響包括以下幾點:“1.對標OpenAI的公司有一波被其他大廠fomo收購的機會。2.長線閉源寡頭,開源還需要一段時間才能追趕上。3. 從算法小廠的角度,要不就算法上媲美OpenAI,要不就垂直領(lǐng)域深耕應(yīng)用,要不就選擇開源。4.基礎(chǔ)設(shè)施的需求繼續(xù)會猛增。”

Sora會帶來革命性的影響嗎?

雖然Sora公布的視頻效果令人驚嘆,但由于目前僅開放給了一小部分人進行實測,因此其真實的效果如何我們還不得而知。畢竟此前Runway和Pika等同類型平臺都出現(xiàn)過Demo做得無比精良,實操卻出現(xiàn)種種問題的情況。

此次,就連OpenAI自己也提前給大家打好了預(yù)防針。在關(guān)于Sora官方博客的最后,OpenAI明確表示目前Sora的模型還并不完美,仍然屬于世界模型研究應(yīng)用的初期。特別是在模擬復(fù)雜的物理環(huán)境下,還會出現(xiàn)明顯的邏輯和因果關(guān)系推理錯誤,比如跑步時方向搞反、人吹蠟燭火光不滅、塑料椅子會變形飄起來、小狼仔變形等情況。

但目前大部分業(yè)內(nèi)人士都認為,目前的Sora還只是最初版本,按照OpenAI目前的訓(xùn)練情況和模型迭代速度,推理準確性問題會很快被攻克。而屆時,Sora將逐漸對一些行業(yè)產(chǎn)生的底層性的影響。

首當其沖的是影視制作行業(yè)!度w》電視劇的特效導(dǎo)演陸貝珂在不久前的一期播客中曾聊到,過去一年來,AI技術(shù)對于影視行業(yè)的影響主要體現(xiàn)在概念設(shè)計和繪畫等基礎(chǔ)工種的效率提升上,更多使用的是AI生成圖片技術(shù),AI生成視頻的不夠準確和邏輯問題導(dǎo)致很多生成內(nèi)容并不可用,當時他就提出世界模型是影視行業(yè)的發(fā)展方向。一旦視頻的準確度、連貫性問題被解決,群演、布景、特效等大量內(nèi)容則都可以用AI去幫助完成。

再比如廣告和短視頻行業(yè)。未來大量的廣告和短視頻將由AI生成,對設(shè)計師、攝影師、后期制作崗位的需求會大量減少,整個行業(yè)運行的模式將出現(xiàn)變革。視頻創(chuàng)作的門檻和經(jīng)費會大大降低,從崗位上來說會使用AI的內(nèi)容創(chuàng)作者將成為行業(yè)核心。各類短視頻將爆發(fā)涌現(xiàn)。

還可能影響的是游戲行業(yè)。在OpenAI 發(fā)布的最新Sora技術(shù)報告中提到,Sora能夠模擬如視頻游戲的數(shù)字化過程,Sora能在控制 Minecraft 游戲角色進行基本操作的同時,高質(zhì)量動態(tài)渲染游戲世界。未來Sora將可能被應(yīng)用于建模、生成游戲動畫和場景等,游戲開發(fā)者的門檻將被大大降低。

圖源:OpenAI官方技術(shù)文檔

Sora的誕生,似乎再次印證了贏者通吃的道理。手握著絕對資源的OpenAI,又一次走自己的路讓其他人都無路可走。而這可能也讓一些AI創(chuàng)業(yè)者和投資者們也開始再次思考,在行業(yè)巨頭的陰影和壓力之下,自己能力施展的生存和機會空間究竟在哪里。

贊助本站

人工智能實驗室
相關(guān)內(nèi)容
AiLab云推薦
推薦內(nèi)容
展開

熱門欄目HotCates

Copyright © 2010-2024 AiLab Team. 人工智能實驗室 版權(quán)所有    關(guān)于我們 | 聯(lián)系我們 | 廣告服務(wù) | 公司動態(tài) | 免責聲明 | 隱私條款 | 工作機會 | 展會港