展會信息港展會大全

OpenAI「AI 視頻」工具出爐:別爭了,「視頻 GPT」還是我的!
來源:互聯(lián)網(wǎng)   發(fā)布日期:2024-02-16 18:43:48   瀏覽:6323次  

導(dǎo)讀:2 月 16 日凌晨,OpenAI 在官網(wǎng)博客中介紹了最新的 AI 模型文生視頻模型 Sora,它可以根據(jù)人們的文本描述生成原始視頻。 在放出的演示視頻中, Sora 可以生成清晰準(zhǔn)確的角色,遠(yuǎn)景、近景交錯但主題一致的視頻,并且,已經(jīng)能一次性生成最長 60s 的視頻 ?粗...

2 月 16 日凌晨,OpenAI 在官網(wǎng)博客中介紹了最新的 AI 模型文生視頻模型 Sora,它可以根據(jù)人們的文本描述生成原始視頻。

在放出的演示視頻中,Sora 可以生成清晰準(zhǔn)確的角色,遠(yuǎn)景、近景交錯但主題一致的視頻,并且,已經(jīng)能一次性生成最長 60s 的視頻?粗@些視頻,AI 根據(jù)劇本自動生成好萊塢電影,似乎已經(jīng)向我們走來。

一經(jīng)發(fā)布,社交平臺 X 上,和 AI 以及視頻相關(guān)的創(chuàng)業(yè)者坐不住了。

YouTube 頭部網(wǎng)紅 MrBeast 回應(yīng) Sam Altman 發(fā)布 Sora 模型的推特時,打趣道:Sam,請不要讓我無家可歸。

Runway 聯(lián)合創(chuàng)始人、CEOCris Valenzuela 發(fā)推稱:比賽開始了。

但 OpenAI 沒有拘泥于在花哨的視頻本身中,對于 Sora 文生視頻,OpenAI 表示:這是通向 AGI 的里程碑事件。

01

60s、語言理解、

物理世界交互

據(jù) OpenAI 官網(wǎng),Sora 模型的目標(biāo)是「理解和模擬運(yùn)動中的物理世界」。當(dāng)前,它的最大亮點(diǎn)是可以生成長達(dá) 1 分鐘的視頻,并且,在這 1 分鐘的視頻中,可以保證視覺質(zhì)量,遵守用戶提示詞。舉例來說,Sora 可以生成一系列復(fù)雜場景的視頻,包括多個角色、特定類型的運(yùn)動、以及在特定主題和背景下的精確細(xì)節(jié)等。

輸入如下提示詞,Sora 生成的視頻:美麗、白雪皚皚的東京城市熙熙攘攘。鏡頭穿過熙熙攘攘的城市街道,跟隨幾個人享受美麗的雪天,在附近的攤位上購物。絢麗的櫻花花瓣隨著雪花在風(fēng)中飛舞。|來源:OpenAI

Sora 模型根據(jù)提示詞,可以生成如此程度的準(zhǔn)確視頻,意味著它對語言的理解能力出眾。

它不僅理解用戶在提示詞中想要什么,還理解這些東西應(yīng)該如何在物理世界中存在。相應(yīng)地,Sora 可以基于對提示詞的理解,精確闡述、演繹提示詞,生成恰當(dāng)?shù)慕巧珌肀磉_(dá)極具張力的情緒。

如下提示詞 Sora 生成的視頻:一個美麗的自制視頻,展示了 2056 年尼日利亞拉各斯(Lagos)的人們,用手機(jī)相機(jī)拍攝的。|來源:OpenAI

在一眾的演示視頻中,你會發(fā)現(xiàn),Sora 還可以在一個生成的視頻中創(chuàng)建多個鏡頭。不僅如此,即便在近景、遠(yuǎn)景、不同角度的鏡頭下,也能保持角色和視覺風(fēng)格的一致性。

當(dāng)然,OpenAI 也在官網(wǎng)承認(rèn),Sora 還遠(yuǎn)非完美。它可能難以準(zhǔn)確地模擬復(fù)雜場景下的物理世界,也可能無法理解一些場景下的因果關(guān)系,比如,一個人可能咬了一口餅干,但之后,餅干上可能沒有咬痕。

此外,Sora 還可能混淆提示詞里諸如「左、右」一樣的空間細(xì)節(jié),并且可能難以精確描述隨時間發(fā)生的事件。

OpenAI 沒有透露 Sora 模型何時公開,但表示將與有限數(shù)量的外部人士分享。當(dāng)?shù)貢r間 2 月 15 日一整天,OpenAI CEO Sam Altman 都在他的 X 社交媒體賬戶上發(fā)布 Sora 生成的視頻。他讓粉絲給出提示詞,他發(fā)布該提示詞下 Sora 生成的視頻。

OpenAI 稱,盡早分享研究進(jìn)展是為了與外界展開合作、獲得反饋,也讓公眾了解 AI 的進(jìn)展!肝覀円沧屢恍┮曈X藝術(shù)家、設(shè)計師和電影制作人訪問,以獲得推進(jìn)該模型以對創(chuàng)意專業(yè)人士最有幫助的反攔。

除此之外,用來評估 Sora 危害或風(fēng)險的「紅隊」(red teamers)可以提前測試該模型。這里的紅隊是指,錯誤信息、仇恨內(nèi)容和偏見等領(lǐng)域的專家,他們將對抗性地測試該模型,從而評估如何防止 Sora 被濫用來制造錯誤信息或其他有害內(nèi)容。

OpenAI 表示,在把 Sora 應(yīng)用于 OpenAI 的產(chǎn)品之前,將采取一些重要的安全措施。

02

「物理世界 GPT」

官方博客中,OpenAI 稱 Sora 的目標(biāo)是「理解和模擬現(xiàn)實」,這也是是英偉達(dá) Omniverse 多年來押注的未來?吹 Sora 的能力,英偉達(dá)高級科學(xué)家,AI Agent 負(fù)責(zé)人 Jim Fan 盛贊其強(qiáng)大模型背后的技術(shù)突破。

Jim Fan 在 X 社交媒體發(fā)表上述觀點(diǎn)|來源:twitter.com

他稱,「如果你認(rèn)為 OpenAI Sora 是一個像 DALLE 一樣的創(chuàng)意玩具……再想想。Sora 是一個數(shù)據(jù)驅(qū)動的物理引擎,是對現(xiàn)實或幻想世界的模擬。這一模擬器通過去噪和梯度數(shù)學(xué),來學(xué)習(xí)復(fù)雜渲染、『直覺』物理(「intuitive」physics)、長視野推理(long-horizon reasoning)和語義基!

在其背后的技術(shù)實現(xiàn)上,Jim Fan 認(rèn)為,Sora 一定使用了 Unreal Engine 5 生成的大量合成數(shù)據(jù)來訓(xùn)練。

在技術(shù)聲明中,OpenAI 尚未介紹 Sora 模型的訓(xùn)練數(shù)據(jù)等細(xì)節(jié),稱將在 2 月 16 日晚些時候,發(fā)布技術(shù)論文。

在已公布的信息中,Sora 是一個擴(kuò)散模型,從一個看起來像靜態(tài)噪聲的視頻開始,通過許多步驟去除噪聲來逐漸形成最終視頻。并且,Sora 能夠一次性生成整個視頻,或者擴(kuò)展已生成的視頻使其更長。

OpenAI 稱,通過賦予模型一次預(yù)測許多幀的能力,解決了一個具有挑戰(zhàn)性的問題,即確保一個主題即使暫時消失在視野之外也保持不變。

與 GPT 模型類似,Sora 使用 Transformer 架構(gòu),具備卓越的縮放性能。

對于 Sora 模型的重要意義,OpenAI 在官方博客結(jié)尾指出,「Sora 作為能夠理解和模擬現(xiàn)實世界的模型基礎(chǔ),我們相信這一能力將是實現(xiàn) AGI 的重要里程碑。」

顯然,OpenAI 的目標(biāo)依舊是 AGI 的實現(xiàn),在這個恢弘的目標(biāo)下,其在集結(jié)資源和自身能力上的領(lǐng)先優(yōu)勢,又一次體現(xiàn)出超越一般創(chuàng)業(yè)公司的綜合實力。

此前,Pika 聯(lián)合創(chuàng)始人 Demi Guo 在接受極客公園的采訪時表示,在文生視頻賽道,相比基于現(xiàn)有模型能力做功能優(yōu)化、打補(bǔ)丁,模型能力本身才是決定文生視頻產(chǎn)品成敗最關(guān)鍵的因素。

一經(jīng)發(fā)布,OpenAI 的 Sora 模型再次刷新 AI 文生視頻的超能力,顯然對這個賽道那些已經(jīng)發(fā)布產(chǎn)品的初創(chuàng)公司形成了巨大壓力:Runway、Synthesia、Pika、Rephrase.ai……

就像 Runway 聯(lián)合創(chuàng)始人、CEO Cristóbal Valenzuela 在幾個小時前說的那樣:比賽開始了。

其實,這句看起來「不服輸」的話,并不準(zhǔn)確。Sora 的出現(xiàn),讓「視頻生成賽道」基于上一代模型技術(shù)的產(chǎn)品比賽,已經(jīng)結(jié)束了,F(xiàn)在開始的,將是一場全新的技術(shù)比賽,而不只是產(chǎn)品的比拼。

贊助本站

人工智能實驗室

相關(guān)熱詞: OpenAI 視頻 工具 出爐 別爭 GPT 還是 我的

相關(guān)內(nèi)容
AiLab云推薦
推薦內(nèi)容
展開

熱門欄目HotCates

Copyright © 2010-2024 AiLab Team. 人工智能實驗室 版權(quán)所有    關(guān)于我們 | 聯(lián)系我們 | 廣告服務(wù) | 公司動態(tài) | 免責(zé)聲明 | 隱私條款 | 工作機(jī)會 | 展會港