展會信息港展會大全

加入文生視頻戰(zhàn)局!OpenAI將Sora視作“世界模擬器”
來源:互聯(lián)網(wǎng)   發(fā)布日期:2024-02-16 15:38:11   瀏覽:3257次  

導(dǎo)讀:北京時間2月16日,OpenAI CEO 山姆奧爾特曼(Sam Altman)在公布刷屏業(yè)界的文生視頻產(chǎn)品Sora后,在社交平臺X上發(fā)文稱:OpenAI所有關(guān)鍵資源均已到位,專注于打造AGI(通用人工智能),你或許應(yīng)該考慮加入我們。 今日OpenAI在Runway、Pika、谷歌、 Meta之后,...

北京時間2月16日,OpenAI CEO 山姆奧爾特曼(Sam Altman)在公布刷屏業(yè)界的文生視頻產(chǎn)品Sora后,在社交平臺X上發(fā)文稱:“OpenAI所有關(guān)鍵資源均已到位,專注于打造AGI(通用人工智能),你或許應(yīng)該考慮加入我們。”

今日OpenAI在Runway、Pika、谷歌、 Meta之后,正式加入AI 視頻生成領(lǐng)域的競爭,推出AI視頻生成產(chǎn)品Sora。OpenAI官方介紹稱:如果給定一段簡短或詳細(xì)的描述或一張靜態(tài)圖片,Sora 就能生成類似電影的 1080P場景,包含多個角色、不同類型的動作和背景細(xì)節(jié)。1080P是一種視頻顯示格式,是目前美國電影電視工程師協(xié)會(SMPTE)制定的最高等級高清數(shù)字電視的格式標(biāo)準(zhǔn)。

OpenAI官方表示:“Sora是能夠理解和模擬現(xiàn)實世界的模型的基礎(chǔ),相信這一功能將成為實現(xiàn)AGI的重要里程碑。”

今日,OpenAI發(fā)布了基于Sora生成的60秒視頻效果,提示詞為:一位時尚女性走在充滿溫暖霓虹燈和動畫城市標(biāo)牌的東京街道上,她穿著黑色皮夾克、紅色長裙和黑色靴子,拎著黑色錢包。她戴著太陽鏡,涂著紅色口紅。她走路自信又隨意。街道潮濕且反光,在彩色燈光的照射下形成鏡面效果。許多行人走來走去。

需注意的是,該60秒視頻并非一鏡到底,而是在第37秒切換特寫鏡頭。

另外,截至發(fā)稿,奧爾特曼連發(fā)9條根據(jù)網(wǎng)友提示詞生成的視頻,包括不同動物在海上進行自行車比賽、發(fā)布自制面疙瘩烹飪教學(xué)視頻的祖母、兩只金毛犬在山頂做播客、日落時分火星上進行的一場無人機競賽等。但這些視頻時長為9秒至17秒不等。

技術(shù)層面,Sora采用擴散模型(diffusion probabilistic models)技術(shù),基于Transformer 架構(gòu),但為了解決Transformer 架構(gòu)核心組件注意力機制的長文本、高分辨率圖像處理等問題,擴散模型用可擴展性更強的狀態(tài)空間模型(SSM)主干替代了傳統(tǒng)架構(gòu)中的注意力機制,可以使用更少的算力,生成高分辨率圖像。此前Midjourney與Stable Diffusion 的圖像與視頻生成器同樣基于擴散模型。

同時,Sora也存在一定的技術(shù)不成熟之處。OpenAI表示,Sora可能難以準(zhǔn)確模擬復(fù)雜場景的物理原理,可能無法理解因果關(guān)系,可能混淆提示的空間細(xì)節(jié),可能難以精確描述隨著時間推移發(fā)生的事件,如遵循特定的相機軌跡等。

中科深智創(chuàng)始人兼CEO成維忠對第一財經(jīng)記者表示,Sora目前還存在因果關(guān)系推理問題,但這個問題不是Sora自身的問題,而是目前所有類似模型均存在的問題文生視頻過程中,模型搞不清楚人與環(huán)境的關(guān)系,搞不清楚前后邏輯關(guān)系等情況,該問題會導(dǎo)致模型在實際應(yīng)用的時候,達(dá)不到使用者設(shè)想的完美程度,但從個人工具的角度來說,Sora已經(jīng)比此前行業(yè)內(nèi)推出的文生視頻好很多了。未來隨著訓(xùn)練的加強,該問題也會逐步得到解決。

對于文生視頻工具Sora的技術(shù)實力,英偉達(dá)科學(xué)家DrJimFan評價稱,Sora 是一個數(shù)據(jù)驅(qū)動的物理引擎。它是對許多世界的模擬,無論是真實的還是幻想的。模擬器通過一些去噪和梯度數(shù)學(xué)來學(xué)習(xí)復(fù)雜的渲染、“直觀”物理、長期推理和語義基矗“如果 Sora 使用虛幻引擎 5 對大量合成數(shù)據(jù)進行訓(xùn)練,我不會感到驚訝,它也必須如此。”DrJimFan表示。

一位人工智能領(lǐng)域人士評價稱,視頻生成居然引入了物理引擎模擬,這樣來看再升維進入3D生成應(yīng)該就指日可待了。趣丸集團副總裁莊明浩認(rèn)為Sora的面世影響的不僅是文生視頻領(lǐng)域,下一步將是過去一年各家游戲物理引擎廠商們一直在嘗試的自然語言改造生產(chǎn)流程,以及3D素材生產(chǎn)這個戰(zhàn)常

OpenAI方面在技術(shù)報告中表示,并未將Sora單純視作視頻模型,而是將視頻生成模型作為“世界模擬器”,不僅可以在不同設(shè)備的原生寬高比直接創(chuàng)建內(nèi)容,而且展示了一些有趣的模擬能力,如3D一致性、長期一致性和對象持久性等。目前Sora能夠生成一分鐘的高保真視頻,OpenAI認(rèn)為擴展視頻生成模型是構(gòu)建物理世界通用模擬器的一條有前途的途徑。

贊助本站

人工智能實驗室
相關(guān)內(nèi)容
AiLab云推薦
推薦內(nèi)容
展開

熱門欄目HotCates

Copyright © 2010-2024 AiLab Team. 人工智能實驗室 版權(quán)所有    關(guān)于我們 | 聯(lián)系我們 | 廣告服務(wù) | 公司動態(tài) | 免責(zé)聲明 | 隱私條款 | 工作機會 | 展會港