展會信息港展會大全

48個演示視頻,最多60秒,OpenAI的視頻模型Sora有哪些影響?
來源:互聯(lián)網(wǎng)   發(fā)布日期:2024-02-16 15:34:49   瀏覽:3777次  

導(dǎo)讀:繼ChatGPT之后,OpenAI又推出一款震驚科技圈的產(chǎn)品。 今日凌晨,OpenAI宣布推出文生視頻大模型Sora。 據(jù)介紹,Sora可以創(chuàng)建長達60秒的視頻,具有非常詳細(xì)的場景,復(fù)雜的攝像機運動,和充滿活力的情感的多個角色。 OpenAI:Sora了解用戶在提示中要求的內(nèi)容 還...

繼ChatGPT之后,OpenAI又推出一款震驚科技圈的產(chǎn)品。

今日凌晨,OpenAI宣布推出文生視頻大模型Sora。

據(jù)介紹,Sora可以創(chuàng)建長達60秒的視頻,具有非常詳細(xì)的場景,復(fù)雜的攝像機運動,和充滿活力的情感的多個角色。

OpenAI:Sora了解用戶在提示中要求的內(nèi)容

還了解這些東西在物理世界中的存在方式

據(jù)其官網(wǎng)介紹,OpenAI正在教人工智能理解和模擬運動中的物理世界,目標(biāo)是訓(xùn)練模型,幫助人們解決需要現(xiàn)實世界交互的問題。

其文生視頻模型Sora,可以生成長達一分鐘的視頻,同時保持視覺質(zhì)量并遵守用戶的提示。

Sora能夠生成具有多個角色、特定類型的運動以及主題和背景的準(zhǔn)確細(xì)節(jié)的復(fù)雜場景。該模型不僅了解用戶在提示中要求的內(nèi)容,還了解這些東西在物理世界中的存在方式。

該模型對語言有深刻的理解,使其能夠準(zhǔn)確地解釋提示并生成表達生動情感的引人注目的角色。Sora還可以在單個生成的視頻中創(chuàng)建多個鏡頭,以準(zhǔn)確保留角色和視覺風(fēng)格。

從其官網(wǎng)介紹來看,Sora是一種擴散模型,它通過從一個看起來像靜態(tài)噪聲的視頻開始生成視頻,然后通過多步去除噪聲來逐漸轉(zhuǎn)換視頻。

Sora能夠一次性生成整個視頻或擴展生成的視頻,使其更長。通過一次為模型提供多幀的前瞻性,我們解決了一個具有挑戰(zhàn)性的問題,即確保主體即使暫時離開視野也保持不變。

類似于GPT模型,Sora使用變壓器架構(gòu),解鎖卓越的縮放性能。

Sora將視頻和圖像表示為稱為補丁 (patch)的更小數(shù)據(jù)單元的集合,每個補丁都類似于GPT中的令牌。通過統(tǒng)一Sora如何表示數(shù)據(jù),Sora可以在比以前更廣泛的可視數(shù)據(jù)上訓(xùn)練擴散變換器,跨越不同的持續(xù)時間、分辨率和寬高比。

Sora建立在過去的研究在DALLE和GPT模型。它使用DALLE 3中的重新捕獲技術(shù),該技術(shù)涉及為視覺訓(xùn)練數(shù)據(jù)生成高度描述性的字幕。結(jié)果,該模型能夠更忠實地遵循生成的視頻中的用戶的文本指示。

除了能夠完全從文本指令生成視頻外,該模型還能夠利用現(xiàn)有的靜態(tài)圖像并從中生成視頻,對圖像的內(nèi)容進行精確動畫處理,并關(guān)注小細(xì)節(jié)。該模型還可以獲取現(xiàn)有視頻并對其進行擴展或填充丟失的鄭

安全方面,OpenAI表示,在其產(chǎn)品中提供Sora之前,OpenAI將采取幾個重要的安全措施。

OpenAI正在與紅隊成員合作,他們是錯誤信息、仇恨內(nèi)容和偏見等領(lǐng)域的領(lǐng)域?qū)<,他們將對模型進行對抗性測試。

OpenAI還開發(fā)了一些工具來幫助檢測誤導(dǎo)性內(nèi)容,比如一個檢測分類器,它可以告訴OpenAI一個視頻是什么時候由Sora生成的。

除了開發(fā)新技術(shù)為部署做準(zhǔn)備外,OpenAI還利用了為使用DALLE 3的產(chǎn)品構(gòu)建的現(xiàn)有安全方法,這些方法也適用于Sora。

OpenAI還開發(fā)了強大的圖像分類器,用于檢查生成的每個視頻的幀,以確保視頻在向用戶顯示之前符合我們的使用策略。

OpenAI將與世界各地的政策制定者、教育工作者和藝術(shù)家合作,了解他們的擔(dān)憂,并為這項新技術(shù)確定積極的使用案例。

OpenAI表示,盡管其進行了廣泛的研究和測試,但無法預(yù)測人們使用其技術(shù)的所有有益方式,也無法預(yù)測人們?yōu)E用技術(shù)的所有方式。

這就是為什么OpenAI相信從實際使用中學(xué)習(xí)是隨著時間的推移創(chuàng)建和發(fā)布越來越安全的人工智能系統(tǒng)的關(guān)鍵組成部分。

視頻效果:時間長、多角色、多鏡頭,但也有缺點

在Sora官網(wǎng),一共展示了48個文本生成的視頻。

我們來看下部分文生視頻的效果。

提示:一位時尚的女人走在東京的街道上,街道上到處都是溫暖的發(fā)光霓虹燈和動畫城市標(biāo)志。她身穿黑色皮夾克,紅色長裙,黑色靴子,背著一個黑色錢包。她戴著墨鏡,涂著紅色口紅。她自信而隨意地走路。街道潮濕而反光,營造出五顏六色的燈光的鏡面效果。許多行人四處走動。

提示:幾只巨大的毛茸茸的猛犸象踩著白雪皚皚的草地走近,它們長長的毛茸茸的毛毛在風(fēng)中輕輕吹拂,遠處白雪皚皚的樹木和壯觀的白雪皚皚的山脈,午后的光線與薄薄的云層和遠處高高的太陽營造出溫暖的光芒,低相機視角令人驚嘆,用美麗的攝影捕捉了大型毛茸茸的哺乳動物,景深。

提示:無人機視角,海浪拍打著大蘇爾加雷角海灘崎嶇的懸崖。洶涌澎湃的藍色海水掀起白色的波浪,而夕陽的金色光芒照亮了巖石海岸。遠處有一個帶燈塔的小島,綠色的灌木叢覆蓋著懸崖的邊緣。從公路到海灘的陡峭落差是一項戲劇性的壯舉,懸崖的邊緣突出在海面上。這張照片捕捉到了海岸的原始美景和太平洋海岸公路崎嶇的景觀。

提示:動畫場景有一個特寫鏡頭,一個毛茸茸的短怪物跪在一根融化的紅蠟燭旁邊。藝術(shù)風(fēng)格是3D和逼真的,重點是照明和紋理。這幅畫的情緒是一種驚奇和好奇,因為怪物睜大眼睛和張開嘴巴凝視著火焰。它的姿勢和表情傳達出一種純真和俏皮的感覺,仿佛它是第一次探索周圍的世界。暖色調(diào)和戲劇性照明的使用進一步增強了圖像的舒適氛圍。

提示:逼真的特寫視頻,兩艘海盜船在一杯咖啡中航行時相互爭斗。

提示:一個玻璃球的特寫視圖,里面有一個禪宗花園。球體中有一個小矮人,他正在禪宗花園里耙地,在沙子上創(chuàng)造圖案。

提示:中國龍的中國農(nóng)歷新年慶祝視頻。

提示:紐約市像亞特蘭蒂斯一樣被淹沒。魚、鯨魚、海龜和鯊魚在紐約的街道上游來游去。

不過,OpenAI表示,目前該模型有弱點。它可能難以準(zhǔn)確模擬復(fù)雜場景的物理特性,并且可能無法理解因果關(guān)系的具體實例。例如,一個人可能會咬一口餅干,但之后,餅干可能沒有咬痕。

該模型還可能混淆提示的空間細(xì)節(jié),例如,左右混淆,并且可能難以精確描述隨時間推移發(fā)生的事件,例如遵循特定的相機軌跡。

提示:一個人奔跑的步印場景,以35毫米拍攝的電影膠片。提示:一個人奔跑的步印場景,以35毫米拍攝的電影膠片。

弱點:Sora有時會產(chǎn)生身體上難以置信的動作。

提示:考古學(xué)家在沙漠中發(fā)現(xiàn)了一把普通的塑料椅子,小心翼翼地挖掘和除塵。

弱點:在這個例子中,Sora未能將椅子建模為一個剛性物體,導(dǎo)致不準(zhǔn)確的物理交互。

以下是剩下的38個演示視頻:

以下為上面視頻部分提示文字:

提示:一只巨大的橙色章魚在海底休息,與沙質(zhì)和巖石地形融為一體。它的觸手散布在身體周圍,眼睛是閉著的。章魚沒有意識到一只帝王蟹正從巖石后面爬向它,它的爪子舉起并準(zhǔn)備攻擊。螃蟹是棕色的,多刺的,有長長的腿和觸角。從廣角拍攝場景,展現(xiàn)了海洋的浩瀚和深邃。水是清澈湛藍的,陽光透過。拍攝清晰明快,動態(tài)范圍高。章魚和螃蟹是焦點,而背景略微模糊,營造出景深效果。

提示:五只灰狼幼崽在一條偏遠的碎石路上嬉戲和追逐,周圍環(huán)繞著草地。幼崽們奔跑跳躍,互相追逐,互相啃咬,玩耍。提示:五只灰狼幼崽在一條偏遠的碎石路上嬉戲和追逐,周圍環(huán)繞著草地。幼崽們奔跑跳躍,互相追逐,互相啃咬,玩耍。

提示:淘金熱期間加利福尼亞的歷史鏡頭。

提示:一只可愛的快樂水獺自信地站在沖浪板上,穿著黃色救生衣,沿著郁郁蔥蔥的熱帶島嶼附近的綠松石熱帶水域騎行,3D數(shù)字渲染藝術(shù)風(fēng)格。

提示:一朵巨大的、高聳的云,人形的云層籠罩著大地。云人將閃電射向地面。

Sora非首個文生視頻大模型

雖然文生視頻已不是新鮮事,但相比于Sora,此前的文生視頻大模型所能生成的視頻時間很短。

去年,信雅達實控人郭華強的女兒在國外創(chuàng)立AI公司Pika Labs發(fā)布的文生視頻大模型Pika 1.0曾轟動一時。

該產(chǎn)品只需某張圖片輸入所需要的動態(tài)指令,或者框選某段視頻的某個部位,輸入指令,就能生成相應(yīng)的視頻。

當(dāng)時,有不少網(wǎng)友都表示,該產(chǎn)品生成的視頻質(zhì)量屬實很炸裂,但只能生成3秒以內(nèi)的視頻,這點有些影響體驗。

Sora可能帶來的影響

如果Sora能夠真正意義上實現(xiàn)文生視頻,可能會帶來哪些影響呢?

1、沒有演員的影視作品出現(xiàn),對演員來說是個小挑戰(zhàn),將出現(xiàn)真正的“虛擬偶像”,此前的二次元人物并沒有真正達到“偶像”的級別。

2、利好編劇行業(yè),劇本、文本創(chuàng)作力成為核心競爭力。

3、Sora可能才是真正的文生視頻,此前的文生視頻大多只有2秒,僅僅是對象的小幅度移動。

4、OpenAI繼續(xù)拉大領(lǐng)先程度,對眾多還在進行大模型測試打分pk的廠商,構(gòu)成壓力。

5、直接的影響是影視行業(yè),特別是特效行業(yè)。使用AI來制作一些特效和高風(fēng)險的鏡頭,可以大幅降低拍攝成本,也可以避免很多危險。

6、攝影師行業(yè)也會受到影響,用文本來生成一些視頻,可以省去很多拍攝工作。

7、短視頻流行開以后,視頻剪輯師也隨之成為一個熱門職業(yè)。如果視頻剪輯的工作可以用AI來代替,可能會有很多視頻剪輯師失業(yè)。

8、對于很多短視頻創(chuàng)作者來說,用AI來替代繁瑣的剪輯工作,可以大幅提高工作效率。

9、很多歌手拍攝MV都是大成本制作,如果可以用AI來生成所需要的MV畫面,也可以省去很大一部分制作成本。

10、另外,如果真正意義上的文生視頻得以實現(xiàn),可能會有不法份子利用這項技術(shù)實施新手段的違法犯罪。

不過,從Sora官網(wǎng)目前展示的視頻畫面效果來看,效果還沒那么逼近真實,短期內(nèi)不會產(chǎn)生讓行業(yè)失業(yè),但會有輔助作用,做個動畫片應(yīng)該問題不大。

在Sora官網(wǎng),OpenAI表示,Sora是能夠理解和模擬現(xiàn)實世界的模型的基礎(chǔ),OpenAI相信這一能力將是實現(xiàn)AGI的重要里程碑。

至于Sora文生視頻到底能帶來多大影響,會不會翻車,還需要“讓子彈飛一會兒”。

贊助本站

人工智能實驗室

相關(guān)熱詞: 48個 演示 視頻 最多 60秒 OpenAI 模型 Sor

相關(guān)內(nèi)容
AiLab云推薦
推薦內(nèi)容
展開

熱門欄目HotCates

Copyright © 2010-2024 AiLab Team. 人工智能實驗室 版權(quán)所有    關(guān)于我們 | 聯(lián)系我們 | 廣告服務(wù) | 公司動態(tài) | 免責(zé)聲明 | 隱私條款 | 工作機會 | 展會港