當(dāng)前位置：人工智能實驗室> 人工智能應(yīng)用 > 48個演示視頻，最多60秒，OpenAI的視頻模型Sora有哪些影響？

48個演示視頻，最多60秒，OpenAI的視頻模型Sora有哪些影響？
來源：互聯(lián)網(wǎng) 發(fā)布日期：2024-02-16 15:34:49 瀏覽：3777次

導(dǎo)讀：繼ChatGPT之后，OpenAI又推出一款震驚科技圈的產(chǎn)品。今日凌晨，OpenAI宣布推出文生視頻大模型Sora。據(jù)介紹，Sora可以創(chuàng)建長達60秒的視頻，具有非常詳細(xì)的場景，復(fù)雜的攝像機運動，和充滿活力的情感的多個角色。 OpenAI：Sora了解用戶在提示中要求的內(nèi)容還...

繼ChatGPT之后，OpenAI又推出一款震驚科技圈的產(chǎn)品。

今日凌晨，OpenAI宣布推出文生視頻大模型Sora。

據(jù)介紹，Sora可以創(chuàng)建長達60秒的視頻，具有非常詳細(xì)的場景，復(fù)雜的攝像機運動，和充滿活力的情感的多個角色。

OpenAI：Sora了解用戶在提示中要求的內(nèi)容

還了解這些東西在物理世界中的存在方式

據(jù)其官網(wǎng)介紹，OpenAI正在教人工智能理解和模擬運動中的物理世界，目標(biāo)是訓(xùn)練模型，幫助人們解決需要現(xiàn)實世界交互的問題。

其文生視頻模型Sora，可以生成長達一分鐘的視頻，同時保持視覺質(zhì)量并遵守用戶的提示。

Sora能夠生成具有多個角色、特定類型的運動以及主題和背景的準(zhǔn)確細(xì)節(jié)的復(fù)雜場景。該模型不僅了解用戶在提示中要求的內(nèi)容，還了解這些東西在物理世界中的存在方式。

該模型對語言有深刻的理解，使其能夠準(zhǔn)確地解釋提示并生成表達生動情感的引人注目的角色。Sora還可以在單個生成的視頻中創(chuàng)建多個鏡頭，以準(zhǔn)確保留角色和視覺風(fēng)格。

從其官網(wǎng)介紹來看，Sora是一種擴散模型，它通過從一個看起來像靜態(tài)噪聲的視頻開始生成視頻，然后通過多步去除噪聲來逐漸轉(zhuǎn)換視頻。

Sora能夠一次性生成整個視頻或擴展生成的視頻，使其更長。通過一次為模型提供多幀的前瞻性，我們解決了一個具有挑戰(zhàn)性的問題，即確保主體即使暫時離開視野也保持不變。

類似于GPT模型，Sora使用變壓器架構(gòu)，解鎖卓越的縮放性能。

Sora將視頻和圖像表示為稱為補丁 (patch)的更小數(shù)據(jù)單元的集合，每個補丁都類似于GPT中的令牌。通過統(tǒng)一Sora如何表示數(shù)據(jù)，Sora可以在比以前更廣泛的可視數(shù)據(jù)上訓(xùn)練擴散變換器，跨越不同的持續(xù)時間、分辨率和寬高比。

Sora建立在過去的研究在DALLE和GPT模型。它使用DALLE 3中的重新捕獲技術(shù)，該技術(shù)涉及為視覺訓(xùn)練數(shù)據(jù)生成高度描述性的字幕。結(jié)果，該模型能夠更忠實地遵循生成的視頻中的用戶的文本指示。

除了能夠完全從文本指令生成視頻外，該模型還能夠利用現(xiàn)有的靜態(tài)圖像并從中生成視頻，對圖像的內(nèi)容進行精確動畫處理，并關(guān)注小細(xì)節(jié)。該模型還可以獲取現(xiàn)有視頻并對其進行擴展或填充丟失的鄭

安全方面，OpenAI表示，在其產(chǎn)品中提供Sora之前，OpenAI將采取幾個重要的安全措施。

OpenAI正在與紅隊成員合作，他們是錯誤信息、仇恨內(nèi)容和偏見等領(lǐng)域的領(lǐng)域?qū)＜�，他們將對模型進行對抗性測試。

OpenAI還開發(fā)了一些工具來幫助檢測誤導(dǎo)性內(nèi)容，比如一個檢測分類器，它可以告訴OpenAI一個視頻是什么時候由Sora生成的。

除了開發(fā)新技術(shù)為部署做準(zhǔn)備外，OpenAI還利用了為使用DALLE 3的產(chǎn)品構(gòu)建的現(xiàn)有安全方法，這些方法也適用于Sora。

OpenAI還開發(fā)了強大的圖像分類器，用于檢查生成的每個視頻的幀，以確保視頻在向用戶顯示之前符合我們的使用策略。

OpenAI將與世界各地的政策制定者、教育工作者和藝術(shù)家合作，了解他們的擔(dān)憂，并為這項新技術(shù)確定積極的使用案例。

OpenAI表示，盡管其進行了廣泛的研究和測試，但無法預(yù)測人們使用其技術(shù)的所有有益方式，也無法預(yù)測人們?yōu)E用技術(shù)的所有方式。

這就是為什么OpenAI相信從實際使用中學(xué)習(xí)是隨著時間的推移創(chuàng)建和發(fā)布越來越安全的人工智能系統(tǒng)的關(guān)鍵組成部分。

視頻效果：時間長、多角色、多鏡頭，但也有缺點

在Sora官網(wǎng)，一共展示了48個文本生成的視頻。

我們來看下部分文生視頻的效果。

提示：一位時尚的女人走在東京的街道上，街道上到處都是溫暖的發(fā)光霓虹燈和動畫城市標(biāo)志。她身穿黑色皮夾克，紅色長裙，黑色靴子，背著一個黑色錢包。她戴著墨鏡，涂著紅色口紅。她自信而隨意地走路。街道潮濕而反光，營造出五顏六色的燈光的鏡面效果。許多行人四處走動。

提示：幾只巨大的毛茸茸的猛犸象踩著白雪皚皚的草地走近，它們長長的毛茸茸的毛毛在風(fēng)中輕輕吹拂，遠處白雪皚皚的樹木和壯觀的白雪皚皚的山脈，午后的光線與薄薄的云層和遠處高高的太陽營造出溫暖的光芒，低相機視角令人驚嘆，用美麗的攝影捕捉了大型毛茸茸的哺乳動物，景深。

提示：無人機視角，海浪拍打著大蘇爾加雷角海灘崎嶇的懸崖。洶涌澎湃的藍色海水掀起白色的波浪，而夕陽的金色光芒照亮了巖石海岸。遠處有一個帶燈塔的小島，綠色的灌木叢覆蓋著懸崖的邊緣。從公路到海灘的陡峭落差是一項戲劇性的壯舉，懸崖的邊緣突出在海面上。這張照片捕捉到了海岸的原始美景和太平洋海岸公路崎嶇的景觀。

提示：動畫場景有一個特寫鏡頭，一個毛茸茸的短怪物跪在一根融化的紅蠟燭旁邊。藝術(shù)風(fēng)格是3D和逼真的，重點是照明和紋理。這幅畫的情緒是一種驚奇和好奇，因為怪物睜大眼睛和張開嘴巴凝視著火焰。它的姿勢和表情傳達出一種純真和俏皮的感覺，仿佛它是第一次探索周圍的世界。暖色調(diào)和戲劇性照明的使用進一步增強了圖像的舒適氛圍。

提示：逼真的特寫視頻，兩艘海盜船在一杯咖啡中航行時相互爭斗。

提示：一個玻璃球的特寫視圖，里面有一個禪宗花園。球體中有一個小矮人，他正在禪宗花園里耙地，在沙子上創(chuàng)造圖案。

提示：中國龍的中國農(nóng)歷新年慶祝視頻。

提示：紐約市像亞特蘭蒂斯一樣被淹沒。魚、鯨魚、海龜和鯊魚在紐約的街道上游來游去。

不過，OpenAI表示，目前該模型有弱點。它可能難以準(zhǔn)確模擬復(fù)雜場景的物理特性，并且可能無法理解因果關(guān)系的具體實例。例如，一個人可能會咬一口餅干，但之后，餅干可能沒有咬痕。

該模型還可能混淆提示的空間細(xì)節(jié)，例如，左右混淆，并且可能難以精確描述隨時間推移發(fā)生的事件，例如遵循特定的相機軌跡。

提示：一個人奔跑的步印場景，以35毫米拍攝的電影膠片。提示：一個人奔跑的步印場景，以35毫米拍攝的電影膠片。

弱點：Sora有時會產(chǎn)生身體上難以置信的動作。

提示：考古學(xué)家在沙漠中發(fā)現(xiàn)了一把普通的塑料椅子，小心翼翼地挖掘和除塵。

弱點：在這個例子中，Sora未能將椅子建模為一個剛性物體，導(dǎo)致不準(zhǔn)確的物理交互。

以下是剩下的38個演示視頻：

以下為上面視頻部分提示文字：

提示：一只巨大的橙色章魚在海底休息，與沙質(zhì)和巖石地形融為一體。它的觸手散布在身體周圍，眼睛是閉著的。章魚沒有意識到一只帝王蟹正從巖石后面爬向它，它的爪子舉起并準(zhǔn)備攻擊。螃蟹是棕色的，多刺的，有長長的腿和觸角。從廣角拍攝場景，展現(xiàn)了海洋的浩瀚和深邃。水是清澈湛藍的，陽光透過。拍攝清晰明快，動態(tài)范圍高。章魚和螃蟹是焦點，而背景略微模糊，營造出景深效果。

提示：五只灰狼幼崽在一條偏遠的碎石路上嬉戲和追逐，周圍環(huán)繞著草地。幼崽們奔跑跳躍，互相追逐，互相啃咬，玩耍。提示：五只灰狼幼崽在一條偏遠的碎石路上嬉戲和追逐，周圍環(huán)繞著草地。幼崽們奔跑跳躍，互相追逐，互相啃咬，玩耍。

提示：淘金熱期間加利福尼亞的歷史鏡頭。

提示：一只可愛的快樂水獺自信地站在沖浪板上，穿著黃色救生衣，沿著郁郁蔥蔥的熱帶島嶼附近的綠松石熱帶水域騎行，3D數(shù)字渲染藝術(shù)風(fēng)格。

提示：一朵巨大的、高聳的云，人形的云層籠罩著大地。云人將閃電射向地面。

Sora非首個文生視頻大模型

雖然文生視頻已不是新鮮事，但相比于Sora，此前的文生視頻大模型所能生成的視頻時間很短。

去年，信雅達實控人郭華強的女兒在國外創(chuàng)立AI公司Pika Labs發(fā)布的文生視頻大模型Pika 1.0曾轟動一時。

該產(chǎn)品只需某張圖片輸入所需要的動態(tài)指令，或者框選某段視頻的某個部位，輸入指令，就能生成相應(yīng)的視頻。

當(dāng)時，有不少網(wǎng)友都表示，該產(chǎn)品生成的視頻質(zhì)量屬實很炸裂，但只能生成3秒以內(nèi)的視頻，這點有些影響體驗。

Sora可能帶來的影響

如果Sora能夠真正意義上實現(xiàn)文生視頻，可能會帶來哪些影響呢？

1、沒有演員的影視作品出現(xiàn)，對演員來說是個小挑戰(zhàn)，將出現(xiàn)真正的“虛擬偶像”，此前的二次元人物并沒有真正達到“偶像”的級別。

2、利好編劇行業(yè)，劇本、文本創(chuàng)作力成為核心競爭力。

3、Sora可能才是真正的文生視頻，此前的文生視頻大多只有2秒，僅僅是對象的小幅度移動。

4、OpenAI繼續(xù)拉大領(lǐng)先程度，對眾多還在進行大模型測試打分pk的廠商，構(gòu)成壓力。

5、直接的影響是影視行業(yè)，特別是特效行業(yè)。使用AI來制作一些特效和高風(fēng)險的鏡頭，可以大幅降低拍攝成本，也可以避免很多危險。

6、攝影師行業(yè)也會受到影響，用文本來生成一些視頻，可以省去很多拍攝工作。

7、短視頻流行開以后，視頻剪輯師也隨之成為一個熱門職業(yè)。如果視頻剪輯的工作可以用AI來代替，可能會有很多視頻剪輯師失業(yè)。

8、對于很多短視頻創(chuàng)作者來說，用AI來替代繁瑣的剪輯工作，可以大幅提高工作效率。

9、很多歌手拍攝MV都是大成本制作，如果可以用AI來生成所需要的MV畫面，也可以省去很大一部分制作成本。

10、另外，如果真正意義上的文生視頻得以實現(xiàn)，可能會有不法份子利用這項技術(shù)實施新手段的違法犯罪。

不過，從Sora官網(wǎng)目前展示的視頻畫面效果來看，效果還沒那么逼近真實，短期內(nèi)不會產(chǎn)生讓行業(yè)失業(yè)，但會有輔助作用，做個動畫片應(yīng)該問題不大。

在Sora官網(wǎng)，OpenAI表示，Sora是能夠理解和模擬現(xiàn)實世界的模型的基礎(chǔ)，OpenAI相信這一能力將是實現(xiàn)AGI的重要里程碑。

至于Sora文生視頻到底能帶來多大影響，會不會翻車，還需要“讓子彈飛一會兒”。

相關(guān)熱詞： 48個演示視頻最多 60秒 OpenAI 模型 Sor

上一篇：蘋果研發(fā)GitHub Copilot競品：Xcode AI可幫開發(fā)者調(diào)試、生成代碼

下一篇：48個文生視頻+技術(shù)報告，揭秘OpenAI最強視頻GPT

AiLab云推薦

48個演示視頻，最多60秒，OpenAI的視頻模型Sora有哪些影響？
來源：互聯(lián)網(wǎng) 發(fā)布日期：2024-02-16 15:34:49 瀏覽：3777次

相關(guān)內(nèi)容

AiLab云推薦

最新資訊

本月熱點

熱門排行

推薦內(nèi)容

在線客服

熱門欄目HotCates

關(guān)于我們

版權(quán)聲明

48個演示視頻，最多60秒，OpenAI的視頻模型Sora有哪些影響？ 來源：互聯(lián)網(wǎng) 發(fā)布日期：2024-02-16 15:34:49 瀏覽：3777次

相關(guān)內(nèi)容

AiLab云推薦

最新資訊

本月熱點

熱門排行

推薦內(nèi)容

在線客服

熱門欄目HotCates

關(guān)于我們

版權(quán)聲明

48個演示視頻，最多60秒，OpenAI的視頻模型Sora有哪些影響？
來源：互聯(lián)網(wǎng) 發(fā)布日期：2024-02-16 15:34:49 瀏覽：3777次