展會(huì)信息港展會(huì)大全

春節(jié)大禮包!OpenAI首個(gè)視頻生成模型發(fā)布,60秒高清大作,網(wǎng)友已嘆服
來(lái)源:互聯(lián)網(wǎng)   發(fā)布日期:2024-02-16 18:42:39   瀏覽:4580次  

導(dǎo)讀:機(jī)器之心報(bào)道 機(jī)器之心編輯部 歡迎來(lái)到 bling zoo! 北京時(shí)間今天凌晨,OpenAI 正式發(fā)布了文本到視頻生成模型 Sora,繼 Runway、Pika、谷歌和 Meta 之后,OpenAI 終于加入視頻生成領(lǐng)域的戰(zhàn)爭(zhēng)。 山姆奧特曼的消息放出后,看到 OpenAI 工程師第一時(shí)間展示的 AI...

機(jī)器之心報(bào)道

機(jī)器之心編輯部

歡迎來(lái)到 bling zoo!

北京時(shí)間今天凌晨,OpenAI 正式發(fā)布了文本到視頻生成模型 Sora,繼 Runway、Pika、谷歌和 Meta 之后,OpenAI 終于加入視頻生成領(lǐng)域的戰(zhàn)爭(zhēng)。

山姆·奧特曼的消息放出后,看到 OpenAI 工程師第一時(shí)間展示的 AI 生成視頻效果,人們紛紛表示感嘆:好萊塢的時(shí)代結(jié)束了?

OpenAI 聲稱,如果給定一段簡(jiǎn)短或詳細(xì)的描述或一張靜態(tài)圖片,Sora 就能生成類似電影的 1080p 場(chǎng)景,其中包含多個(gè)角色、不同類型的動(dòng)作和背景細(xì)節(jié)。

Sora 有哪些特別之處呢?它對(duì)語(yǔ)言有著深刻的理解,能夠準(zhǔn)確地解釋 prompt 并生成吸引人的字符來(lái)表達(dá)充滿活力的情感。同時(shí),Sora 不僅能夠了解用戶在 prompt 中提出的要求,還能 get 到在物理世界中的存在方式。

在官方博客中,OpenAI 提供了很多 Sora 生成的視頻示例,展示了令人印象深刻的效果,至少與此前出現(xiàn)過(guò)的文本生成視頻技術(shù)相比是這樣。

對(duì)于初學(xué)者來(lái)說(shuō),Sora 可以生成各種風(fēng)格的視頻(例如,真實(shí)感、動(dòng)畫(huà)、黑白),最長(zhǎng)可達(dá)一分鐘 比大多數(shù)文本到視頻模型要長(zhǎng)得多。

這些視頻保持了合理的連貫性,它們并不總是屈服于所說(shuō)的「人工智能怪異」,比如物體朝物理上不可能的方向移動(dòng)。

先讓 Sora 生成一張中國(guó)龍年舞龍的視頻。

比如輸入 prompt:加州淘金熱時(shí)期的歷史鏡頭。

輸入 prompt:玻璃球的特寫(xiě)視圖,里面有一個(gè)禪宗花園。球體中有一個(gè)小矮人正在沙子上創(chuàng)造圖案。

輸入 prompt:穿過(guò)東京郊區(qū)的火車窗外的倒影。

畫(huà)面太真實(shí),同時(shí)太詭異

但 OpenAI 承認(rèn),當(dāng)前的模型也有弱點(diǎn)。它可能難以準(zhǔn)確模擬復(fù)雜場(chǎng)景中的物理現(xiàn)象,也可能無(wú)法理解具體的因果關(guān)系。該模型還可能混淆提示的空間細(xì)節(jié),例如混淆左和右,并可能難以精確描述隨時(shí)間發(fā)生的事件,如跟隨特定的攝像機(jī)軌跡。

比如他們發(fā)現(xiàn),在生成的過(guò)程中動(dòng)物和人會(huì)自發(fā)出現(xiàn),尤其是在包含許多實(shí)體的場(chǎng)景中。

在下面這個(gè)例子中,Prompt 本來(lái)是「五只灰狼幼崽在草叢環(huán)繞的偏僻碎石路上嬉戲追逐。幼狼們奔跑著、跳躍著,互相追逐著、咬著,嬉戲著。」但所生成的這種「復(fù)制粘貼」的畫(huà)面很容易讓人想起某些神異鬼怪傳說(shuō):

還有下面這個(gè)例子,吹蠟燭之前和吹蠟燭之后,火苗沒(méi)有絲毫變化,透露出一種詭異:

技術(shù)細(xì)節(jié)

對(duì) Sora 背后的模型細(xì)節(jié),我們知之甚少。據(jù) OpenAI 博客,更多的信息將在后續(xù)的技術(shù)論文中公布。

博客中透露了一些基礎(chǔ)信息:Sora 是一種擴(kuò)散模型,它生成的視頻一開(kāi)始看起來(lái)像靜態(tài)噪音,然后通過(guò)多個(gè)步驟去除噪音,逐步轉(zhuǎn)換視頻。

Midjourney 和 Stable Diffusion 的圖像和視頻生成器同樣基于擴(kuò)散模型。但我們可以看出,OpenAI Sora 生成視頻的質(zhì)量好得多。Sora 感覺(jué)像是創(chuàng)建了真實(shí)的視頻,而以往這些競(jìng)爭(zhēng)對(duì)手的模型則感覺(jué)像是 AI 生成圖像的定格動(dòng)畫(huà)。

Sora 可以一次性生成整個(gè)視頻,也可以擴(kuò)展生成的視頻,使其更長(zhǎng)。通過(guò)讓模型一次預(yù)見(jiàn)多幀畫(huà)面,OpenAI 解決了一個(gè)具有挑戰(zhàn)性的問(wèn)題,即確保被攝體即使暫時(shí)離開(kāi)視線也能保持不變。

與 GPT 模型類似,Sora 也使用了 transformer 架構(gòu),從而實(shí)現(xiàn)了卓越的擴(kuò)展性能。

OpenAI 將視頻和圖像表示為稱為 patch 的較小數(shù)據(jù)單元的集合,每個(gè) patch 類似于 GPT 中的 token。通過(guò)統(tǒng)一數(shù)據(jù)表示方式,OpenAI 能夠在比以往更廣泛的視覺(jué)數(shù)據(jù)上訓(xùn)練擴(kuò)散 transformer,包括不同的持續(xù)時(shí)間、分辨率和寬高比。

Sora 建立在過(guò)去 DALL·E 和 GPT 模型的研究基礎(chǔ)之上。它采用了 DALL·E 3 中的重述技術(shù),即為視覺(jué)訓(xùn)練數(shù)據(jù)生成高度描述性的字幕。因此,該模型能夠在生成的視頻中更忠實(shí)地遵循用戶的文字提示。

除了能夠僅根據(jù)文字說(shuō)明生成視頻外,該模型還能根據(jù)現(xiàn)有的靜態(tài)圖像生成視頻,并準(zhǔn)確、細(xì)致地對(duì)圖像內(nèi)容進(jìn)行動(dòng)畫(huà)處理。該模型還能提取現(xiàn)有視頻,并對(duì)其進(jìn)行擴(kuò)展或填充缺失的鄭

參考鏈接:https://openai.com/sora

贊助本站

人工智能實(shí)驗(yàn)室
相關(guān)內(nèi)容
AiLab云推薦
推薦內(nèi)容
展開(kāi)

熱門欄目HotCates

Copyright © 2010-2024 AiLab Team. 人工智能實(shí)驗(yàn)室 版權(quán)所有    關(guān)于我們 | 聯(lián)系我們 | 廣告服務(wù) | 公司動(dòng)態(tài) | 免責(zé)聲明 | 隱私條款 | 工作機(jī)會(huì) | 展會(huì)港