機(jī)器之心報(bào)道
機(jī)器之心編輯部
歡迎來(lái)到 bling zoo!
北京時(shí)間今天凌晨,OpenAI 正式發(fā)布了文本到視頻生成模型 Sora,繼 Runway、Pika、谷歌和 Meta 之后,OpenAI 終于加入視頻生成領(lǐng)域的戰(zhàn)爭(zhēng)。
山姆·奧特曼的消息放出后,看到 OpenAI 工程師第一時(shí)間展示的 AI 生成視頻效果,人們紛紛表示感嘆:好萊塢的時(shí)代結(jié)束了?
OpenAI 聲稱,如果給定一段簡(jiǎn)短或詳細(xì)的描述或一張靜態(tài)圖片,Sora 就能生成類似電影的 1080p 場(chǎng)景,其中包含多個(gè)角色、不同類型的動(dòng)作和背景細(xì)節(jié)。
Sora 有哪些特別之處呢?它對(duì)語(yǔ)言有著深刻的理解,能夠準(zhǔn)確地解釋 prompt 并生成吸引人的字符來(lái)表達(dá)充滿活力的情感。同時(shí),Sora 不僅能夠了解用戶在 prompt 中提出的要求,還能 get 到在物理世界中的存在方式。
在官方博客中,OpenAI 提供了很多 Sora 生成的視頻示例,展示了令人印象深刻的效果,至少與此前出現(xiàn)過(guò)的文本生成視頻技術(shù)相比是這樣。
對(duì)于初學(xué)者來(lái)說(shuō),Sora 可以生成各種風(fēng)格的視頻(例如,真實(shí)感、動(dòng)畫(huà)、黑白),最長(zhǎng)可達(dá)一分鐘 比大多數(shù)文本到視頻模型要長(zhǎng)得多。
這些視頻保持了合理的連貫性,它們并不總是屈服于所說(shuō)的「人工智能怪異」,比如物體朝物理上不可能的方向移動(dòng)。
先讓 Sora 生成一張中國(guó)龍年舞龍的視頻。
比如輸入 prompt:加州淘金熱時(shí)期的歷史鏡頭。
輸入 prompt:玻璃球的特寫(xiě)視圖,里面有一個(gè)禪宗花園。球體中有一個(gè)小矮人正在沙子上創(chuàng)造圖案。
輸入 prompt:穿過(guò)東京郊區(qū)的火車窗外的倒影。
畫(huà)面太真實(shí),同時(shí)太詭異
但 OpenAI 承認(rèn),當(dāng)前的模型也有弱點(diǎn)。它可能難以準(zhǔn)確模擬復(fù)雜場(chǎng)景中的物理現(xiàn)象,也可能無(wú)法理解具體的因果關(guān)系。該模型還可能混淆提示的空間細(xì)節(jié),例如混淆左和右,并可能難以精確描述隨時(shí)間發(fā)生的事件,如跟隨特定的攝像機(jī)軌跡。
比如他們發(fā)現(xiàn),在生成的過(guò)程中動(dòng)物和人會(huì)自發(fā)出現(xiàn),尤其是在包含許多實(shí)體的場(chǎng)景中。
在下面這個(gè)例子中,Prompt 本來(lái)是「五只灰狼幼崽在草叢環(huán)繞的偏僻碎石路上嬉戲追逐。幼狼們奔跑著、跳躍著,互相追逐著、咬著,嬉戲著。」但所生成的這種「復(fù)制粘貼」的畫(huà)面很容易讓人想起某些神異鬼怪傳說(shuō):
還有下面這個(gè)例子,吹蠟燭之前和吹蠟燭之后,火苗沒(méi)有絲毫變化,透露出一種詭異:
技術(shù)細(xì)節(jié)
對(duì) Sora 背后的模型細(xì)節(jié),我們知之甚少。據(jù) OpenAI 博客,更多的信息將在后續(xù)的技術(shù)論文中公布。
博客中透露了一些基礎(chǔ)信息:Sora 是一種擴(kuò)散模型,它生成的視頻一開(kāi)始看起來(lái)像靜態(tài)噪音,然后通過(guò)多個(gè)步驟去除噪音,逐步轉(zhuǎn)換視頻。
Midjourney 和 Stable Diffusion 的圖像和視頻生成器同樣基于擴(kuò)散模型。但我們可以看出,OpenAI Sora 生成視頻的質(zhì)量好得多。Sora 感覺(jué)像是創(chuàng)建了真實(shí)的視頻,而以往這些競(jìng)爭(zhēng)對(duì)手的模型則感覺(jué)像是 AI 生成圖像的定格動(dòng)畫(huà)。
Sora 可以一次性生成整個(gè)視頻,也可以擴(kuò)展生成的視頻,使其更長(zhǎng)。通過(guò)讓模型一次預(yù)見(jiàn)多幀畫(huà)面,OpenAI 解決了一個(gè)具有挑戰(zhàn)性的問(wèn)題,即確保被攝體即使暫時(shí)離開(kāi)視線也能保持不變。
與 GPT 模型類似,Sora 也使用了 transformer 架構(gòu),從而實(shí)現(xiàn)了卓越的擴(kuò)展性能。
OpenAI 將視頻和圖像表示為稱為 patch 的較小數(shù)據(jù)單元的集合,每個(gè) patch 類似于 GPT 中的 token。通過(guò)統(tǒng)一數(shù)據(jù)表示方式,OpenAI 能夠在比以往更廣泛的視覺(jué)數(shù)據(jù)上訓(xùn)練擴(kuò)散 transformer,包括不同的持續(xù)時(shí)間、分辨率和寬高比。
Sora 建立在過(guò)去 DALL·E 和 GPT 模型的研究基礎(chǔ)之上。它采用了 DALL·E 3 中的重述技術(shù),即為視覺(jué)訓(xùn)練數(shù)據(jù)生成高度描述性的字幕。因此,該模型能夠在生成的視頻中更忠實(shí)地遵循用戶的文字提示。
除了能夠僅根據(jù)文字說(shuō)明生成視頻外,該模型還能根據(jù)現(xiàn)有的靜態(tài)圖像生成視頻,并準(zhǔn)確、細(xì)致地對(duì)圖像內(nèi)容進(jìn)行動(dòng)畫(huà)處理。該模型還能提取現(xiàn)有視頻,并對(duì)其進(jìn)行擴(kuò)展或填充缺失的鄭
參考鏈接:https://openai.com/sora