展會(huì)信息港展會(huì)大全

OpenAI空降視頻生成模型:一口氣生成60s,風(fēng)格畫質(zhì)尺寸靈活定制 | 最前線
來源:互聯(lián)網(wǎng)   發(fā)布日期:2024-02-16 18:42:04   瀏覽:4596次  

導(dǎo)讀:文 | 周鑫雨 編輯 | 蘇建勛 2023年4月,成立于紐約的Runway AI發(fā)布了一段用AI生成的視頻:模糊卡頓、物體扭曲,且僅4秒; 四個(gè)月后,Runway將文生視頻的視頻效果拉到了4K的超逼著高度,實(shí)現(xiàn)了鏡頭的連貫穩(wěn)定。而視頻的最大長(zhǎng)度也從4秒,提升到了18秒這也是20...

文 | 周鑫雨

編輯 | 蘇建勛

2023年4月,成立于紐約的Runway AI發(fā)布了一段用AI生成的視頻:模糊卡頓、物體扭曲,且僅4秒;

四個(gè)月后,Runway將文生視頻的視頻效果拉到了4K的超逼著高度,實(shí)現(xiàn)了鏡頭的連貫穩(wěn)定。而視頻的最大長(zhǎng)度也從4秒,提升到了18秒這也是2023年文生視頻的“時(shí)長(zhǎng)天花板”。

然而,就在北京時(shí)間2024年2月16日凌晨,“天花板”又被打破OpenAI又出王炸,發(fā)布了可以生成60秒視頻的AI模型Sora。

OpenAI官宣Sora。

同樣在2月16日發(fā)布的谷歌最新多模態(tài)模型Gemini Pro 1.5,則被Sora迅速奪走了關(guān)注度。

網(wǎng)友為Gemini和Sora制作的梗圖。

根據(jù)OpenAI官方發(fā)布的推文和技術(shù)報(bào)告,Sora能力的革命性可以被提煉為:最長(zhǎng)生成60s視頻、鏡頭的前后一致性、超逼真

從官方發(fā)布的視頻demo而言,Sora只需要輸入包含“構(gòu)成元素、環(huán)境、行為及發(fā)生順序、視頻風(fēng)格”等關(guān)鍵因素的Prompt(提示詞),就能生成不同風(fēng)格的高清、連貫,且具有豐富運(yùn)鏡和轉(zhuǎn)場(chǎng)的60s級(jí)視頻。

比如生成包含人物和城市元素的視頻:

提示詞:一位時(shí)尚女性走在充滿溫暖霓虹燈和動(dòng)畫城市標(biāo)牌的東京街道上。她穿著黑色皮夾克、紅色長(zhǎng)裙和黑色靴子,拎著黑色錢包。她戴著太陽(yáng)鏡,涂著紅色口紅。她走路自信又隨意。街道潮濕且反光,在彩色燈光的照射下形成鏡面效果。許多行人走來走去。

Sora生成視頻(原視頻為60s,文中截取20s,畫質(zhì)受gif大小限制有所壓縮)。圖源:OpenAI

Sora也能生成動(dòng)物和自然風(fēng)光:

提示詞:幾只巨大的毛茸茸的猛犸象踏著白雪皚皚的草地走近,它們長(zhǎng)長(zhǎng)的毛茸茸的皮毛在風(fēng)中輕輕飄動(dòng),遠(yuǎn)處覆蓋著積雪的樹木和雄偉的雪山,午后的陽(yáng)光下有縷縷云彩,太陽(yáng)高高地掛在空中距離產(chǎn)生溫暖的光芒,低相機(jī)視角令人驚嘆地捕捉到大型毛茸茸的哺乳動(dòng)物,具有美麗的攝影和景深。

Sora生成視頻(畫質(zhì)受gif大小限制有所壓縮)。圖源:OpenAI

Sora生成的視頻已經(jīng)能夠達(dá)到逼真的效果。不過,用3D和動(dòng)漫風(fēng)格生成虛擬場(chǎng)景對(duì)Sora而言也不在話下:

提示詞:動(dòng)畫場(chǎng)景的特寫是一個(gè)毛茸茸的小怪物跪在融化的紅蠟燭旁邊。藝術(shù)風(fēng)格是 3D 和現(xiàn)實(shí)的,重點(diǎn)是燈光和紋理。這幅畫的氣氛是一種驚奇和好奇,怪物睜大眼睛、張開嘴巴凝視著火焰。它的姿勢(shì)和表情傳達(dá)出一種天真和俏皮的感覺,就好像它第一次探索周圍的世界一樣。暖色調(diào)和戲劇性燈光的使用進(jìn)一步增強(qiáng)了圖像的舒適氛圍。

Sora生成視頻(畫質(zhì)受gif大小限制有所壓縮)。圖源:OpenAI

突破時(shí)長(zhǎng)和逼真的瓶頸,

Sora摸著DALL-E過河

在半年前,在保證生成畫質(zhì)的前提下時(shí)長(zhǎng)僅僅是突破10秒,對(duì)于多數(shù)視頻模型而言都是難以企及的高度。

這是由于循環(huán)網(wǎng)絡(luò)、生成對(duì)抗網(wǎng)絡(luò)、Diffusion模型等主流視頻建模范式,通常只能學(xué)習(xí)某一小類的視覺數(shù)據(jù)、較短的視頻或者固定大小的視頻。

這意味著,此前主流范式下的視頻生成模型對(duì)訓(xùn)練數(shù)據(jù)有較高的要求,需要將訓(xùn)練數(shù)據(jù)處理為具有標(biāo)準(zhǔn)大孝裁剪尺寸的視頻。

Sora的技術(shù)報(bào)告顯示,為了構(gòu)建Sora,OpenAI創(chuàng)新性地采用了文生圖模型DALL-E 3的相關(guān)技術(shù):將Diffusion模型(可以將隨機(jī)像素大致轉(zhuǎn)換為圖像)與Transformer神經(jīng)網(wǎng)絡(luò)(支持處理長(zhǎng)數(shù)據(jù)序列)相結(jié)合。

這意味著,Sora可以像處理文字和圖像數(shù)據(jù)一樣,對(duì)視覺數(shù)據(jù)進(jìn)行分塊式地理解分析,不用進(jìn)行標(biāo)準(zhǔn)化的預(yù)先處理。

比如對(duì)應(yīng)大語(yǔ)言模型中將文本分割為最小的處理單位Token,Sora也通過壓縮視頻到較低維度,將視覺數(shù)據(jù)分割為可分塊處理的補(bǔ)。╬atch)。并且隨著訓(xùn)練計(jì)算量的規(guī)模式(Scaling)提升,視頻生成質(zhì)量會(huì)顯著提高。

基于基礎(chǔ)計(jì)算量生成的樣本效果。圖源:OpenAI

基于4倍計(jì)算量生成的樣本效果。圖源:OpenAI

基于16倍計(jì)算量生成的樣本效果。圖源:OpenAI

基于原始數(shù)據(jù)而非標(biāo)準(zhǔn)化處理數(shù)據(jù)的訓(xùn)練,不僅可以讓Sora初步擁有理解真實(shí)或虛擬世界的能力,還能靈活生成時(shí)長(zhǎng)不同、分辨率和尺寸各異的視頻(目前可生成的尺寸范圍是:寬屏1920x1080p~豎屏1080x1920p),以適應(yīng)不同場(chǎng)景和設(shè)備的使用需求。

Sora生成不同尺寸下的同主題視頻。圖源:OpenAI

不過,仍有不少專家以審慎的態(tài)度看待這次技術(shù)突破。伊利諾伊大學(xué)厄巴納-尚佩恩分校信息科學(xué)教授Ted Underwood在華盛頓郵報(bào)的采訪中表示,OpenAI可能會(huì)挑選可以展示模型最佳表現(xiàn)的一些視頻。

再比如,普林斯頓大學(xué)計(jì)算機(jī)科學(xué)教授 Arvind Narayanan在X推文中指出,Sora生成的時(shí)尚女子在東京街頭行走的視頻中,女子的左右腿交換了位置,背景中的人物在被前進(jìn)物體短暫遮擋后消失了。

Arvind Narayanan的推文,可仔細(xì)觀察原視頻14-16秒處的雙腿交換。

OpenAI官方也放出了一些“Sora翻車視頻”,展示了Sora在理解復(fù)雜場(chǎng)景的物理原理、因果關(guān)系、空間細(xì)節(jié)、時(shí)間推移上的弱點(diǎn)。比如,它搞反了人在跑步機(jī)上跑步的方向。

Sora生成的視頻截圖。提示詞:打印一個(gè)人跑步的場(chǎng)景,35 毫米電影膠片。

Sora殺死Runway們,

倫理安全引發(fā)大眾擔(dān)憂

2022年,TikTok觀看量Top 10的視頻平均時(shí)長(zhǎng)為44.2秒,最長(zhǎng)的一個(gè)視頻長(zhǎng)達(dá)2分16秒;

廣告分析公司IntegralAdScience的統(tǒng)計(jì)數(shù)據(jù)顯示,移動(dòng)網(wǎng)絡(luò)展示廣告和移動(dòng)應(yīng)用的廣告平均時(shí)長(zhǎng)分別為15.6秒和20.2秒。

這意味著,一旦文生視頻模型突破了60s的時(shí)長(zhǎng)瓶頸、畫質(zhì)達(dá)到商用級(jí)別,對(duì)于用戶的生產(chǎn)和娛樂方式,都會(huì)產(chǎn)生巨大的影響!恶R戲之王》導(dǎo)演Michael Gracey告訴華盛頓郵報(bào):“電影制作者不再需要一個(gè)由 100 或 200 名藝術(shù)家組成的團(tuán)隊(duì),在三年內(nèi)制作他們的動(dòng)畫長(zhǎng)片。這讓我很興奮。”

然而,他依然對(duì)AI工具可能會(huì)造成的版權(quán)爭(zhēng)議、失業(yè)問題而感到擔(dān)憂:“它(AI)剝奪了其他人的創(chuàng)造力、工作、想法和執(zhí)行力,卻沒有給予他們應(yīng)有的榮譽(yù)和經(jīng)濟(jì)報(bào)酬時(shí),那就不好了。”

由于Sora生成的視頻質(zhì)量遠(yuǎn)高于多數(shù)視頻生成模型,尤其現(xiàn)實(shí)風(fēng)格讓人真假難辨,不少專家也表達(dá)了對(duì)視頻深度偽造(Deepfake)的擔(dān)憂。政治競(jìng)選虛假信息識(shí)別組織True Media創(chuàng)始人、華盛頓大學(xué)教授Oren Etzioni在紐約時(shí)報(bào)的采訪中表示:“我非常害怕這種事情會(huì)影響一場(chǎng)勢(shì)均力敵的選舉。”

目前,OpenAI為Sora生成的視頻自動(dòng)添加了水印標(biāo)記,以表明由AI生成。OpenAI創(chuàng)始人兼CEO Sam Altman在X上表示,目前Sora正在展開紅隊(duì)測(cè)試(Red-Teaming,一種安全評(píng)估方法),并只對(duì)少數(shù)人開放測(cè)試。

Sam Altman的推文。

不過,即便尚未正式對(duì)公眾開放,Sora的能力已經(jīng)引起了不少視頻模型創(chuàng)業(yè)者的恐慌。

“當(dāng)一個(gè)質(zhì)量更好、時(shí)長(zhǎng)更長(zhǎng)、應(yīng)用場(chǎng)景更廣泛的視頻模型擺在面前,沒有人還想用‘Runway們’。”一名AI創(chuàng)業(yè)者告訴36氪,“對(duì)模型層創(chuàng)業(yè)者來說,當(dāng)務(wù)之急還是趕緊找場(chǎng)景、做應(yīng)用。”

贊助本站

人工智能實(shí)驗(yàn)室
相關(guān)內(nèi)容
AiLab云推薦
推薦內(nèi)容
展開

熱門欄目HotCates

Copyright © 2010-2024 AiLab Team. 人工智能實(shí)驗(yàn)室 版權(quán)所有    關(guān)于我們 | 聯(lián)系我們 | 廣告服務(wù) | 公司動(dòng)態(tài) | 免責(zé)聲明 | 隱私條款 | 工作機(jī)會(huì) | 展會(huì)港