在线观看免费gv一区二区三区,在线免费观看欧洲av黄色片网站,日本乱理伦片在线观看真人

OpenAI空降視頻生成模型：一口氣生成60s，風(fēng)格畫質(zhì)尺寸靈活定制 | 最前線

來源：互聯(lián)網(wǎng) 發(fā)布日期：2024-02-16 18:42:04 瀏覽：4596次

導(dǎo)讀：文 | 周鑫雨編輯 | 蘇建勛 2023年4月，成立于紐約的Runway AI發(fā)布了一段用AI生成的視頻：模糊卡頓、物體扭曲，且僅4秒；四個(gè)月后，Runway將文生視頻的視頻效果拉到了4K的超逼著高度，實(shí)現(xiàn)了鏡頭的連貫穩(wěn)定。而視頻的最大長(zhǎng)度也從4秒，提升到了18秒這也是20...

文 | 周鑫雨

編輯 | 蘇建勛

2023年4月，成立于紐約的Runway AI發(fā)布了一段用AI生成的視頻：模糊卡頓、物體扭曲，且僅4秒；

四個(gè)月后，Runway將文生視頻的視頻效果拉到了4K的超逼著高度，實(shí)現(xiàn)了鏡頭的連貫穩(wěn)定。而視頻的最大長(zhǎng)度也從4秒，提升到了18秒這也是2023年文生視頻的“時(shí)長(zhǎng)天花板”。

然而，就在北京時(shí)間2024年2月16日凌晨，“天花板”又被打破OpenAI又出王炸，發(fā)布了可以生成60秒視頻的AI模型Sora。

OpenAI官宣Sora。

同樣在2月16日發(fā)布的谷歌最新多模態(tài)模型Gemini Pro 1.5，則被Sora迅速奪走了關(guān)注度。

網(wǎng)友為Gemini和Sora制作的梗圖。

根據(jù)OpenAI官方發(fā)布的推文和技術(shù)報(bào)告，Sora能力的革命性可以被提煉為：最長(zhǎng)生成60s視頻、鏡頭的前后一致性、超逼真。

從官方發(fā)布的視頻demo而言，Sora只需要輸入包含“構(gòu)成元素、環(huán)境、行為及發(fā)生順序、視頻風(fēng)格”等關(guān)鍵因素的Prompt（提示詞），就能生成不同風(fēng)格的高清、連貫，且具有豐富運(yùn)鏡和轉(zhuǎn)場(chǎng)的60s級(jí)視頻。

比如生成包含人物和城市元素的視頻：

提示詞：一位時(shí)尚女性走在充滿溫暖霓虹燈和動(dòng)畫城市標(biāo)牌的東京街道上。她穿著黑色皮夾克、紅色長(zhǎng)裙和黑色靴子，拎著黑色錢包。她戴著太陽(yáng)鏡，涂著紅色口紅。她走路自信又隨意。街道潮濕且反光，在彩色燈光的照射下形成鏡面效果。許多行人走來走去。

Sora生成視頻（原視頻為60s，文中截取20s，畫質(zhì)受gif大小限制有所壓縮）。圖源：OpenAI

Sora也能生成動(dòng)物和自然風(fēng)光：

提示詞：幾只巨大的毛茸茸的猛犸象踏著白雪皚皚的草地走近，它們長(zhǎng)長(zhǎng)的毛茸茸的皮毛在風(fēng)中輕輕飄動(dòng)，遠(yuǎn)處覆蓋著積雪的樹木和雄偉的雪山，午后的陽(yáng)光下有縷縷云彩，太陽(yáng)高高地掛在空中距離產(chǎn)生溫暖的光芒，低相機(jī)視角令人驚嘆地捕捉到大型毛茸茸的哺乳動(dòng)物，具有美麗的攝影和景深。

Sora生成視頻（畫質(zhì)受gif大小限制有所壓縮）。圖源：OpenAI

Sora生成的視頻已經(jīng)能夠達(dá)到逼真的效果。不過，用3D和動(dòng)漫風(fēng)格生成虛擬場(chǎng)景對(duì)Sora而言也不在話下：

提示詞：動(dòng)畫場(chǎng)景的特寫是一個(gè)毛茸茸的小怪物跪在融化的紅蠟燭旁邊。藝術(shù)風(fēng)格是 3D 和現(xiàn)實(shí)的，重點(diǎn)是燈光和紋理。這幅畫的氣氛是一種驚奇和好奇，怪物睜大眼睛、張開嘴巴凝視著火焰。它的姿勢(shì)和表情傳達(dá)出一種天真和俏皮的感覺，就好像它第一次探索周圍的世界一樣。暖色調(diào)和戲劇性燈光的使用進(jìn)一步增強(qiáng)了圖像的舒適氛圍。

Sora生成視頻（畫質(zhì)受gif大小限制有所壓縮）。圖源：OpenAI

突破時(shí)長(zhǎng)和逼真的瓶頸，

Sora摸著DALL-E過河

在半年前，在保證生成畫質(zhì)的前提下時(shí)長(zhǎng)僅僅是突破10秒，對(duì)于多數(shù)視頻模型而言都是難以企及的高度。

這是由于循環(huán)網(wǎng)絡(luò)、生成對(duì)抗網(wǎng)絡(luò)、Diffusion模型等主流視頻建模范式，通常只能學(xué)習(xí)某一小類的視覺數(shù)據(jù)、較短的視頻或者固定大小的視頻。

這意味著，此前主流范式下的視頻生成模型對(duì)訓(xùn)練數(shù)據(jù)有較高的要求，需要將訓(xùn)練數(shù)據(jù)處理為具有標(biāo)準(zhǔn)大孝裁剪尺寸的視頻。

Sora的技術(shù)報(bào)告顯示，為了構(gòu)建Sora，OpenAI創(chuàng)新性地采用了文生圖模型DALL-E 3的相關(guān)技術(shù)：將Diffusion模型（可以將隨機(jī)像素大致轉(zhuǎn)換為圖像）與Transformer神經(jīng)網(wǎng)絡(luò)（支持處理長(zhǎng)數(shù)據(jù)序列）相結(jié)合。

這意味著，Sora可以像處理文字和圖像數(shù)據(jù)一樣，對(duì)視覺數(shù)據(jù)進(jìn)行分塊式地理解分析，不用進(jìn)行標(biāo)準(zhǔn)化的預(yù)先處理。

比如對(duì)應(yīng)大語(yǔ)言模型中將文本分割為最小的處理單位Token，Sora也通過壓縮視頻到較低維度，將視覺數(shù)據(jù)分割為可分塊處理的補(bǔ)�。╬atch）。并且隨著訓(xùn)練計(jì)算量的規(guī)模式（Scaling）提升，視頻生成質(zhì)量會(huì)顯著提高。

基于基礎(chǔ)計(jì)算量生成的樣本效果。圖源：OpenAI

基于4倍計(jì)算量生成的樣本效果。圖源：OpenAI

基于16倍計(jì)算量生成的樣本效果。圖源：OpenAI

基于原始數(shù)據(jù)而非標(biāo)準(zhǔn)化處理數(shù)據(jù)的訓(xùn)練，不僅可以讓Sora初步擁有理解真實(shí)或虛擬世界的能力，還能靈活生成時(shí)長(zhǎng)不同、分辨率和尺寸各異的視頻（目前可生成的尺寸范圍是：寬屏1920x1080p~豎屏1080x1920p），以適應(yīng)不同場(chǎng)景和設(shè)備的使用需求。

Sora生成不同尺寸下的同主題視頻。圖源：OpenAI

不過，仍有不少專家以審慎的態(tài)度看待這次技術(shù)突破。伊利諾伊大學(xué)厄巴納－尚佩恩分校信息科學(xué)教授Ted Underwood在華盛頓郵報(bào)的采訪中表示，OpenAI可能會(huì)挑選可以展示模型最佳表現(xiàn)的一些視頻。

再比如，普林斯頓大學(xué)計(jì)算機(jī)科學(xué)教授 Arvind Narayanan在X推文中指出，Sora生成的時(shí)尚女子在東京街頭行走的視頻中，女子的左右腿交換了位置，背景中的人物在被前進(jìn)物體短暫遮擋后消失了。

Arvind Narayanan的推文，可仔細(xì)觀察原視頻14-16秒處的雙腿交換。

OpenAI官方也放出了一些“Sora翻車視頻”，展示了Sora在理解復(fù)雜場(chǎng)景的物理原理、因果關(guān)系、空間細(xì)節(jié)、時(shí)間推移上的弱點(diǎn)。比如，它搞反了人在跑步機(jī)上跑步的方向。

Sora生成的視頻截圖。提示詞：打印一個(gè)人跑步的場(chǎng)景，35 毫米電影膠片。

Sora殺死Runway們，

倫理安全引發(fā)大眾擔(dān)憂

2022年，TikTok觀看量Top 10的視頻平均時(shí)長(zhǎng)為44.2秒，最長(zhǎng)的一個(gè)視頻長(zhǎng)達(dá)2分16秒；

廣告分析公司IntegralAdScience的統(tǒng)計(jì)數(shù)據(jù)顯示，移動(dòng)網(wǎng)絡(luò)展示廣告和移動(dòng)應(yīng)用的廣告平均時(shí)長(zhǎng)分別為15.6秒和20.2秒。

這意味著，一旦文生視頻模型突破了60s的時(shí)長(zhǎng)瓶頸、畫質(zhì)達(dá)到商用級(jí)別，對(duì)于用戶的生產(chǎn)和娛樂方式，都會(huì)產(chǎn)生巨大的影響�！恶R戲之王》導(dǎo)演Michael Gracey告訴華盛頓郵報(bào)：“電影制作者不再需要一個(gè)由 100 或 200 名藝術(shù)家組成的團(tuán)隊(duì)，在三年內(nèi)制作他們的動(dòng)畫長(zhǎng)片。這讓我很興奮。”

然而，他依然對(duì)AI工具可能會(huì)造成的版權(quán)爭(zhēng)議、失業(yè)問題而感到擔(dān)憂：“它（AI）剝奪了其他人的創(chuàng)造力、工作、想法和執(zhí)行力，卻沒有給予他們應(yīng)有的榮譽(yù)和經(jīng)濟(jì)報(bào)酬時(shí)，那就不好了。”

由于Sora生成的視頻質(zhì)量遠(yuǎn)高于多數(shù)視頻生成模型，尤其現(xiàn)實(shí)風(fēng)格讓人真假難辨，不少專家也表達(dá)了對(duì)視頻深度偽造（Deepfake）的擔(dān)憂。政治競(jìng)選虛假信息識(shí)別組織True Media創(chuàng)始人、華盛頓大學(xué)教授Oren Etzioni在紐約時(shí)報(bào)的采訪中表示：“我非常害怕這種事情會(huì)影響一場(chǎng)勢(shì)均力敵的選舉。”

目前，OpenAI為Sora生成的視頻自動(dòng)添加了水印標(biāo)記，以表明由AI生成。OpenAI創(chuàng)始人兼CEO Sam Altman在X上表示，目前Sora正在展開紅隊(duì)測(cè)試（Red-Teaming，一種安全評(píng)估方法），并只對(duì)少數(shù)人開放測(cè)試。

Sam Altman的推文。

不過，即便尚未正式對(duì)公眾開放，Sora的能力已經(jīng)引起了不少視頻模型創(chuàng)業(yè)者的恐慌。

“當(dāng)一個(gè)質(zhì)量更好、時(shí)長(zhǎng)更長(zhǎng)、應(yīng)用場(chǎng)景更廣泛的視頻模型擺在面前，沒有人還想用‘Runway們’。”一名AI創(chuàng)業(yè)者告訴36氪，“對(duì)模型層創(chuàng)業(yè)者來說，當(dāng)務(wù)之急還是趕緊找場(chǎng)景、做應(yīng)用。”

相關(guān)熱詞： OpenAI 空降視頻生成模型一口氣 60s 風(fēng)格

OpenAI空降視頻生成模型：一口氣生成60s，風(fēng)格畫質(zhì)尺寸靈活定制 | 最前線
來源：互聯(lián)網(wǎng) 發(fā)布日期：2024-02-16 18:42:04 瀏覽：4596次

相關(guān)內(nèi)容

AiLab云推薦

最新資訊

本月熱點(diǎn)

熱門排行

推薦內(nèi)容

在線客服

熱門欄目HotCates

關(guān)于我們

版權(quán)聲明

OpenAI空降視頻生成模型：一口氣生成60s，風(fēng)格畫質(zhì)尺寸靈活定制 | 最前線 來源：互聯(lián)網(wǎng) 發(fā)布日期：2024-02-16 18:42:04 瀏覽：4596次