展會(huì)信息港展會(huì)大全

48個(gè)文生視頻+技術(shù)報(bào)告,揭秘OpenAI最強(qiáng)視頻GPT
來(lái)源:互聯(lián)網(wǎng)   發(fā)布日期:2024-02-16 15:34:54   瀏覽:3178次  

導(dǎo)讀:智東西(公眾號(hào):zhidxcom) 編譯 | ZeR0 編輯 | 漠影 智東西2月16日消息,今日凌晨,OpenAI推出其首款文生視頻大模型Sora。該模型能根據(jù)提示詞生成長(zhǎng)達(dá)1分鐘的視頻,或者擴(kuò)展生成的視頻使其更長(zhǎng),同時(shí)視覺(jué)質(zhì)量相當(dāng)驚艷。 相比以往的視頻模型,Sora的亮點(diǎn)非...

智東西(公眾號(hào):zhidxcom)

編譯 | ZeR0

編輯 | 漠影

智東西2月16日消息,今日凌晨,OpenAI推出其首款文生視頻大模型Sora。該模型能根據(jù)提示詞生成長(zhǎng)達(dá)1分鐘的視頻,或者擴(kuò)展生成的視頻使其更長(zhǎng),同時(shí)視覺(jué)質(zhì)量相當(dāng)驚艷。

相比以往的視頻模型,Sora的亮點(diǎn)非常明顯,不僅對(duì)文本理解更深刻,可以準(zhǔn)確地呈現(xiàn)提示詞,而且能在一個(gè)生成的視頻中創(chuàng)建多個(gè)鏡頭,準(zhǔn)確地保留角色和視覺(jué)風(fēng)格。

尤其值得一提的是,Sora在細(xì)節(jié)處理上做得非常出挑,能夠理解復(fù)雜場(chǎng)景中不同元素之間的物理屬性及其關(guān)系,正確呈現(xiàn)它們?cè)谖锢硎澜缰械拇嬖诜绞健?/p>

除了支持文本指令輸入外,該模型支持生成圖像,也支持將現(xiàn)有靜止圖像變成視頻,能對(duì)現(xiàn)有視頻進(jìn)行擴(kuò)展、將兩個(gè)視頻銜接并填充缺失的鄭

其3D仿真能力非常突出,無(wú)論是制作短視頻、動(dòng)畫(huà)、電影畫(huà)面,還是渲染視頻游戲,Sora都展示出了令人期待的落地前景。

為了全方位展示Sora的水平,OpenAI一口氣放出了48個(gè)用Sora直接生成、未經(jīng)修改、長(zhǎng)度不等(9秒~60秒)的視頻。下文附有48個(gè)視頻的完整展示,火眼金睛的讀者朋友們可以研究下這些視頻的準(zhǔn)確程度,或者從專(zhuān)業(yè)性上找找bug。

OpenAI將這個(gè)大模型稱(chēng)作是“能夠理解和模擬現(xiàn)實(shí)世界的模型的基礎(chǔ)”,相信其能力“將是實(shí)現(xiàn)AGI的重要里程碑”。其技術(shù)報(bào)告今日剛剛新鮮出爐:

技術(shù)報(bào)告指路:https://openai.com/research/video-generation-models-as-world-simulators

一、Sora技術(shù)拆解:60秒視頻、理解力強(qiáng)大、一次預(yù)見(jiàn)多幀

OpenAI首個(gè)文生視頻大模型Sora是一個(gè)在可變持續(xù)時(shí)間、分辨率、寬高比的視頻和圖像上聯(lián)合訓(xùn)練的文本條件擴(kuò)散模型。

與GPT模型類(lèi)似,Sora使用Transformer架構(gòu),擴(kuò)展性很強(qiáng)大,能一次生成時(shí)長(zhǎng)1分鐘的視頻,或者擴(kuò)展生成的視頻使其更長(zhǎng)。

隨著訓(xùn)練計(jì)算量增加,樣本質(zhì)量顯著提高。

具體來(lái)看,該模型能生成具有多個(gè)角色、特定類(lèi)型的運(yùn)動(dòng)以及精確的主題和背景細(xì)節(jié)的復(fù)雜場(chǎng)景。

通過(guò)賦予模型一次多幀的預(yù)見(jiàn)能力,OpenAI團(tuán)隊(duì)解決了一個(gè)具有挑戰(zhàn)性的問(wèn)題,即確保一個(gè)主題即使暫時(shí)消失在視野之外也保持不變。

過(guò)去的圖像和視頻生成方法通常是調(diào)整大小,裁剪或修剪視頻到標(biāo)準(zhǔn)尺寸例如,4秒視頻、256×256分辨率。而OpenAI發(fā)現(xiàn)在原始大小的數(shù)據(jù)上進(jìn)行訓(xùn)練提供了一些好處:

(1)采樣的靈活性:Sora可以采樣寬屏1920x1080p視頻、垂直1080×1920視頻以及介于兩者之間的所有視頻。這讓Sora可直接以不同設(shè)備的原始寬高比為其創(chuàng)建內(nèi)容。它還支持在生成全分辨率的內(nèi)容之前,以較小的尺寸快速創(chuàng)建內(nèi)容原型所有內(nèi)容都使用相同的模型。

(2)改進(jìn)框架和構(gòu)圖:OpenAI通過(guò)經(jīng)驗(yàn)發(fā)現(xiàn),在視頻的原始長(zhǎng)寬比上進(jìn)行訓(xùn)練可以改善構(gòu)圖和框架。研究團(tuán)隊(duì)將Sora與其模型的一個(gè)版本進(jìn)行比較,該版本將所有訓(xùn)練視頻裁剪為方形。在正方形裁剪(左圖)上訓(xùn)練的模型有時(shí)會(huì)生成僅部分顯示主題的視頻。相比之下,來(lái)自Sora(右圖)的視頻有改進(jìn)的鄭

此外,Sora文生視頻大模型具備如下特點(diǎn):

1、強(qiáng)大的語(yǔ)言理解能力:訓(xùn)練文本到視頻生成系統(tǒng)需要大量帶有相應(yīng)文本說(shuō)明的視頻。OpenAI將DALLE 3中介紹的字幕重配技術(shù)(Recaptioning)應(yīng)用到視頻中,首先訓(xùn)練一個(gè)高度描述性的字幕模型,然后使用它為其訓(xùn)練集中的所有視頻生成文本字幕。OpenAI發(fā)現(xiàn),對(duì)高度描述性的視頻字幕進(jìn)行訓(xùn)練可提高文本保真度以及視頻的整體質(zhì)量。與DALLE 3類(lèi)似,研究團(tuán)隊(duì)還利用GPT將簡(jiǎn)短的用戶(hù)提示轉(zhuǎn)換為更長(zhǎng)的詳細(xì)字幕,并將其發(fā)送到視頻模型。這使得Sora能準(zhǔn)確按照用戶(hù)提示生成高質(zhì)量的視頻。

2、支持現(xiàn)有的圖像或視頻輸入:這種功能使Sora能夠執(zhí)行廣泛的圖像和視頻編輯任務(wù)創(chuàng)建完美的循環(huán)視頻、動(dòng)畫(huà)靜態(tài)圖像、向前或向后擴(kuò)展視頻等。比如,基于DALLE 3圖像生成視頻,從一個(gè)生成的視頻片段開(kāi)始向前/向后擴(kuò)展視頻,編輯轉(zhuǎn)換視頻的風(fēng)格/環(huán)境,將兩個(gè)輸入視頻無(wú)縫銜接在一起。

3、圖像生成功能:研究團(tuán)隊(duì)通過(guò)在一個(gè)時(shí)間范圍為一幀的空間網(wǎng)格中排列高斯噪聲塊來(lái)實(shí)現(xiàn)這一點(diǎn)。該模型可以生成可變大小的圖像,最高可達(dá)2048 × 2048分辨率。

4、新興的仿真能力:OpenAI發(fā)現(xiàn)視頻模型在大規(guī)模訓(xùn)練時(shí)表現(xiàn)出許多有趣的突發(fā)能力。這些功能使Sora能夠從現(xiàn)實(shí)世界中模擬人、動(dòng)物和環(huán)境的某些方面。Sora可以生成帶有動(dòng)態(tài)攝像機(jī)運(yùn)動(dòng)的視頻。隨著攝像機(jī)的移動(dòng)和旋轉(zhuǎn),人物和場(chǎng)景元素在三維空間中始終如一地移動(dòng)。

Sora經(jīng)常能夠有效地為短期和長(zhǎng)期依賴(lài)關(guān)系建模,可以在單個(gè)樣本中生成同一角色的多個(gè)鏡頭,在整個(gè)視頻中保持其外觀(guān)一致。該模型有時(shí)可以用簡(jiǎn)單的方式模擬影響世界狀態(tài)的行為,例如,畫(huà)家可以在畫(huà)布上留下新的筆觸,隨著時(shí)間的推移,或者一個(gè)人吃漢堡時(shí)留下咬痕。

在模擬數(shù)字世界方面,Sora能夠模擬人工過(guò)程,比如視頻游戲,可在高保真度渲染世界及其動(dòng)態(tài)的同時(shí),用基本策略控制《我的世界》中的玩家。

這些功能表明,視頻模型的持續(xù)擴(kuò)展是發(fā)展物理和數(shù)字世界以及生活在其中的物體、動(dòng)物和人的高性能模擬器的一條有希望的道路。

OpenAI從大語(yǔ)言模型獲得靈感,大語(yǔ)言模型的成功部分歸功于tokens優(yōu)雅地統(tǒng)一了文本代碼、數(shù)學(xué)及各種自然語(yǔ)言的不同模式。Sora研究則考慮到讓視覺(jué)數(shù)據(jù)的生成模型繼承這些優(yōu)點(diǎn)。

此前視覺(jué)patch已經(jīng)被證明是視覺(jué)數(shù)據(jù)模型的有效表示。OpenAI發(fā)現(xiàn)patch是一種高度可擴(kuò)展且有效的表示形式,可用于在不同類(lèi)型的視頻和圖像上訓(xùn)練生成模型。

OpenAI將視頻轉(zhuǎn)換成patch,訓(xùn)練了一個(gè)降低視覺(jué)數(shù)據(jù)維度的網(wǎng)絡(luò),該網(wǎng)絡(luò)將原始視頻作為輸入并輸出在時(shí)間和空間上壓縮的潛在表示。Sora在這個(gè)壓縮的潛在空間中接受訓(xùn)練并隨后生成視頻。 OpenAI還訓(xùn)練了相應(yīng)的解碼器模型。

給定一個(gè)壓縮的輸入視頻,研究團(tuán)隊(duì)提取一系列時(shí)空patch,充當(dāng)Transformer tokens,這種基于patch的表示使得Sora能對(duì)不同時(shí)長(zhǎng)、寬高比、分辨率的視頻和圖像進(jìn)行訓(xùn)練。在推理時(shí),可通過(guò)在適當(dāng)大小的網(wǎng)格中排列隨機(jī)初始化的patches來(lái)控制生成視頻的大校

Sora是一個(gè)擴(kuò)散模型;輸入一個(gè)噪聲patch,它被訓(xùn)練來(lái)預(yù)測(cè)原始的“干凈”patch。在這項(xiàng)工作中,OpenAI發(fā)現(xiàn)擴(kuò)散Transformer可以作為視頻模型有效擴(kuò)展。

二、48個(gè)視頻Demo:動(dòng)漫電影、逼真自然、魔幻大片

OpenAI一共放出了48個(gè)視頻來(lái)展示Sora模型的強(qiáng)大之處。受站點(diǎn)上傳限制,下文主要以動(dòng)圖形式來(lái)簡(jiǎn)要呈現(xiàn)這些生成視頻的部分視覺(jué)效果。

提示詞1:一個(gè)時(shí)髦的女人走在東京的街道上,到處都是溫暖的霓虹燈和生動(dòng)的城市標(biāo)志。她穿著黑色皮夾克、紅色長(zhǎng)裙、黑色靴子,拿著一個(gè)黑色錢(qián)包。她戴著太陽(yáng)鏡,涂著紅色的口紅。她走起路來(lái)自信而隨意。街道是潮濕和反光的,創(chuàng)造了一個(gè)彩色燈光的鏡子效果。許多行人走來(lái)走去。

提示詞2:幾只巨大的長(zhǎng)毛猛犸象穿過(guò)一片白雪覆蓋的草地,它們長(zhǎng)長(zhǎng)的毛茸茸的皮毛在風(fēng)中輕拂,遠(yuǎn)處白雪覆蓋的樹(shù)木和戲劇性的雪山,午后的光線(xiàn)與縷縷的云和遠(yuǎn)處的太陽(yáng)創(chuàng)造了溫暖的光芒,低相機(jī)的視角是驚人的,捕捉到了美麗的攝影,景深的大型毛茸茸的哺乳動(dòng)物。

提示詞3:這是一部電影預(yù)告片,講述了30歲的太空人戴著紅色羊毛針織摩托車(chē)頭盔的冒險(xiǎn)經(jīng)歷,藍(lán)天,鹽沙漠,電影風(fēng)格,用35毫米膠片拍攝,色彩鮮艷。

提示詞4:無(wú)人機(jī)拍攝的海浪沖擊著大蘇爾加雷角海灘上崎嶇的懸崖。藍(lán)色的海水拍打著白色的波浪,夕陽(yáng)的金色光芒照亮了巖石海岸。遠(yuǎn)處有一座小島,島上有一座燈塔,懸崖邊上長(zhǎng)滿(mǎn)了綠色的灌木叢。從公路到海灘的陡峭落差是一個(gè)戲劇性的壯舉,懸崖的邊緣突出在海面上。這是一幅捕捉到海岸原始美景和太平洋海岸公路崎嶇景觀(guān)的景色。

提示詞5:動(dòng)畫(huà)場(chǎng)景特寫(xiě)了一個(gè)毛茸茸的矮個(gè)子怪物跪在融化的紅燭旁。美術(shù)風(fēng)格是3D和現(xiàn)實(shí)的,重點(diǎn)是照明和紋理。這幅畫(huà)的氣氛是一種驚奇和好奇,因?yàn)楣治锉牬笱劬,張開(kāi)嘴巴凝視著火焰。它的姿勢(shì)和表情傳達(dá)了一種天真和頑皮的感覺(jué),好像它是第一次探索周?chē)氖澜纭E蛻騽⌒詿艄獾氖褂眠M(jìn)一步增強(qiáng)了圖像的舒適氛圍。

提示詞6:一個(gè)華麗渲染的珊瑚礁紙工藝品世界,到處都是五顏六色的魚(yú)和海洋生物。

提示詞7:這個(gè)維多利亞冠鴿的特寫(xiě)展示了它引人注目的藍(lán)色羽毛和紅色胸部。它的羽冠是由精致的花邊羽毛制成的,而它的眼睛是醒目的紅色。鳥(niǎo)的頭微微向一側(cè)傾斜,給人一種帝王和威嚴(yán)的印象。背景是模糊的,吸引人們注意到這只鳥(niǎo)引人注目的外表。

提示詞8:兩艘海盜船在一杯咖啡中航行時(shí)相互爭(zhēng)斗的逼真特寫(xiě)視頻。

提示詞9:一個(gè)20多歲的年輕人坐在天空的一片云上讀書(shū)。

提示詞10:淘金熱時(shí)期加州的歷史鏡頭

提示詞11:一個(gè)玻璃球的近景,里面有一個(gè)禪宗花園。球體中有一個(gè)小矮人正在耙花園,并在沙子上創(chuàng)造圖案。

提示詞12:一個(gè)24歲的女人眨著眼睛的極端特寫(xiě),站在馬拉喀什的神奇時(shí)刻,電影膠片拍攝,70mm,景深,生動(dòng)的色彩,電影感。

提示詞13:一只卡通袋鼠跳迪斯科。

提示詞14:一個(gè)美麗的自制視頻,展示了2056年尼日利亞拉各斯的人們。用手機(jī)攝像頭拍攝的。

提示詞15:一個(gè)培養(yǎng)皿,里面生長(zhǎng)著竹林,小熊貓?jiān)诶锩媾軄?lái)跑去。

提示詞16:攝像機(jī)圍繞著一大堆老式電視旋轉(zhuǎn),這些電視播放著不同的節(jié)目20世紀(jì)50年代的科幻電影、恐怖電影、新聞、靜態(tài)、70年代的情景喜劇等,背景設(shè)在紐約博物館的一個(gè)大型畫(huà)廊里。

提示詞17:一個(gè)小的、圓的、毛茸茸的、有一雙大而富有表現(xiàn)力的眼睛的生物探索了一個(gè)充滿(mǎn)活力的魔法森林的3D動(dòng)畫(huà)。這種動(dòng)物是兔子和松鼠的異想天開(kāi)的混合體,有著柔軟的藍(lán)色皮毛和濃密的條紋尾巴。它沿著波光粼粼的小溪跳躍,驚奇地睜大了眼睛。森林里充滿(mǎn)了神奇的元素:發(fā)光和變色的花朵,紫色和銀色葉子的樹(shù)木,以及像螢火蟲(chóng)一樣的小浮動(dòng)燈。這只生物停下來(lái)和一群在蘑菇圈周?chē)璧男∠膳覒。這只生物敬畏地仰望著一棵巨大的、發(fā)光的樹(shù),這棵樹(shù)似乎是森林的中心。

提示詞18:攝像機(jī)跟在一輛黑色車(chē)頂架的白色復(fù)古SUV后面,它在陡峭的山坡上沿著松樹(shù)環(huán)繞的陡峭土路加速行駛,灰塵從輪胎上揚(yáng)起,陽(yáng)光照在越野車(chē)上,在土路上加速行駛,在現(xiàn)場(chǎng)投下溫暖的光芒。這條土路彎彎曲曲地延伸到遠(yuǎn)處,看不到其他的汽車(chē)或車(chē)輛。道路兩旁的樹(shù)木都是紅杉,點(diǎn)綴著一片片綠色植物。從后面看到的汽車(chē)跟隨曲線(xiàn)輕松,使它看起來(lái)好像是在崎嶇不平的地形上行駛。土路本身被陡峭的丘陵和山脈包圍,上面是清澈的藍(lán)天和縷縷的云。

提示詞19:火車(chē)在東京郊區(qū)行駛時(shí),車(chē)窗上的倒影。

提示詞20:一架無(wú)人機(jī)攝像機(jī)環(huán)繞著一座美麗的歷史悠久的教堂,這座教堂建在阿馬爾菲海岸的巖石上,這張照片展示了歷史和宏偉的建筑細(xì)節(jié),分層的小路和露臺(tái),海浪撞擊著下面的巖石,俯瞰著意大利阿馬爾菲海岸的海岸水域和丘陵景觀(guān),遠(yuǎn)處的幾個(gè)人在露臺(tái)上散步,欣賞著壯觀(guān)的海景。下午溫暖的陽(yáng)光為現(xiàn)場(chǎng)創(chuàng)造了一種神奇而浪漫的感覺(jué),美麗的攝影捕捉到了令人驚嘆的景色。

提示詞21:一只巨大的橙色章魚(yú)在海底休息,與沙質(zhì)和巖石地形融為一體。它的觸手在身體周?chē)归_(kāi),眼睛是閉著的。章魚(yú)沒(méi)有意識(shí)到一只帝王蟹正從巖石后面向它爬來(lái),它的爪子抬起,準(zhǔn)備攻擊。這種螃蟹是棕色的、多刺的,有長(zhǎng)腿和觸角。這個(gè)場(chǎng)景是從廣角拍攝的,展示了海洋的廣闊和深度。海水清澈湛藍(lán),陽(yáng)光透過(guò)來(lái)。鏡頭銳利,動(dòng)態(tài)范圍大。章魚(yú)和螃蟹是焦點(diǎn),而背景稍微模糊,創(chuàng)造了景深效果。

提示詞22:一群紙飛機(jī)在茂密的叢林中飛舞,像候鳥(niǎo)一樣在樹(shù)木之間穿梭。

提示詞23:一只貓叫醒了正在睡覺(jué)的主人,要求吃早飯。主人試圖忽略貓,但貓嘗試了新的策略,最后主人從枕頭下拿出了一個(gè)秘密的零食,讓貓多待一會(huì)兒。

提示詞24:基納巴坦干河上的婆羅洲野生動(dòng)物。

提示詞25:有中國(guó)龍的中國(guó)農(nóng)歷新年慶祝視頻。

提示詞26:參觀(guān)藝術(shù)畫(huà)廊,欣賞許多風(fēng)格各異的精美藝術(shù)品。

提示詞27:美麗、白雪皚皚的東京城市熙熙攘攘。鏡頭穿過(guò)熙熙攘攘的城市街道,跟隨幾個(gè)人享受美麗的雪天,在附近的攤位上購(gòu)物。絢麗的櫻花花瓣隨著雪花在風(fēng)中飛舞。

提示詞28:這是一幅定格動(dòng)畫(huà),描繪了一朵花從郊區(qū)房子的窗臺(tái)上長(zhǎng)出來(lái)。

提示詞29:賽博朋克設(shè)定的機(jī)器人生活故事。

提示詞30:極致特寫(xiě)一個(gè)60歲、頭發(fā)胡子花白的男人,在深度思考宇宙歷史,他坐在一家巴黎的咖啡館,穿著一件羊毛外套西裝外套和一件襯衫,戴著一件棕色的貝雷帽、眼鏡,有一個(gè)非常專(zhuān)業(yè)的外表,結(jié)束時(shí)他有了一個(gè)微妙的、封閉式的笑容,好像找到了答案,神秘生活,燈光非常電影化,金色燈光和巴黎的街道和城市作為背景,景深,電影感,35mm膠片。

提示詞31:一個(gè)美麗的剪影動(dòng)畫(huà)展示了一只狼對(duì)著月亮嚎叫,感到孤獨(dú),直到它找到了它的族群。

提示詞32:紐約市像被淹沒(méi)的亞特蘭蒂斯。魚(yú)、鯨魚(yú)、海龜和鯊魚(yú)游過(guò)紐約的街道。

提示詞33:一窩金毛獵犬小狗在雪地里玩耍。他們的頭從雪中探出頭來(lái),身上覆蓋著雪。

提示詞34:一個(gè)人跑步的步印場(chǎng)景,電影膠片,35mm拍攝。

提示詞35:五只小灰狼在一條偏僻的礫石路上嬉戲追逐,周?chē)L(zhǎng)滿(mǎn)了草。幼崽們又跑又跳,互相追逐,互相撕咬、玩耍。

提示詞36:籃球穿過(guò)籃筐然后爆炸。

提示詞37:考古學(xué)家在沙漠中發(fā)現(xiàn)了一把普通的塑料椅子,他們小心翼翼地挖掘并撣去了上面的灰塵。

提示詞38:一位頭發(fā)梳得整整齊齊的白發(fā)老奶奶站在一張木制餐桌前,身后是一個(gè)色彩斑斕的生日蛋糕,上面插著無(wú)數(shù)的蠟燭,她的眼睛里閃爍著幸福的光芒,臉上流露出一種純粹的快樂(lè)和幸福。她身體前傾,輕輕地吹滅了蠟燭,蛋糕上有粉紅色的糖霜和糖屑,蠟燭也不再閃爍,老奶奶穿著一件淺藍(lán)色的襯衫,上面裝飾著花卉圖案,可以看到幾個(gè)快樂(lè)的朋友和家人坐在桌子旁慶祝,背景虛化。這個(gè)場(chǎng)景拍得很漂亮,像電影一樣,展示了老奶奶和餐廳的3/4視圖。暖色調(diào)和柔和的燈光改善了心情。

提示詞39:鏡頭直接對(duì)著意大利布拉諾五顏六色的建筑。一只可愛(ài)的斑點(diǎn)狗從一樓的窗戶(hù)往外看。許多人沿著建筑物前的運(yùn)河街道散步或騎自行車(chē)。

提示詞40:一只可愛(ài)快樂(lè)的水獺穿著黃色救生衣自信地站在沖浪板上,沿著綠松石般的熱帶水域騎行,附近是郁郁蔥蔥的熱帶島嶼,3D數(shù)字渲染藝術(shù)風(fēng)格。

提示詞41:這張變色龍的特寫(xiě)照片展示了它驚人的變色能力。背景是模糊的,吸引人們注意到動(dòng)物引人注目的外表。

提示詞42:一只柯基在熱帶毛伊島拍攝視頻。

提示詞43:一只白橙相間的虎斑貓歡快地在茂密的花園里竄來(lái)竄去,好像在追逐什么東西。它的眼睛睜得大大的,歡快地向前跑著,一邊走一邊掃視著樹(shù)枝、花朵和樹(shù)葉。這條小路很窄,因?yàn)樗谒械闹参镏g穿行。這個(gè)場(chǎng)景是從地面的角度拍攝的,緊跟在貓后面,給人一個(gè)低而親密的視角。圖像是電影般的暖色調(diào)和顆粒紋理。樹(shù)葉和植物之間分散的日光形成了溫暖的對(duì)比,突出了貓的橙色皮毛。這張照片清晰銳利,景深淺。

提示詞44:藍(lán)色圣托里尼鳥(niǎo)瞰圖,展示了白色基克拉迪建筑和藍(lán)色圓頂?shù)捏@人建筑;鹕娇诘木吧钊藝@為觀(guān)止,燈光營(yíng)造出一種美麗、寧?kù)o的氛圍。

提示詞45:工人、設(shè)備和重型機(jī)械密集的建筑工地的傾斜。

提示詞46:一個(gè)巨大的、高聳的云在一個(gè)人的形狀在地球上隱約出現(xiàn)。云人把閃電射向地面。

提示詞47:一只薩摩耶犬和一只金毛獵犬在夜晚的霓虹燈城市里嬉戲。附近建筑物發(fā)出的霓虹燈在它們的皮毛上閃閃發(fā)光。

提示詞48:Glenfinnan高架橋是英國(guó)蘇格蘭的一座歷史悠久的鐵路橋,橫跨馬萊格鎮(zhèn)和威廉堡之間的西部高地線(xiàn)。一列蒸汽火車(chē)駛離大橋,在拱形高架橋上行駛,這是一幅令人驚嘆的景象。風(fēng)景點(diǎn)綴著郁郁蔥蔥的綠色植物和巖石山脈,為火車(chē)之旅創(chuàng)造了風(fēng)景如畫(huà)的背景。天空湛藍(lán),陽(yáng)光明媚,這是個(gè)探索這個(gè)雄偉景點(diǎn)的美好日子。

三、不足:難以模擬復(fù)雜場(chǎng)景,混淆提示詞的空間細(xì)節(jié)

OpenAI坦言,當(dāng)前Sora目前存在許多局限性,可能難以準(zhǔn)確地模擬復(fù)雜場(chǎng)景的物理屬性,比如玻璃破碎;也可能無(wú)法理解因果關(guān)系的具體實(shí)例。例如,一個(gè)人咬了一口餅干,但之后餅干上可能沒(méi)有咬痕。

該模型還可能混淆提示的空間細(xì)節(jié),例如,混淆左和右,并且可能難以精確描述隨時(shí)間發(fā)生的事件,例如跟隨特定的攝像機(jī)軌跡。

OpenAI強(qiáng)調(diào)說(shuō),在將Sora應(yīng)用于OpenAI的產(chǎn)品之前,他們將采取一些重要的安全措施,包括與紅隊(duì)專(zhuān)家合作進(jìn)行對(duì)抗性測(cè)試、構(gòu)建檢測(cè)分類(lèi)器等工具來(lái)幫助檢測(cè)誤導(dǎo)性?xún)?nèi)容、計(jì)劃在未來(lái)包含C2PA元數(shù)據(jù)等。

除了開(kāi)發(fā)新技術(shù)為部署做準(zhǔn)備外,OpenAI還利用了其為使用DALLE 3的產(chǎn)品構(gòu)建的現(xiàn)有安全方法,這些方法也適用于Sora。

Sora文生視頻大模型的研究由Bill Peebles、Tim Brooks領(lǐng)導(dǎo),系統(tǒng)領(lǐng)導(dǎo)者是Connor Holmes。以下人員均參與了此研究的貢獻(xiàn)。

OpenAI還對(duì)下述人員致以特別感謝:

結(jié)語(yǔ):

OpenAI終于下場(chǎng),視頻生成模型迎來(lái)重磅玩家!

隨著OpenAI首款文生視頻大模型Sora推出,去年已經(jīng)如火如荼展開(kāi)的文生視頻大模型大戰(zhàn),今年儼然要通過(guò)卷向更強(qiáng)性能,開(kāi)啟落地之年。

其研究團(tuán)隊(duì)相信,Sora今天所擁有的能力表明,視頻模型的持續(xù)擴(kuò)展是一條很有前途的道路,可以開(kāi)發(fā)出物理和數(shù)字世界的模擬器,以及生活在其中的物體、動(dòng)物和人。

OpenAI承諾將與世界各地的政策制定者、教育工作者和藝術(shù)家接觸,了解他們的擔(dān)憂(yōu),并確定這項(xiàng)新技術(shù)的積極用例。

盡管進(jìn)行了廣泛的研究和測(cè)試,但OpenAI團(tuán)隊(duì)無(wú)法預(yù)測(cè)人們使用其技術(shù)的所有有益方式,也無(wú)法預(yù)測(cè)人們?yōu)E用它的所有方式。該團(tuán)隊(duì)相信隨著時(shí)間的推移,從現(xiàn)實(shí)世界的使用中學(xué)習(xí)是創(chuàng)建和發(fā)布越來(lái)越安全的AI系統(tǒng)的關(guān)鍵組成部分。

來(lái)源:OpenAI

贊助本站

人工智能實(shí)驗(yàn)室
相關(guān)內(nèi)容
AiLab云推薦
推薦內(nèi)容
展開(kāi)

熱門(mén)欄目HotCates

Copyright © 2010-2024 AiLab Team. 人工智能實(shí)驗(yàn)室 版權(quán)所有    關(guān)于我們 | 聯(lián)系我們 | 廣告服務(wù) | 公司動(dòng)態(tài) | 免責(zé)聲明 | 隱私條款 | 工作機(jī)會(huì) | 展會(huì)港