當(dāng)前位置：人工智能實(shí)驗(yàn)室> 人工智能應(yīng)用 > 48個(gè)文生視頻+技術(shù)報(bào)告，揭秘OpenAI最強(qiáng)視頻GPT

48個(gè)文生視頻+技術(shù)報(bào)告，揭秘OpenAI最強(qiáng)視頻GPT
來(lái)源：互聯(lián)網(wǎng) 發(fā)布日期：2024-02-16 15:34:54 瀏覽：3178次

導(dǎo)讀：智東西（公眾號(hào)：zhidxcom）編譯 | ZeR0 編輯 | 漠影智東西2月16日消息，今日凌晨，OpenAI推出其首款文生視頻大模型Sora。該模型能根據(jù)提示詞生成長(zhǎng)達(dá)1分鐘的視頻，或者擴(kuò)展生成的視頻使其更長(zhǎng)，同時(shí)視覺(jué)質(zhì)量相當(dāng)驚艷。相比以往的視頻模型，Sora的亮點(diǎn)非...

智東西（公眾號(hào)：zhidxcom）

編譯 | ZeR0

編輯 | 漠影

智東西2月16日消息，今日凌晨，OpenAI推出其首款文生視頻大模型Sora。該模型能根據(jù)提示詞生成長(zhǎng)達(dá)1分鐘的視頻，或者擴(kuò)展生成的視頻使其更長(zhǎng)，同時(shí)視覺(jué)質(zhì)量相當(dāng)驚艷。

相比以往的視頻模型，Sora的亮點(diǎn)非常明顯，不僅對(duì)文本理解更深刻，可以準(zhǔn)確地呈現(xiàn)提示詞，而且能在一個(gè)生成的視頻中創(chuàng)建多個(gè)鏡頭，準(zhǔn)確地保留角色和視覺(jué)風(fēng)格。

尤其值得一提的是，Sora在細(xì)節(jié)處理上做得非常出挑，能夠理解復(fù)雜場(chǎng)景中不同元素之間的物理屬性及其關(guān)系，正確呈現(xiàn)它們?cè)谖锢硎澜缰械拇嬖诜绞健?/p>

除了支持文本指令輸入外，該模型支持生成圖像，也支持將現(xiàn)有靜止圖像變成視頻，能對(duì)現(xiàn)有視頻進(jìn)行擴(kuò)展、將兩個(gè)視頻銜接并填充缺失的鄭

其3D仿真能力非常突出，無(wú)論是制作短視頻、動(dòng)畫(huà)、電影畫(huà)面，還是渲染視頻游戲，Sora都展示出了令人期待的落地前景。

為了全方位展示Sora的水平，OpenAI一口氣放出了48個(gè)用Sora直接生成、未經(jīng)修改、長(zhǎng)度不等（9秒~60秒）的視頻。下文附有48個(gè)視頻的完整展示，火眼金睛的讀者朋友們可以研究下這些視頻的準(zhǔn)確程度，或者從專(zhuān)業(yè)性上找找bug。

OpenAI將這個(gè)大模型稱(chēng)作是“能夠理解和模擬現(xiàn)實(shí)世界的模型的基礎(chǔ)”，相信其能力“將是實(shí)現(xiàn)AGI的重要里程碑”。其技術(shù)報(bào)告今日剛剛新鮮出爐：

技術(shù)報(bào)告指路：https://openai.com/research/video-generation-models-as-world-simulators

一、Sora技術(shù)拆解：60秒視頻、理解力強(qiáng)大、一次預(yù)見(jiàn)多幀

OpenAI首個(gè)文生視頻大模型Sora是一個(gè)在可變持續(xù)時(shí)間、分辨率、寬高比的視頻和圖像上聯(lián)合訓(xùn)練的文本條件擴(kuò)散模型。

與GPT模型類(lèi)似，Sora使用Transformer架構(gòu)，擴(kuò)展性很強(qiáng)大，能一次生成時(shí)長(zhǎng)1分鐘的視頻，或者擴(kuò)展生成的視頻使其更長(zhǎng)。

隨著訓(xùn)練計(jì)算量增加，樣本質(zhì)量顯著提高。

具體來(lái)看，該模型能生成具有多個(gè)角色、特定類(lèi)型的運(yùn)動(dòng)以及精確的主題和背景細(xì)節(jié)的復(fù)雜場(chǎng)景。

通過(guò)賦予模型一次多幀的預(yù)見(jiàn)能力，OpenAI團(tuán)隊(duì)解決了一個(gè)具有挑戰(zhàn)性的問(wèn)題，即確保一個(gè)主題即使暫時(shí)消失在視野之外也保持不變。

過(guò)去的圖像和視頻生成方法通常是調(diào)整大小，裁剪或修剪視頻到標(biāo)準(zhǔn)尺寸例如，4秒視頻、256×256分辨率。而OpenAI發(fā)現(xiàn)在原始大小的數(shù)據(jù)上進(jìn)行訓(xùn)練提供了一些好處：

（1）采樣的靈活性：Sora可以采樣寬屏1920x1080p視頻、垂直1080×1920視頻以及介于兩者之間的所有視頻。這讓Sora可直接以不同設(shè)備的原始寬高比為其創(chuàng)建內(nèi)容。它還支持在生成全分辨率的內(nèi)容之前，以較小的尺寸快速創(chuàng)建內(nèi)容原型所有內(nèi)容都使用相同的模型。

（2）改進(jìn)框架和構(gòu)圖：OpenAI通過(guò)經(jīng)驗(yàn)發(fā)現(xiàn)，在視頻的原始長(zhǎng)寬比上進(jìn)行訓(xùn)練可以改善構(gòu)圖和框架。研究團(tuán)隊(duì)將Sora與其模型的一個(gè)版本進(jìn)行比較，該版本將所有訓(xùn)練視頻裁剪為方形。在正方形裁剪（左圖）上訓(xùn)練的模型有時(shí)會(huì)生成僅部分顯示主題的視頻。相比之下，來(lái)自Sora（右圖）的視頻有改進(jìn)的鄭

此外，Sora文生視頻大模型具備如下特點(diǎn)：

1、強(qiáng)大的語(yǔ)言理解能力：訓(xùn)練文本到視頻生成系統(tǒng)需要大量帶有相應(yīng)文本說(shuō)明的視頻。OpenAI將DALLE 3中介紹的字幕重配技術(shù)（Recaptioning）應(yīng)用到視頻中，首先訓(xùn)練一個(gè)高度描述性的字幕模型，然后使用它為其訓(xùn)練集中的所有視頻生成文本字幕。OpenAI發(fā)現(xiàn)，對(duì)高度描述性的視頻字幕進(jìn)行訓(xùn)練可提高文本保真度以及視頻的整體質(zhì)量。與DALLE 3類(lèi)似，研究團(tuán)隊(duì)還利用GPT將簡(jiǎn)短的用戶(hù)提示轉(zhuǎn)換為更長(zhǎng)的詳細(xì)字幕，并將其發(fā)送到視頻模型。這使得Sora能準(zhǔn)確按照用戶(hù)提示生成高質(zhì)量的視頻。

2、支持現(xiàn)有的圖像或視頻輸入：這種功能使Sora能夠執(zhí)行廣泛的圖像和視頻編輯任務(wù)創(chuàng)建完美的循環(huán)視頻、動(dòng)畫(huà)靜態(tài)圖像、向前或向后擴(kuò)展視頻等。比如，基于DALLE 3圖像生成視頻，從一個(gè)生成的視頻片段開(kāi)始向前/向后擴(kuò)展視頻，編輯轉(zhuǎn)換視頻的風(fēng)格/環(huán)境，將兩個(gè)輸入視頻無(wú)縫銜接在一起。

3、圖像生成功能：研究團(tuán)隊(duì)通過(guò)在一個(gè)時(shí)間范圍為一幀的空間網(wǎng)格中排列高斯噪聲塊來(lái)實(shí)現(xiàn)這一點(diǎn)。該模型可以生成可變大小的圖像，最高可達(dá)2048 × 2048分辨率。

4、新興的仿真能力：OpenAI發(fā)現(xiàn)視頻模型在大規(guī)模訓(xùn)練時(shí)表現(xiàn)出許多有趣的突發(fā)能力。這些功能使Sora能夠從現(xiàn)實(shí)世界中模擬人、動(dòng)物和環(huán)境的某些方面。Sora可以生成帶有動(dòng)態(tài)攝像機(jī)運(yùn)動(dòng)的視頻。隨著攝像機(jī)的移動(dòng)和旋轉(zhuǎn)，人物和場(chǎng)景元素在三維空間中始終如一地移動(dòng)。

Sora經(jīng)常能夠有效地為短期和長(zhǎng)期依賴(lài)關(guān)系建模，可以在單個(gè)樣本中生成同一角色的多個(gè)鏡頭，在整個(gè)視頻中保持其外觀(guān)一致。該模型有時(shí)可以用簡(jiǎn)單的方式模擬影響世界狀態(tài)的行為，例如，畫(huà)家可以在畫(huà)布上留下新的筆觸，隨著時(shí)間的推移，或者一個(gè)人吃漢堡時(shí)留下咬痕。

在模擬數(shù)字世界方面，Sora能夠模擬人工過(guò)程，比如視頻游戲，可在高保真度渲染世界及其動(dòng)態(tài)的同時(shí)，用基本策略控制《我的世界》中的玩家。

這些功能表明，視頻模型的持續(xù)擴(kuò)展是發(fā)展物理和數(shù)字世界以及生活在其中的物體、動(dòng)物和人的高性能模擬器的一條有希望的道路。

OpenAI從大語(yǔ)言模型獲得靈感，大語(yǔ)言模型的成功部分歸功于tokens優(yōu)雅地統(tǒng)一了文本代碼、數(shù)學(xué)及各種自然語(yǔ)言的不同模式。Sora研究則考慮到讓視覺(jué)數(shù)據(jù)的生成模型繼承這些優(yōu)點(diǎn)。

此前視覺(jué)patch已經(jīng)被證明是視覺(jué)數(shù)據(jù)模型的有效表示。OpenAI發(fā)現(xiàn)patch是一種高度可擴(kuò)展且有效的表示形式，可用于在不同類(lèi)型的視頻和圖像上訓(xùn)練生成模型。

OpenAI將視頻轉(zhuǎn)換成patch，訓(xùn)練了一個(gè)降低視覺(jué)數(shù)據(jù)維度的網(wǎng)絡(luò)，該網(wǎng)絡(luò)將原始視頻作為輸入并輸出在時(shí)間和空間上壓縮的潛在表示。Sora在這個(gè)壓縮的潛在空間中接受訓(xùn)練并隨后生成視頻。 OpenAI還訓(xùn)練了相應(yīng)的解碼器模型。

給定一個(gè)壓縮的輸入視頻，研究團(tuán)隊(duì)提取一系列時(shí)空patch，充當(dāng)Transformer tokens，這種基于patch的表示使得Sora能對(duì)不同時(shí)長(zhǎng)、寬高比、分辨率的視頻和圖像進(jìn)行訓(xùn)練。在推理時(shí)，可通過(guò)在適當(dāng)大小的網(wǎng)格中排列隨機(jī)初始化的patches來(lái)控制生成視頻的大校

Sora是一個(gè)擴(kuò)散模型；輸入一個(gè)噪聲patch，它被訓(xùn)練來(lái)預(yù)測(cè)原始的“干凈”patch。在這項(xiàng)工作中，OpenAI發(fā)現(xiàn)擴(kuò)散Transformer可以作為視頻模型有效擴(kuò)展。

二、48個(gè)視頻Demo：動(dòng)漫電影、逼真自然、魔幻大片

OpenAI一共放出了48個(gè)視頻來(lái)展示Sora模型的強(qiáng)大之處。受站點(diǎn)上傳限制，下文主要以動(dòng)圖形式來(lái)簡(jiǎn)要呈現(xiàn)這些生成視頻的部分視覺(jué)效果。

提示詞1：一個(gè)時(shí)髦的女人走在東京的街道上，到處都是溫暖的霓虹燈和生動(dòng)的城市標(biāo)志。她穿著黑色皮夾克、紅色長(zhǎng)裙、黑色靴子，拿著一個(gè)黑色錢(qián)包。她戴著太陽(yáng)鏡，涂著紅色的口紅。她走起路來(lái)自信而隨意。街道是潮濕和反光的，創(chuàng)造了一個(gè)彩色燈光的鏡子效果。許多行人走來(lái)走去。

提示詞2：幾只巨大的長(zhǎng)毛猛犸象穿過(guò)一片白雪覆蓋的草地，它們長(zhǎng)長(zhǎng)的毛茸茸的皮毛在風(fēng)中輕拂，遠(yuǎn)處白雪覆蓋的樹(shù)木和戲劇性的雪山，午后的光線(xiàn)與縷縷的云和遠(yuǎn)處的太陽(yáng)創(chuàng)造了溫暖的光芒，低相機(jī)的視角是驚人的，捕捉到了美麗的攝影，景深的大型毛茸茸的哺乳動(dòng)物。

提示詞3：這是一部電影預(yù)告片，講述了30歲的太空人戴著紅色羊毛針織摩托車(chē)頭盔的冒險(xiǎn)經(jīng)歷，藍(lán)天，鹽沙漠，電影風(fēng)格，用35毫米膠片拍攝，色彩鮮艷。

提示詞4：無(wú)人機(jī)拍攝的海浪沖擊著大蘇爾加雷角海灘上崎嶇的懸崖。藍(lán)色的海水拍打著白色的波浪，夕陽(yáng)的金色光芒照亮了巖石海岸。遠(yuǎn)處有一座小島，島上有一座燈塔，懸崖邊上長(zhǎng)滿(mǎn)了綠色的灌木叢。從公路到海灘的陡峭落差是一個(gè)戲劇性的壯舉，懸崖的邊緣突出在海面上。這是一幅捕捉到海岸原始美景和太平洋海岸公路崎嶇景觀(guān)的景色。

提示詞5：動(dòng)畫(huà)場(chǎng)景特寫(xiě)了一個(gè)毛茸茸的矮個(gè)子怪物跪在融化的紅燭旁。美術(shù)風(fēng)格是3D和現(xiàn)實(shí)的，重點(diǎn)是照明和紋理。這幅畫(huà)的氣氛是一種驚奇和好奇，因?yàn)楣治锉牬笱劬�，張開(kāi)嘴巴凝視著火焰。它的姿勢(shì)和表情傳達(dá)了一種天真和頑皮的感覺(jué)，好像它是第一次探索周?chē)氖澜纭Ｅ蛻騽⌒詿艄獾氖褂眠M(jìn)一步增強(qiáng)了圖像的舒適氛圍。

提示詞6：一個(gè)華麗渲染的珊瑚礁紙工藝品世界，到處都是五顏六色的魚(yú)和海洋生物。

提示詞7：這個(gè)維多利亞冠鴿的特寫(xiě)展示了它引人注目的藍(lán)色羽毛和紅色胸部。它的羽冠是由精致的花邊羽毛制成的，而它的眼睛是醒目的紅色。鳥(niǎo)的頭微微向一側(cè)傾斜，給人一種帝王和威嚴(yán)的印象。背景是模糊的，吸引人們注意到這只鳥(niǎo)引人注目的外表。

提示詞8：兩艘海盜船在一杯咖啡中航行時(shí)相互爭(zhēng)斗的逼真特寫(xiě)視頻。

提示詞9：一個(gè)20多歲的年輕人坐在天空的一片云上讀書(shū)。

提示詞10：淘金熱時(shí)期加州的歷史鏡頭

提示詞11：一個(gè)玻璃球的近景，里面有一個(gè)禪宗花園。球體中有一個(gè)小矮人正在耙花園，并在沙子上創(chuàng)造圖案。

提示詞12：一個(gè)24歲的女人眨著眼睛的極端特寫(xiě)，站在馬拉喀什的神奇時(shí)刻，電影膠片拍攝，70mm，景深，生動(dòng)的色彩，電影感。

提示詞13：一只卡通袋鼠跳迪斯科。

提示詞14：一個(gè)美麗的自制視頻，展示了2056年尼日利亞拉各斯的人們。用手機(jī)攝像頭拍攝的。

提示詞15：一個(gè)培養(yǎng)皿，里面生長(zhǎng)著竹林，小熊貓?jiān)诶锩媾軄?lái)跑去。

提示詞16：攝像機(jī)圍繞著一大堆老式電視旋轉(zhuǎn)，這些電視播放著不同的節(jié)目20世紀(jì)50年代的科幻電影、恐怖電影、新聞、靜態(tài)、70年代的情景喜劇等，背景設(shè)在紐約博物館的一個(gè)大型畫(huà)廊里。

提示詞17：一個(gè)小的、圓的、毛茸茸的、有一雙大而富有表現(xiàn)力的眼睛的生物探索了一個(gè)充滿(mǎn)活力的魔法森林的3D動(dòng)畫(huà)。這種動(dòng)物是兔子和松鼠的異想天開(kāi)的混合體，有著柔軟的藍(lán)色皮毛和濃密的條紋尾巴。它沿著波光粼粼的小溪跳躍，驚奇地睜大了眼睛。森林里充滿(mǎn)了神奇的元素：發(fā)光和變色的花朵，紫色和銀色葉子的樹(shù)木，以及像螢火蟲(chóng)一樣的小浮動(dòng)燈。這只生物停下來(lái)和一群在蘑菇圈周?chē)璧男∠膳覒�。這只生物敬畏地仰望著一棵巨大的、發(fā)光的樹(shù)，這棵樹(shù)似乎是森林的中心。

提示詞18：攝像機(jī)跟在一輛黑色車(chē)頂架的白色復(fù)古SUV后面，它在陡峭的山坡上沿著松樹(shù)環(huán)繞的陡峭土路加速行駛，灰塵從輪胎上揚(yáng)起，陽(yáng)光照在越野車(chē)上，在土路上加速行駛，在現(xiàn)場(chǎng)投下溫暖的光芒。這條土路彎彎曲曲地延伸到遠(yuǎn)處，看不到其他的汽車(chē)或車(chē)輛。道路兩旁的樹(shù)木都是紅杉，點(diǎn)綴著一片片綠色植物。從后面看到的汽車(chē)跟隨曲線(xiàn)輕松，使它看起來(lái)好像是在崎嶇不平的地形上行駛。土路本身被陡峭的丘陵和山脈包圍，上面是清澈的藍(lán)天和縷縷的云。

提示詞19：火車(chē)在東京郊區(qū)行駛時(shí)，車(chē)窗上的倒影。

提示詞20：一架無(wú)人機(jī)攝像機(jī)環(huán)繞著一座美麗的歷史悠久的教堂，這座教堂建在阿馬爾菲海岸的巖石上，這張照片展示了歷史和宏偉的建筑細(xì)節(jié)，分層的小路和露臺(tái)，海浪撞擊著下面的巖石，俯瞰著意大利阿馬爾菲海岸的海岸水域和丘陵景觀(guān)，遠(yuǎn)處的幾個(gè)人在露臺(tái)上散步，欣賞著壯觀(guān)的海景。下午溫暖的陽(yáng)光為現(xiàn)場(chǎng)創(chuàng)造了一種神奇而浪漫的感覺(jué)，美麗的攝影捕捉到了令人驚嘆的景色。

提示詞21：一只巨大的橙色章魚(yú)在海底休息，與沙質(zhì)和巖石地形融為一體。它的觸手在身體周?chē)归_(kāi)，眼睛是閉著的。章魚(yú)沒(méi)有意識(shí)到一只帝王蟹正從巖石后面向它爬來(lái)，它的爪子抬起，準(zhǔn)備攻擊。這種螃蟹是棕色的、多刺的，有長(zhǎng)腿和觸角。這個(gè)場(chǎng)景是從廣角拍攝的，展示了海洋的廣闊和深度。海水清澈湛藍(lán)，陽(yáng)光透過(guò)來(lái)。鏡頭銳利，動(dòng)態(tài)范圍大。章魚(yú)和螃蟹是焦點(diǎn)，而背景稍微模糊，創(chuàng)造了景深效果。

提示詞22：一群紙飛機(jī)在茂密的叢林中飛舞，像候鳥(niǎo)一樣在樹(shù)木之間穿梭。

提示詞23：一只貓叫醒了正在睡覺(jué)的主人，要求吃早飯。主人試圖忽略貓，但貓嘗試了新的策略，最后主人從枕頭下拿出了一個(gè)秘密的零食，讓貓多待一會(huì)兒。

提示詞24：基納巴坦干河上的婆羅洲野生動(dòng)物。

提示詞25：有中國(guó)龍的中國(guó)農(nóng)歷新年慶祝視頻。

提示詞26：參觀(guān)藝術(shù)畫(huà)廊，欣賞許多風(fēng)格各異的精美藝術(shù)品。

提示詞27：美麗、白雪皚皚的東京城市熙熙攘攘。鏡頭穿過(guò)熙熙攘攘的城市街道，跟隨幾個(gè)人享受美麗的雪天，在附近的攤位上購(gòu)物。絢麗的櫻花花瓣隨著雪花在風(fēng)中飛舞。

提示詞28：這是一幅定格動(dòng)畫(huà)，描繪了一朵花從郊區(qū)房子的窗臺(tái)上長(zhǎng)出來(lái)。

提示詞29：賽博朋克設(shè)定的機(jī)器人生活故事。

提示詞30：極致特寫(xiě)一個(gè)60歲、頭發(fā)胡子花白的男人，在深度思考宇宙歷史，他坐在一家巴黎的咖啡館，穿著一件羊毛外套西裝外套和一件襯衫，戴著一件棕色的貝雷帽、眼鏡，有一個(gè)非常專(zhuān)業(yè)的外表，結(jié)束時(shí)他有了一個(gè)微妙的、封閉式的笑容，好像找到了答案，神秘生活，燈光非常電影化，金色燈光和巴黎的街道和城市作為背景，景深，電影感，35mm膠片。

提示詞31：一個(gè)美麗的剪影動(dòng)畫(huà)展示了一只狼對(duì)著月亮嚎叫，感到孤獨(dú)，直到它找到了它的族群。

提示詞32：紐約市像被淹沒(méi)的亞特蘭蒂斯。魚(yú)、鯨魚(yú)、海龜和鯊魚(yú)游過(guò)紐約的街道。

提示詞33：一窩金毛獵犬小狗在雪地里玩耍。他們的頭從雪中探出頭來(lái)，身上覆蓋著雪。

提示詞34：一個(gè)人跑步的步印場(chǎng)景，電影膠片，35mm拍攝。

提示詞35：五只小灰狼在一條偏僻的礫石路上嬉戲追逐，周?chē)L(zhǎng)滿(mǎn)了草。幼崽們又跑又跳，互相追逐，互相撕咬、玩耍。

提示詞36：籃球穿過(guò)籃筐然后爆炸。

提示詞37：考古學(xué)家在沙漠中發(fā)現(xiàn)了一把普通的塑料椅子，他們小心翼翼地挖掘并撣去了上面的灰塵。

提示詞38：一位頭發(fā)梳得整整齊齊的白發(fā)老奶奶站在一張木制餐桌前，身后是一個(gè)色彩斑斕的生日蛋糕，上面插著無(wú)數(shù)的蠟燭，她的眼睛里閃爍著幸福的光芒，臉上流露出一種純粹的快樂(lè)和幸福。她身體前傾，輕輕地吹滅了蠟燭，蛋糕上有粉紅色的糖霜和糖屑，蠟燭也不再閃爍，老奶奶穿著一件淺藍(lán)色的襯衫，上面裝飾著花卉圖案，可以看到幾個(gè)快樂(lè)的朋友和家人坐在桌子旁慶祝，背景虛化。這個(gè)場(chǎng)景拍得很漂亮，像電影一樣，展示了老奶奶和餐廳的3/4視圖。暖色調(diào)和柔和的燈光改善了心情。

提示詞39：鏡頭直接對(duì)著意大利布拉諾五顏六色的建筑。一只可愛(ài)的斑點(diǎn)狗從一樓的窗戶(hù)往外看。許多人沿著建筑物前的運(yùn)河街道散步或騎自行車(chē)。

提示詞40：一只可愛(ài)快樂(lè)的水獺穿著黃色救生衣自信地站在沖浪板上，沿著綠松石般的熱帶水域騎行，附近是郁郁蔥蔥的熱帶島嶼，3D數(shù)字渲染藝術(shù)風(fēng)格。

提示詞41：這張變色龍的特寫(xiě)照片展示了它驚人的變色能力。背景是模糊的，吸引人們注意到動(dòng)物引人注目的外表。

提示詞42：一只柯基在熱帶毛伊島拍攝視頻。

提示詞43：一只白橙相間的虎斑貓歡快地在茂密的花園里竄來(lái)竄去，好像在追逐什么東西。它的眼睛睜得大大的，歡快地向前跑著，一邊走一邊掃視著樹(shù)枝、花朵和樹(shù)葉。這條小路很窄，因?yàn)樗谒械闹参镏g穿行。這個(gè)場(chǎng)景是從地面的角度拍攝的，緊跟在貓后面，給人一個(gè)低而親密的視角。圖像是電影般的暖色調(diào)和顆粒紋理。樹(shù)葉和植物之間分散的日光形成了溫暖的對(duì)比，突出了貓的橙色皮毛。這張照片清晰銳利，景深淺。

提示詞44：藍(lán)色圣托里尼鳥(niǎo)瞰圖，展示了白色基克拉迪建筑和藍(lán)色圓頂?shù)捏@人建筑�；鹕娇诘木吧钊藝@為觀(guān)止，燈光營(yíng)造出一種美麗、寧?kù)o的氛圍。

提示詞45：工人、設(shè)備和重型機(jī)械密集的建筑工地的傾斜。

提示詞46：一個(gè)巨大的、高聳的云在一個(gè)人的形狀在地球上隱約出現(xiàn)。云人把閃電射向地面。

提示詞47：一只薩摩耶犬和一只金毛獵犬在夜晚的霓虹燈城市里嬉戲。附近建筑物發(fā)出的霓虹燈在它們的皮毛上閃閃發(fā)光。

提示詞48：Glenfinnan高架橋是英國(guó)蘇格蘭的一座歷史悠久的鐵路橋，橫跨馬萊格鎮(zhèn)和威廉堡之間的西部高地線(xiàn)。一列蒸汽火車(chē)駛離大橋，在拱形高架橋上行駛，這是一幅令人驚嘆的景象。風(fēng)景點(diǎn)綴著郁郁蔥蔥的綠色植物和巖石山脈，為火車(chē)之旅創(chuàng)造了風(fēng)景如畫(huà)的背景。天空湛藍(lán)，陽(yáng)光明媚，這是個(gè)探索這個(gè)雄偉景點(diǎn)的美好日子。

三、不足：難以模擬復(fù)雜場(chǎng)景，混淆提示詞的空間細(xì)節(jié)

OpenAI坦言，當(dāng)前Sora目前存在許多局限性，可能難以準(zhǔn)確地模擬復(fù)雜場(chǎng)景的物理屬性，比如玻璃破碎；也可能無(wú)法理解因果關(guān)系的具體實(shí)例。例如，一個(gè)人咬了一口餅干，但之后餅干上可能沒(méi)有咬痕。

該模型還可能混淆提示的空間細(xì)節(jié)，例如，混淆左和右，并且可能難以精確描述隨時(shí)間發(fā)生的事件，例如跟隨特定的攝像機(jī)軌跡。

OpenAI強(qiáng)調(diào)說(shuō)，在將Sora應(yīng)用于OpenAI的產(chǎn)品之前，他們將采取一些重要的安全措施，包括與紅隊(duì)專(zhuān)家合作進(jìn)行對(duì)抗性測(cè)試、構(gòu)建檢測(cè)分類(lèi)器等工具來(lái)幫助檢測(cè)誤導(dǎo)性?xún)?nèi)容、計(jì)劃在未來(lái)包含C2PA元數(shù)據(jù)等。

除了開(kāi)發(fā)新技術(shù)為部署做準(zhǔn)備外，OpenAI還利用了其為使用DALLE 3的產(chǎn)品構(gòu)建的現(xiàn)有安全方法，這些方法也適用于Sora。

Sora文生視頻大模型的研究由Bill Peebles、Tim Brooks領(lǐng)導(dǎo)，系統(tǒng)領(lǐng)導(dǎo)者是Connor Holmes。以下人員均參與了此研究的貢獻(xiàn)。

OpenAI還對(duì)下述人員致以特別感謝：

結(jié)語(yǔ)：

OpenAI終于下場(chǎng)，視頻生成模型迎來(lái)重磅玩家！

隨著OpenAI首款文生視頻大模型Sora推出，去年已經(jīng)如火如荼展開(kāi)的文生視頻大模型大戰(zhàn)，今年儼然要通過(guò)卷向更強(qiáng)性能，開(kāi)啟落地之年。

其研究團(tuán)隊(duì)相信，Sora今天所擁有的能力表明，視頻模型的持續(xù)擴(kuò)展是一條很有前途的道路，可以開(kāi)發(fā)出物理和數(shù)字世界的模擬器，以及生活在其中的物體、動(dòng)物和人。

OpenAI承諾將與世界各地的政策制定者、教育工作者和藝術(shù)家接觸，了解他們的擔(dān)憂(yōu)，并確定這項(xiàng)新技術(shù)的積極用例。

盡管進(jìn)行了廣泛的研究和測(cè)試，但OpenAI團(tuán)隊(duì)無(wú)法預(yù)測(cè)人們使用其技術(shù)的所有有益方式，也無(wú)法預(yù)測(cè)人們?yōu)E用它的所有方式。該團(tuán)隊(duì)相信隨著時(shí)間的推移，從現(xiàn)實(shí)世界的使用中學(xué)習(xí)是創(chuàng)建和發(fā)布越來(lái)越安全的AI系統(tǒng)的關(guān)鍵組成部分。

來(lái)源：OpenAI