當(dāng)前位置：人工智能實(shí)驗(yàn)室> 人工智能應(yīng)用 > OpenAI發(fā)布“一鏡到底”文生視頻大模型人人都能創(chuàng)作短片

OpenAI發(fā)布“一鏡到底”文生視頻大模型人人都能創(chuàng)作短片
來(lái)源：互聯(lián)網(wǎng) 發(fā)布日期：2024-02-16 18:41:55 瀏覽：9419次

導(dǎo)讀：一夜過(guò)去，AI行業(yè)又迎來(lái)了重大技術(shù)突破，這次有可能被顛覆的是視頻和電影制作。北京時(shí)間2月16日凌晨，OpenAI在官網(wǎng)正式發(fā)布了文生視頻大模型Sora，其可以根據(jù)用戶(hù)提示生成長(zhǎng)達(dá)一分鐘的視頻，同時(shí)保持視頻中出現(xiàn)的人物、景色的連貫性，甚至即便切換鏡頭，人...

一夜過(guò)去，AI行業(yè)又迎來(lái)了重大技術(shù)突破，這次有可能被“顛覆”的是視頻和電影制作。

北京時(shí)間2月16日凌晨，OpenAI在官網(wǎng)正式發(fā)布了文生視頻大模型Sora，其可以根據(jù)用戶(hù)提示生成長(zhǎng)達(dá)一分鐘的視頻，同時(shí)保持視頻中出現(xiàn)的人物、景色的連貫性，甚至即便切換鏡頭，人物依然能夠保持一致。

OpenAI首席執(zhí)行官山姆奧特曼在社交平臺(tái)下場(chǎng)，對(duì)網(wǎng)友放言“留下想看什么的評(píng)論，我為你生成視頻”，并在兩小時(shí)內(nèi)“現(xiàn)點(diǎn)現(xiàn)做”放出了十多條視頻。這立刻引發(fā)了科技圈和影視圈的雙重“震撼”，油管粉絲高達(dá)2.39億的頂流網(wǎng)紅“野獸先生”直接在山姆奧特曼的社交賬號(hào)下哀求“求求你了山姆，不要讓我沒(méi)有工作。”

2月16日，DCCI互聯(lián)網(wǎng)研究院院長(zhǎng)劉興亮在接受貝殼財(cái)經(jīng)記者采訪時(shí)表示，Sora無(wú)疑是人工智能領(lǐng)域的一次重大突破。這一技術(shù)不僅展示了AI在理解和創(chuàng)造復(fù)雜視覺(jué)內(nèi)容方面的先進(jìn)能力，而且對(duì)內(nèi)容創(chuàng)作、娛樂(lè)和影視制作行業(yè)提出了前所未有的挑戰(zhàn)和機(jī)遇。

天圖萬(wàn)境創(chuàng)始人、導(dǎo)演圖拉古則告訴貝殼財(cái)經(jīng)記者，Sora的潛力并不是代替拍攝或者創(chuàng)作，而是讓每一個(gè)人成為創(chuàng)作者，這必然會(huì)產(chǎn)生新的業(yè)態(tài)。

這個(gè)電影預(yù)告片是AI做的？音視頻行業(yè)迎來(lái)“iPhone”時(shí)刻

“一部電影預(yù)告片，講述了30歲的太空人戴著紅色羊毛編織的摩托車(chē)頭盔、藍(lán)天、鹽漠、電影風(fēng)格的冒險(xiǎn)故事，用35毫米膠片拍攝，色彩生動(dòng)。”

這是OpenAI官網(wǎng)展示的諸多視頻生成提示語(yǔ)句之一，貝殼財(cái)經(jīng)記者發(fā)現(xiàn)，根據(jù)該提示語(yǔ)句生成的視頻不僅達(dá)到了語(yǔ)句的內(nèi)容預(yù)期，還創(chuàng)造性地出現(xiàn)了多個(gè)鏡頭的切分，而且神奇的是，在不同角度的鏡頭中，視頻主角“太空人”可以看出是同一人。

圖片來(lái)源：OpenAI官網(wǎng)

這在此前的AI生成技術(shù)中是無(wú)法實(shí)現(xiàn)的。有AI從業(yè)者表示，此前的AI視頻往往都是單鏡頭生成，因?yàn)橐坏╃R頭切換，角色可能就會(huì)發(fā)生變化，這對(duì)于AI圖片生成同理。

貝殼財(cái)經(jīng)記者曾使用AI大模型技術(shù)生成圖片的技術(shù)輔助視頻制作，但其中的痛點(diǎn)之一就是，如果想要讓AI生成多個(gè)圖片，比如同一個(gè)人物在不同場(chǎng)景下的不同動(dòng)作，每當(dāng)輸入新的提示詞，人物往往也會(huì)發(fā)生變化，讓人覺(jué)得“不是同一個(gè)人”，因此AI難以直接取代傳統(tǒng)方式的視頻或者漫畫(huà)制作。

但隨著Sora的橫空出世，這一切將可能迎來(lái)改變。

在另一個(gè)OpenAI提供的例子中，輸入提示詞“中國(guó)龍的農(nóng)歷新年慶祝視頻”，就生成了一段人們舞龍的視頻，貝殼財(cái)經(jīng)記者發(fā)現(xiàn)，這段視頻包含了龐大的慶祝隊(duì)伍和人群，但他們也都能保持前后的一致和連貫。

OpenAI表示，該模型對(duì)語(yǔ)言有深刻的理解，使其能夠準(zhǔn)確地解釋提示并生成表達(dá)生動(dòng)情感的引人注目的角色，“Sora還可以在單個(gè)生成的視頻中創(chuàng)建多個(gè)鏡頭，以準(zhǔn)確保留角色和視覺(jué)風(fēng)格。”

劉興亮表示，Sora模型的發(fā)布標(biāo)志著AI技術(shù)在內(nèi)容創(chuàng)作領(lǐng)域的一個(gè)新紀(jì)元，“通過(guò)簡(jiǎn)短的文本提示或一張靜態(tài)圖片，Sora能夠生成持續(xù)一分鐘左右的1080P高清視頻，涵蓋多個(gè)角色、不同類(lèi)型的動(dòng)作和背景細(xì)節(jié)等，幾乎達(dá)到了電影級(jí)別的逼真場(chǎng)景。這種能力不僅為內(nèi)容創(chuàng)作者提供了前所未有的工具，使他們能夠以更低的成本和更快的速度將創(chuàng)意變?yōu)楝F(xiàn)實(shí)，而且為觀眾帶來(lái)了更豐富和多樣化的視覺(jué)體驗(yàn)。技術(shù)創(chuàng)新的這一巨大飛躍，預(yù)示著AI在未來(lái)人類(lèi)生活的各個(gè)方面都將發(fā)揮更加重要的作用。”

不過(guò)，據(jù)貝殼財(cái)經(jīng)記者觀察，目前Sora生成的還基本限于“短視頻”，如果生成帶劇情的長(zhǎng)篇故事似乎還有更多挑戰(zhàn)。

對(duì)此，圖拉古告訴記者，Sora更大的潛力在于傳遞蒙太奇故事，而不是準(zhǔn)確和具有節(jié)奏的敘事，“它準(zhǔn)確地傳遞某一個(gè)人的百分之百的意圖還是差一點(diǎn)，不過(guò)大部分創(chuàng)作者不會(huì)在意這些。也就是說(shuō)，它其實(shí)能夠傳遞某一個(gè)人90%的情緒感覺(jué)或者表達(dá)這已經(jīng)足夠了。”

Sora的發(fā)布讓圖拉古十分激動(dòng)，他目前正在打造一個(gè)被稱(chēng)為“超感影游”的沉浸式線下體驗(yàn)項(xiàng)目，在他看來(lái)，未來(lái)很多人都可以成為創(chuàng)作者，而不僅僅局限于現(xiàn)在的專(zhuān)業(yè)人士，電影的“KTV時(shí)代”，隨著AI的到來(lái)即將到來(lái)。

“技術(shù)總是跨越式進(jìn)步，后面可能會(huì)更超乎我們的想象。”圖拉古說(shuō)。

“盡管Sora的技術(shù)創(chuàng)新帶來(lái)了巨大的潛力，但它也對(duì)傳統(tǒng)的影視制作行業(yè)提出了轉(zhuǎn)型的壓力。AI生成的視頻可能減少了對(duì)人類(lèi)演員、導(dǎo)演和其他創(chuàng)意角色的需求，從而影響到這個(gè)行業(yè)的就業(yè)。此外，隨著AI技術(shù)的進(jìn)步，傳統(tǒng)的影視制作流程和商業(yè)模式也可能面臨重塑。然而，這種轉(zhuǎn)型并不意味著傳統(tǒng)影視行業(yè)的消亡，而是需要與AI技術(shù)融合，探索新的藝術(shù)形式和表達(dá)方式。這種轉(zhuǎn)型壓力，雖然帶來(lái)了挑戰(zhàn)，但也為行業(yè)的創(chuàng)新和發(fā)展提供了機(jī)遇。”劉興亮告訴貝殼財(cái)經(jīng)記者。

如何克服一致性難題？讓模型預(yù)見(jiàn)多幀內(nèi)容奧特曼：專(zhuān)注打造通用人工智能

那么，OpenAI是如何做到克服AI生成視頻的一致性難題的呢？

根據(jù)OpenAI的技術(shù)解讀文件，Sora是一種擴(kuò)散模型，它能夠通過(guò)從一開(kāi)始看似靜態(tài)噪聲的視頻出發(fā)，經(jīng)過(guò)多步驟的噪聲去除過(guò)程，逐漸生成視頻，不僅能夠一次性生成完整的視頻，還能延長(zhǎng)已生成的視頻，“通過(guò)讓模型能夠預(yù)見(jiàn)多幀內(nèi)容，團(tuán)隊(duì)成功克服了確保視頻中的主體即便暫時(shí)消失也能保持一致性的難題。”

與GPT模型類(lèi)似，Sora采用了Transformer架構(gòu)，從而實(shí)現(xiàn)了卓越的性能擴(kuò)展。具體來(lái)看，OpenAI把視頻和圖像分解為較小的數(shù)據(jù)單元“patches（小塊）”，每個(gè)“patches”相當(dāng)于GPT中的一個(gè)token（語(yǔ)句）。這種統(tǒng)一的數(shù)據(jù)表示方法能夠在更廣泛的視覺(jué)數(shù)據(jù)上訓(xùn)練模型，覆蓋了不同的持續(xù)時(shí)間、分辨率和縱橫比，而這一技術(shù)在之前不可能做到。

此外，Sora基于DALLE和GPT模型的研究成果，采用了DALLE 3的重標(biāo)注技術(shù)，通過(guò)為視覺(jué)訓(xùn)練數(shù)據(jù)生成詳細(xì)描述的標(biāo)題，使模型更加準(zhǔn)確地遵循用戶(hù)的文本指令生成視頻。

OpenAI特別表示，Sora是能夠理解和模擬現(xiàn)實(shí)世界的模型的基礎(chǔ)，“我們相信這一能力將是實(shí)現(xiàn)通用人工智能的重要里程碑。”

例如，當(dāng)輸入提示語(yǔ)句“動(dòng)畫(huà)場(chǎng)景的特寫(xiě)鏡頭，一個(gè)毛茸茸的小怪物跪在一根融化的紅蠟燭旁邊。藝術(shù)風(fēng)格3D、逼真，重點(diǎn)是照明和紋理，情緒包括驚奇和好奇……”時(shí)，Sora創(chuàng)造出了一個(gè)類(lèi)似皮克斯和夢(mèng)工廠電影中的動(dòng)畫(huà)小怪物鏡頭。

值得注意的是，該視頻中，小怪物的毛發(fā)紋理極其自然。此前，移動(dòng)中的毛發(fā)紋理效果往往會(huì)耗費(fèi)動(dòng)畫(huà)公司極大精力，如皮克斯的《怪獸公司》中，技術(shù)團(tuán)隊(duì)為毛發(fā)紋理耗費(fèi)了幾個(gè)月的時(shí)間，但Sora僅僅依靠AI就生成出來(lái)。對(duì)此，OpenAI科學(xué)家Tim Brooks表示，Sora通過(guò)觀察大量數(shù)據(jù)學(xué)會(huì)了關(guān)于3D幾何形狀和一致性的知識(shí)，“通用人工智能將能夠模擬物理世界，而Sora是朝這個(gè)方向邁出的關(guān)鍵一步。”

北京時(shí)間2月16日早上8點(diǎn)，山姆奧特曼“趁熱”在社交平臺(tái)發(fā)布了招人公告，“OpenAI團(tuán)隊(duì)是我見(jiàn)過(guò)的最有才華、最友善的一群人，致力于解決最困難、最有趣和最重要的問(wèn)題。我們所有關(guān)鍵資源均已到位，專(zhuān)注于打造通用人工智能，你或許應(yīng)該考慮加入我們。”

不過(guò)，OpenAI也坦承，目前Sora模型也有弱點(diǎn)，“它可能難以準(zhǔn)確模擬復(fù)雜場(chǎng)景的物理特性，并且可能無(wú)法理解因果關(guān)系的具體實(shí)例。例如，一個(gè)人可能會(huì)咬一口餅干，但之后，餅干可能沒(méi)有咬痕。同時(shí)，該模型還可能混淆提示的空間細(xì)節(jié)，例如，左右混淆，并且可能難以精確描述隨時(shí)間推移發(fā)生的事件，例如遵循特定的相機(jī)軌跡。”

在劉興亮看來(lái)，Sora模型及其帶來(lái)的技術(shù)進(jìn)步，也引發(fā)了一系列倫理和社會(huì)挑戰(zhàn)，“隨著AI生成內(nèi)容與現(xiàn)實(shí)之間的界限變得越來(lái)越模糊，如何確保內(nèi)容的真實(shí)性和透明性成為了一個(gè)重要問(wèn)題。此外，版權(quán)、隱私和數(shù)據(jù)安全等問(wèn)題也需要得到妥善解決。社會(huì)必須面對(duì)這些挑戰(zhàn)，通過(guò)制定相關(guān)政策、法律和倫理準(zhǔn)則來(lái)確保技術(shù)的健康發(fā)展，同時(shí)保護(hù)個(gè)人和社會(huì)的利益不受侵害。”

目前，OpenAI已經(jīng)將Sora提供給了一些藝術(shù)家用于創(chuàng)作，但距離面向公眾發(fā)行還需要一段時(shí)間，“我們將采取幾個(gè)重要的安全措施，并進(jìn)行對(duì)抗性測(cè)試，一旦公開(kāi)發(fā)布，我們的文本分類(lèi)器將檢查違反使用政策的文本輸入提示，例如極端暴力、色情內(nèi)容、名人肖像等。”OpenAI表示。

“OpenAI的Sora模型不僅是技術(shù)創(chuàng)新的象征，也是對(duì)傳統(tǒng)行業(yè)轉(zhuǎn)型的推動(dòng)力和倫理挑戰(zhàn)的觸發(fā)點(diǎn)。面對(duì)這些變化，社會(huì)需要采取積極的態(tài)度，擁抱技術(shù)帶來(lái)的機(jī)遇，同時(shí)警惕和解決伴隨而來(lái)的挑戰(zhàn)，以確保技術(shù)進(jìn)步能夠惠及全人類(lèi)。”劉興亮告訴貝殼財(cái)經(jīng)記者。

記者聯(lián)系郵箱：luoyidan@xjbnews.com

新京報(bào)貝殼財(cái)經(jīng)記者羅亦丹

編輯韋博雅

校對(duì) 劉越