展會(huì)信息港展會(huì)大全

OpenAI發(fā)布“一鏡到底”文生視頻大模型 人人都能創(chuàng)作短片
來(lái)源:互聯(lián)網(wǎng)   發(fā)布日期:2024-02-16 18:41:55   瀏覽:9419次  

導(dǎo)讀:一夜過(guò)去,AI行業(yè)又迎來(lái)了重大技術(shù)突破,這次有可能被顛覆的是視頻和電影制作。 北京時(shí)間2月16日凌晨,OpenAI在官網(wǎng)正式發(fā)布了文生視頻大模型Sora,其可以根據(jù)用戶(hù)提示生成長(zhǎng)達(dá)一分鐘的視頻,同時(shí)保持視頻中出現(xiàn)的人物、景色的連貫性,甚至即便切換鏡頭,人...

一夜過(guò)去,AI行業(yè)又迎來(lái)了重大技術(shù)突破,這次有可能被“顛覆”的是視頻和電影制作。

北京時(shí)間2月16日凌晨,OpenAI在官網(wǎng)正式發(fā)布了文生視頻大模型Sora,其可以根據(jù)用戶(hù)提示生成長(zhǎng)達(dá)一分鐘的視頻,同時(shí)保持視頻中出現(xiàn)的人物、景色的連貫性,甚至即便切換鏡頭,人物依然能夠保持一致。

OpenAI首席執(zhí)行官山姆奧特曼在社交平臺(tái)下場(chǎng),對(duì)網(wǎng)友放言“留下想看什么的評(píng)論,我為你生成視頻”,并在兩小時(shí)內(nèi)“現(xiàn)點(diǎn)現(xiàn)做”放出了十多條視頻。這立刻引發(fā)了科技圈和影視圈的雙重“震撼”,油管粉絲高達(dá)2.39億的頂流網(wǎng)紅“野獸先生”直接在山姆奧特曼的社交賬號(hào)下哀求“求求你了山姆,不要讓我沒(méi)有工作。”

2月16日,DCCI互聯(lián)網(wǎng)研究院院長(zhǎng)劉興亮在接受貝殼財(cái)經(jīng)記者采訪時(shí)表示,Sora無(wú)疑是人工智能領(lǐng)域的一次重大突破。這一技術(shù)不僅展示了AI在理解和創(chuàng)造復(fù)雜視覺(jué)內(nèi)容方面的先進(jìn)能力,而且對(duì)內(nèi)容創(chuàng)作、娛樂(lè)和影視制作行業(yè)提出了前所未有的挑戰(zhàn)和機(jī)遇。

天圖萬(wàn)境創(chuàng)始人、導(dǎo)演圖拉古則告訴貝殼財(cái)經(jīng)記者,Sora的潛力并不是代替拍攝或者創(chuàng)作,而是讓每一個(gè)人成為創(chuàng)作者,這必然會(huì)產(chǎn)生新的業(yè)態(tài)。

這個(gè)電影預(yù)告片是AI做的?音視頻行業(yè)迎來(lái)“iPhone”時(shí)刻

“一部電影預(yù)告片,講述了30歲的太空人戴著紅色羊毛編織的摩托車(chē)頭盔、藍(lán)天、鹽漠、電影風(fēng)格的冒險(xiǎn)故事,用35毫米膠片拍攝,色彩生動(dòng)。”

這是OpenAI官網(wǎng)展示的諸多視頻生成提示語(yǔ)句之一,貝殼財(cái)經(jīng)記者發(fā)現(xiàn),根據(jù)該提示語(yǔ)句生成的視頻不僅達(dá)到了語(yǔ)句的內(nèi)容預(yù)期,還創(chuàng)造性地出現(xiàn)了多個(gè)鏡頭的切分,而且神奇的是,在不同角度的鏡頭中,視頻主角“太空人”可以看出是同一人。

圖片來(lái)源:OpenAI官網(wǎng)

這在此前的AI生成技術(shù)中是無(wú)法實(shí)現(xiàn)的。有AI從業(yè)者表示,此前的AI視頻往往都是單鏡頭生成,因?yàn)橐坏╃R頭切換,角色可能就會(huì)發(fā)生變化,這對(duì)于AI圖片生成同理。

貝殼財(cái)經(jīng)記者曾使用AI大模型技術(shù)生成圖片的技術(shù)輔助視頻制作,但其中的痛點(diǎn)之一就是,如果想要讓AI生成多個(gè)圖片,比如同一個(gè)人物在不同場(chǎng)景下的不同動(dòng)作,每當(dāng)輸入新的提示詞,人物往往也會(huì)發(fā)生變化,讓人覺(jué)得“不是同一個(gè)人”,因此AI難以直接取代傳統(tǒng)方式的視頻或者漫畫(huà)制作。

但隨著Sora的橫空出世,這一切將可能迎來(lái)改變。

在另一個(gè)OpenAI提供的例子中,輸入提示詞“中國(guó)龍的農(nóng)歷新年慶祝視頻”,就生成了一段人們舞龍的視頻,貝殼財(cái)經(jīng)記者發(fā)現(xiàn),這段視頻包含了龐大的慶祝隊(duì)伍和人群,但他們也都能保持前后的一致和連貫。

OpenAI表示,該模型對(duì)語(yǔ)言有深刻的理解,使其能夠準(zhǔn)確地解釋提示并生成表達(dá)生動(dòng)情感的引人注目的角色,“Sora還可以在單個(gè)生成的視頻中創(chuàng)建多個(gè)鏡頭,以準(zhǔn)確保留角色和視覺(jué)風(fēng)格。”

劉興亮表示,Sora模型的發(fā)布標(biāo)志著AI技術(shù)在內(nèi)容創(chuàng)作領(lǐng)域的一個(gè)新紀(jì)元,“通過(guò)簡(jiǎn)短的文本提示或一張靜態(tài)圖片,Sora能夠生成持續(xù)一分鐘左右的1080P高清視頻,涵蓋多個(gè)角色、不同類(lèi)型的動(dòng)作和背景細(xì)節(jié)等,幾乎達(dá)到了電影級(jí)別的逼真場(chǎng)景。這種能力不僅為內(nèi)容創(chuàng)作者提供了前所未有的工具,使他們能夠以更低的成本和更快的速度將創(chuàng)意變?yōu)楝F(xiàn)實(shí),而且為觀眾帶來(lái)了更豐富和多樣化的視覺(jué)體驗(yàn)。技術(shù)創(chuàng)新的這一巨大飛躍,預(yù)示著AI在未來(lái)人類(lèi)生活的各個(gè)方面都將發(fā)揮更加重要的作用。”

不過(guò),據(jù)貝殼財(cái)經(jīng)記者觀察,目前Sora生成的還基本限于“短視頻”,如果生成帶劇情的長(zhǎng)篇故事似乎還有更多挑戰(zhàn)。

對(duì)此,圖拉古告訴記者,Sora更大的潛力在于傳遞蒙太奇故事,而不是準(zhǔn)確和具有節(jié)奏的敘事,“它準(zhǔn)確地傳遞某一個(gè)人的百分之百的意圖還是差一點(diǎn),不過(guò)大部分創(chuàng)作者不會(huì)在意這些。也就是說(shuō),它其實(shí)能夠傳遞某一個(gè)人90%的情緒感覺(jué)或者表達(dá)這已經(jīng)足夠了。”

Sora的發(fā)布讓圖拉古十分激動(dòng),他目前正在打造一個(gè)被稱(chēng)為“超感影游”的沉浸式線下體驗(yàn)項(xiàng)目,在他看來(lái),未來(lái)很多人都可以成為創(chuàng)作者,而不僅僅局限于現(xiàn)在的專(zhuān)業(yè)人士,電影的“KTV時(shí)代”,隨著AI的到來(lái)即將到來(lái)。

“技術(shù)總是跨越式進(jìn)步,后面可能會(huì)更超乎我們的想象。”圖拉古說(shuō)。

“盡管Sora的技術(shù)創(chuàng)新帶來(lái)了巨大的潛力,但它也對(duì)傳統(tǒng)的影視制作行業(yè)提出了轉(zhuǎn)型的壓力。AI生成的視頻可能減少了對(duì)人類(lèi)演員、導(dǎo)演和其他創(chuàng)意角色的需求,從而影響到這個(gè)行業(yè)的就業(yè)。此外,隨著AI技術(shù)的進(jìn)步,傳統(tǒng)的影視制作流程和商業(yè)模式也可能面臨重塑。然而,這種轉(zhuǎn)型并不意味著傳統(tǒng)影視行業(yè)的消亡,而是需要與AI技術(shù)融合,探索新的藝術(shù)形式和表達(dá)方式。這種轉(zhuǎn)型壓力,雖然帶來(lái)了挑戰(zhàn),但也為行業(yè)的創(chuàng)新和發(fā)展提供了機(jī)遇。”劉興亮告訴貝殼財(cái)經(jīng)記者。

如何克服一致性難題?讓模型預(yù)見(jiàn)多幀內(nèi)容奧特曼:專(zhuān)注打造通用人工智能

那么,OpenAI是如何做到克服AI生成視頻的一致性難題的呢?

根據(jù)OpenAI的技術(shù)解讀文件,Sora是一種擴(kuò)散模型,它能夠通過(guò)從一開(kāi)始看似靜態(tài)噪聲的視頻出發(fā),經(jīng)過(guò)多步驟的噪聲去除過(guò)程,逐漸生成視頻,不僅能夠一次性生成完整的視頻,還能延長(zhǎng)已生成的視頻,“通過(guò)讓模型能夠預(yù)見(jiàn)多幀內(nèi)容,團(tuán)隊(duì)成功克服了確保視頻中的主體即便暫時(shí)消失也能保持一致性的難題。”

與GPT模型類(lèi)似,Sora采用了Transformer架構(gòu),從而實(shí)現(xiàn)了卓越的性能擴(kuò)展。具體來(lái)看,OpenAI把視頻和圖像分解為較小的數(shù)據(jù)單元“patches(小塊)”,每個(gè)“patches”相當(dāng)于GPT中的一個(gè)token(語(yǔ)句)。這種統(tǒng)一的數(shù)據(jù)表示方法能夠在更廣泛的視覺(jué)數(shù)據(jù)上訓(xùn)練模型,覆蓋了不同的持續(xù)時(shí)間、分辨率和縱橫比,而這一技術(shù)在之前不可能做到。

此外,Sora基于DALLE和GPT模型的研究成果,采用了DALLE 3的重標(biāo)注技術(shù),通過(guò)為視覺(jué)訓(xùn)練數(shù)據(jù)生成詳細(xì)描述的標(biāo)題,使模型更加準(zhǔn)確地遵循用戶(hù)的文本指令生成視頻。

OpenAI特別表示,Sora是能夠理解和模擬現(xiàn)實(shí)世界的模型的基礎(chǔ),“我們相信這一能力將是實(shí)現(xiàn)通用人工智能的重要里程碑。”

例如,當(dāng)輸入提示語(yǔ)句“動(dòng)畫(huà)場(chǎng)景的特寫(xiě)鏡頭,一個(gè)毛茸茸的小怪物跪在一根融化的紅蠟燭旁邊。藝術(shù)風(fēng)格3D、逼真,重點(diǎn)是照明和紋理,情緒包括驚奇和好奇……”時(shí),Sora創(chuàng)造出了一個(gè)類(lèi)似皮克斯和夢(mèng)工廠電影中的動(dòng)畫(huà)小怪物鏡頭。

值得注意的是,該視頻中,小怪物的毛發(fā)紋理極其自然。此前,移動(dòng)中的毛發(fā)紋理效果往往會(huì)耗費(fèi)動(dòng)畫(huà)公司極大精力,如皮克斯的《怪獸公司》中,技術(shù)團(tuán)隊(duì)為毛發(fā)紋理耗費(fèi)了幾個(gè)月的時(shí)間,但Sora僅僅依靠AI就生成出來(lái)。對(duì)此,OpenAI科學(xué)家Tim Brooks表示,Sora通過(guò)觀察大量數(shù)據(jù)學(xué)會(huì)了關(guān)于3D幾何形狀和一致性的知識(shí),“通用人工智能將能夠模擬物理世界,而Sora是朝這個(gè)方向邁出的關(guān)鍵一步。”

北京時(shí)間2月16日早上8點(diǎn),山姆奧特曼“趁熱”在社交平臺(tái)發(fā)布了招人公告,“OpenAI團(tuán)隊(duì)是我見(jiàn)過(guò)的最有才華、最友善的一群人,致力于解決最困難、最有趣和最重要的問(wèn)題。我們所有關(guān)鍵資源均已到位,專(zhuān)注于打造通用人工智能,你或許應(yīng)該考慮加入我們。”

不過(guò),OpenAI也坦承,目前Sora模型也有弱點(diǎn),“它可能難以準(zhǔn)確模擬復(fù)雜場(chǎng)景的物理特性,并且可能無(wú)法理解因果關(guān)系的具體實(shí)例。例如,一個(gè)人可能會(huì)咬一口餅干,但之后,餅干可能沒(méi)有咬痕。同時(shí),該模型還可能混淆提示的空間細(xì)節(jié),例如,左右混淆,并且可能難以精確描述隨時(shí)間推移發(fā)生的事件,例如遵循特定的相機(jī)軌跡。”

在劉興亮看來(lái),Sora模型及其帶來(lái)的技術(shù)進(jìn)步,也引發(fā)了一系列倫理和社會(huì)挑戰(zhàn),“隨著AI生成內(nèi)容與現(xiàn)實(shí)之間的界限變得越來(lái)越模糊,如何確保內(nèi)容的真實(shí)性和透明性成為了一個(gè)重要問(wèn)題。此外,版權(quán)、隱私和數(shù)據(jù)安全等問(wèn)題也需要得到妥善解決。社會(huì)必須面對(duì)這些挑戰(zhàn),通過(guò)制定相關(guān)政策、法律和倫理準(zhǔn)則來(lái)確保技術(shù)的健康發(fā)展,同時(shí)保護(hù)個(gè)人和社會(huì)的利益不受侵害。”

目前,OpenAI已經(jīng)將Sora提供給了一些藝術(shù)家用于創(chuàng)作,但距離面向公眾發(fā)行還需要一段時(shí)間,“我們將采取幾個(gè)重要的安全措施,并進(jìn)行對(duì)抗性測(cè)試,一旦公開(kāi)發(fā)布,我們的文本分類(lèi)器將檢查違反使用政策的文本輸入提示,例如極端暴力、色情內(nèi)容、名人肖像等。”OpenAI表示。

“OpenAI的Sora模型不僅是技術(shù)創(chuàng)新的象征,也是對(duì)傳統(tǒng)行業(yè)轉(zhuǎn)型的推動(dòng)力和倫理挑戰(zhàn)的觸發(fā)點(diǎn)。面對(duì)這些變化,社會(huì)需要采取積極的態(tài)度,擁抱技術(shù)帶來(lái)的機(jī)遇,同時(shí)警惕和解決伴隨而來(lái)的挑戰(zhàn),以確保技術(shù)進(jìn)步能夠惠及全人類(lèi)。”劉興亮告訴貝殼財(cái)經(jīng)記者。

記者聯(lián)系郵箱:luoyidan@xjbnews.com

新京報(bào)貝殼財(cái)經(jīng)記者羅亦丹

編輯 韋博雅

校對(duì) 劉越

贊助本站

人工智能實(shí)驗(yàn)室
相關(guān)內(nèi)容
AiLab云推薦
推薦內(nèi)容
展開(kāi)

熱門(mén)欄目HotCates

Copyright © 2010-2024 AiLab Team. 人工智能實(shí)驗(yàn)室 版權(quán)所有    關(guān)于我們 | 聯(lián)系我們 | 廣告服務(wù) | 公司動(dòng)態(tài) | 免責(zé)聲明 | 隱私條款 | 工作機(jī)會(huì) | 展會(huì)港