劃重點(diǎn)
01港科大、中科大等機(jī)構(gòu)聯(lián)手推出GameGen-X,實(shí)現(xiàn)開放世界游戲的AI生成與交互控制。
02GameGen-X首次實(shí)現(xiàn)了實(shí)時(shí)視頻游戲生成,可生成高質(zhì)量開放世界游戲。
03為此,研究團(tuán)隊(duì)構(gòu)建了開放世界視頻游戲數(shù)據(jù)集OGameData,包含100萬(wàn)個(gè)高分辨率視頻片段。
04實(shí)驗(yàn)結(jié)果顯示,GameGen-X在生成高質(zhì)量、逼真且可交互控制的視頻游戲內(nèi)容方面具有優(yōu)勢(shì)。
05未來(lái),GameGen-X有望推動(dòng)游戲設(shè)計(jì)走向更加自動(dòng)化、數(shù)據(jù)驅(qū)動(dòng)的流程。
以上內(nèi)容由大模型生成,僅供參考
新智元報(bào)道
編輯:編輯部 HYh【新智元導(dǎo)讀】AI顛覆游戲產(chǎn)業(yè),一場(chǎng)無(wú)聲革命已經(jīng)開啟!繼AI游戲模型Oasis之后,港科大、中科大等機(jī)構(gòu)聯(lián)手推出GameGen-X,首次實(shí)現(xiàn)了開放世界游戲的AI生成與交互控制。爆火國(guó)產(chǎn)3A大作《黑神話悟空》,如今也能由AI生成了?一夜之間,國(guó)內(nèi)首個(gè)實(shí)時(shí)視頻游戲生成AI,火遍全網(wǎng)。
致敬「西游記」
幾天前,專做推理芯片初創(chuàng)Etched曾推出世界首個(gè)實(shí)時(shí)生成AI游戲Oasis,每一幀都是擴(kuò)散Transformer預(yù)測(cè)。無(wú)需游戲引擎,就能實(shí)現(xiàn)每秒20幀實(shí)時(shí)渲染,幾乎沒有延遲。
沒想到,GameGen-X一出,再次顛覆了我們對(duì)AI游戲的認(rèn)知。來(lái)自港科大、中科大、港中文等機(jī)構(gòu)聯(lián)手,提出開放世界視頻游戲生成AI,可以實(shí)時(shí)交互創(chuàng)建游戲。這是首個(gè)專為生成和交互控制開放世界游戲視頻而設(shè)計(jì)的擴(kuò)散Transformer模型。
論文地址:https://gamegen-x.github.io/GameGen-X能夠模擬游戲引擎特性,實(shí)現(xiàn)高質(zhì)量開放世界游戲生成。比如,創(chuàng)建新角色、動(dòng)態(tài)環(huán)境、復(fù)雜動(dòng)作和各種事件等等。
它還能進(jìn)行交互式控制,根據(jù)當(dāng)前片段預(yù)測(cè)或更改未來(lái)內(nèi)容,實(shí)現(xiàn)游戲模擬。
有網(wǎng)友表示,一切都結(jié)束了,中國(guó)再次在AI游戲領(lǐng)域拿下第一。
還有人稱,這比Oasis看起來(lái)更好。
AI實(shí)時(shí)游戲生成,驚呆歪果仁
老黃曾說(shuō)過(guò),未來(lái)每個(gè)像素很快都將會(huì)是生成的,并非是渲染的。不論是從谷歌GameNGen,到Oasis,再到GameGen-X,每一步的進(jìn)化都在逼近這個(gè)預(yù)言。高質(zhì)量游戲生成在游戲生成上,GameGen-X不僅能夠創(chuàng)建角色,還能生成動(dòng)作、動(dòng)態(tài)環(huán)境、各種事件、開放域。角色生成《巫師》的Geralt of Rivia
《荒野大鏢客:救贖2》的主角Arthur Morgan
《刺客信條》的Eivor
還有這種偏卡通風(fēng)的人物異星探險(xiǎn)家
射擊游戲中的機(jī)械戰(zhàn)警RoboCop,機(jī)器人角色生成很賽博。
環(huán)境生成不論是春夏秋冬四季,還是山川湖海,各種名勝古跡,都能實(shí)時(shí)生成。
動(dòng)作生成騎摩托車第一人稱視角,以及第三人稱視角。
駕馬車
飛行
事件生成下雨、下雪、打雷、日起日落、火災(zāi)、沙塵暴、海嘯.....
開放域生成在中國(guó)城漫游的賽博和尚
血月下的幽靈
穿著斗篷的旅行者走在火星上
多模態(tài)交互控制在多模態(tài)交互中,GameGen-X能夠支持結(jié)構(gòu)化指令提示、外設(shè)操作信號(hào)、視頻提示的生成。結(jié)構(gòu)化指令提示同在沙漠中行走的旅人,你可以通過(guò)提示要求,讓背景實(shí)時(shí)變幻。天空之火
黑暗與星星
日落時(shí)分
霧出現(xiàn)
操作信號(hào)游戲中角色向左向右移動(dòng),一句話的事。
視頻提示提供一個(gè)Canny提示的視頻
接下來(lái),就會(huì)得到
又或者提供一個(gè)運(yùn)動(dòng)失量的視頻
就會(huì)生成一個(gè)揚(yáng)沙的視頻
GameGen-X技術(shù)
GameGen-X擅長(zhǎng)生成多樣化和創(chuàng)造性的游戲內(nèi)容,包括動(dòng)態(tài)環(huán)境、多變的角色、引人入勝的事件和復(fù)雜的動(dòng)作,樹立了該領(lǐng)域的新標(biāo)桿。更為震撼的是,它還提供了交互式可控性,并首次將角色交互和場(chǎng)景內(nèi)容控制統(tǒng)一起來(lái)。AI根據(jù)當(dāng)前片段預(yù)測(cè)和更改未來(lái)內(nèi)容,從而實(shí)現(xiàn)游戲模擬,賦予了游戲更多的真實(shí)性。它首先生成一個(gè)視頻片段,以設(shè)置環(huán)境和角色。隨后,利用當(dāng)前視頻片段和多模態(tài)用戶控制信號(hào),生成動(dòng)態(tài)響應(yīng)用戶輸入的視頻片段。這一過(guò)程可被視為模擬現(xiàn)實(shí)一般的體驗(yàn),因?yàn)檫@一過(guò)程中,環(huán)境和角色都是動(dòng)態(tài)發(fā)展的!
GameGen-X的訓(xùn)練過(guò)程分為兩個(gè)階段,包括基礎(chǔ)模型預(yù)訓(xùn)練和指令微調(diào)。首先,通過(guò)在OGameData-GEN數(shù)據(jù)集上的文本到視頻的生成和視頻延續(xù)對(duì)模型進(jìn)行預(yù)訓(xùn)練,使其具備生成長(zhǎng)序列、高質(zhì)量開放世界游戲視頻的能力。此外,為了實(shí)現(xiàn)交互可控性,研究團(tuán)隊(duì)在設(shè)計(jì)InstructNet時(shí)納入了與游戲相關(guān)的多模態(tài)信號(hào)控制專家系統(tǒng)。這使得模型能夠根據(jù)用戶輸入微調(diào)潛表征,首次在視頻生成中將角色交互和場(chǎng)景內(nèi)容的調(diào)控統(tǒng)一起來(lái)。在指令微調(diào)過(guò)程中,為了保證不損失生成視頻內(nèi)容的多樣性和質(zhì)量的情況下,實(shí)現(xiàn)多模態(tài)交互式控制,模型引入了 InstructNet。具體來(lái)說(shuō),InstructNet 的主要目的是根據(jù)指令修改未來(lái)的預(yù)測(cè)。當(dāng)沒有給出用戶輸入信號(hào)時(shí),視頻自然延伸。因此會(huì)將預(yù)先訓(xùn)練好的基礎(chǔ)模型凍結(jié),只利用OGameData-INS數(shù)據(jù)集更新InstructNet,從而將用戶輸入(如游戲環(huán)境動(dòng)態(tài)的結(jié)構(gòu)化文本指令和角色動(dòng)作與操作的鍵盤控制)映射到生成的游戲內(nèi)容上?傊,GameGen-X代表了使用生成模型進(jìn)行開放世界視頻游戲設(shè)計(jì)的一次重大飛躍。它展示了生成模型作為傳統(tǒng)渲染技術(shù)輔助工具的潛力,有效地將創(chuàng)意生成與交互能力融合在一起。
首個(gè)開放世界游戲視頻數(shù)據(jù)集OGameData為了促進(jìn)交互式控制游戲生成領(lǐng)域的發(fā)展,研究團(tuán)隊(duì)構(gòu)建了開放世界視頻游戲數(shù)據(jù)集(Open-World Video Game Dataset,OGameData),這是首個(gè)專為游戲視頻生成和交互式控制精心設(shè)計(jì)的大規(guī)模數(shù)據(jù)集。它提供游戲特定知識(shí),并包含游戲名稱、玩家視角和角色細(xì)節(jié)等元素。該數(shù)據(jù)集從150多款下一代游戲中收集而來(lái),其中包括評(píng)分、篩選、排序和結(jié)構(gòu)化注釋。
OGameData的構(gòu)建與處理流程如表1所示,OGameData包含100萬(wàn)個(gè)高分辨率視頻片段,來(lái)源從幾分鐘到幾小時(shí)不等。與其他特定領(lǐng)域的數(shù)據(jù)集相比,OGameData在文本-視頻對(duì)的規(guī)模、多樣性和豐富性方面脫穎而出。即使與最新的開放域生成數(shù)據(jù)集Miradata相比,仍然具有提供更多細(xì)粒度注釋的優(yōu)勢(shì),其在單位時(shí)間內(nèi)提供的注釋甚至是Miradata數(shù)據(jù)集的2倍多!
該數(shù)據(jù)集具有幾個(gè)主要特點(diǎn):OGameData 具有高度精細(xì)的文本,并擁有大量可訓(xùn)練的視頻-文本對(duì),從而提高了模型訓(xùn)練中文本-視頻的一致性。此外,它還包括兩個(gè)子集:生成數(shù)據(jù)集(OGameData-GEN)和指令數(shù)據(jù)集(OGameData-INS)。其中OGameData-GEN專門用于訓(xùn)練生成基礎(chǔ)模型,而OGameData-INS則針對(duì)指令微調(diào)和交互式控制任務(wù)進(jìn)行了優(yōu)化。
OGameData-GEN需要制作詳細(xì)的注釋來(lái)描述游戲元數(shù)據(jù)、場(chǎng)景背景和關(guān)鍵角色,以確保生成基礎(chǔ)模型訓(xùn)練所需的全面文本描述。相比之下,OGameData-INS使用基于指令的簡(jiǎn)明注釋,突出顯示初始幀和后續(xù)幀之間的差異,重點(diǎn)是描述游戲場(chǎng)景的變化,以便進(jìn)行交互式生成。
這種結(jié)構(gòu)化注釋方法可實(shí)現(xiàn)精確的生成和細(xì)粒度的控制,允許模型在保留場(chǎng)景的同時(shí)修改特定元素。該數(shù)據(jù)集的高質(zhì)量得益于10多位人類專家的精心設(shè)計(jì)。每個(gè)視頻片段都配有使用GPT-4o生成的注釋,以保持清晰度和連貫性,并確保數(shù)據(jù)集不受用戶界面和視覺偽影的影響。模型架構(gòu)在將視頻片段進(jìn)行編碼時(shí),為解決時(shí)空信息冗余問題,GameGen-X引入了三維時(shí)空變分自編碼器(3D-VAE),將視頻片段壓縮為潛表征。這種壓縮技術(shù)可以對(duì)具有較長(zhǎng)幀序列的高分辨率視頻進(jìn)行高效訓(xùn)練。具體來(lái)說(shuō),3D-VAE首先進(jìn)行空間下采樣以獲得幀級(jí)潛特征。此外,它還進(jìn)行了時(shí)間組合,以捕捉時(shí)間依賴性并有效減少幀上的冗余。通過(guò)3D-VAE對(duì)視頻片段進(jìn)行處理,可以得到一個(gè)具有空間-時(shí)間信息并降低了維度的潛張量。這樣的張量可以支持長(zhǎng)視頻和高分辨率模型訓(xùn)練,滿足游戲內(nèi)容生成的要求。GameGen-X還引入了掩碼時(shí)空擴(kuò)散Transformer(Masked Spatial-Temporal Diffusion Transformer,MSDiT)。具體來(lái)說(shuō),MSDiT結(jié)合了空間注意力、時(shí)間注意力和交叉注意力機(jī)制,可有效生成由文本提示引導(dǎo)的游戲視頻。對(duì)于每個(gè)時(shí)間步長(zhǎng)t,模型會(huì)處理捕捉幀細(xì)節(jié)的潛特征z?臻g注意力通過(guò)對(duì)空間維度(H′、W′)的自注意力來(lái)增強(qiáng)幀內(nèi)關(guān)系。時(shí)間注意通過(guò)在時(shí)間維度F′上進(jìn)行操作,捕捉幀間的依賴關(guān)系,從而確保幀間的一致性。交叉注意力整合了通過(guò)文本編碼器T5獲得的外部文本特征的指導(dǎo),使視頻生成與文本提示的語(yǔ)義信息保持一致。而掩碼機(jī)制則可以在擴(kuò)散處理過(guò)程中,將某些幀從噪聲添加和去噪中屏蔽掉。如圖4所示,整體框架采用了將成對(duì)的空間和時(shí)間區(qū)塊堆疊在一起的設(shè)計(jì),其中每個(gè)區(qū)塊都配備了交叉注意和空間或時(shí)間注意力機(jī)制。
這樣的設(shè)計(jì)使模型能夠同時(shí)捕捉空間細(xì)節(jié)、時(shí)間序列動(dòng)態(tài)和文本引導(dǎo),從而使GameGen-X能夠生成高保真、時(shí)間上一致的視頻,并與所提供的文本提示緊密結(jié)合。負(fù)責(zé)實(shí)現(xiàn)交互式控制的指令微調(diào)的部分由N個(gè)InstructNet模塊組成,每個(gè)模塊利用專門的操作集成式專家層和指令集成式專家層來(lái)整合不同的條件。輸出特征被注入到基礎(chǔ)模型中以融合原始潛在特征,根據(jù)用戶輸入調(diào)制潛在表征,并有效地將輸出與用戶意圖對(duì)齊,這使用戶能夠影響角色動(dòng)作和場(chǎng)景動(dòng)態(tài)。InstructNet主要通過(guò)視頻連續(xù)訓(xùn)練來(lái)模擬游戲中的控制和反饋機(jī)制。此外,還在初始幀中巧妙地添加了高斯噪聲,以減少誤差累積。實(shí)驗(yàn)結(jié)果
為了全面評(píng)估GameGen-X在生成高質(zhì)量、逼真且可交互控制的視頻游戲內(nèi)容方面的能力,研究團(tuán)隊(duì)采用了一套十分細(xì)致的度量標(biāo)準(zhǔn)。包括Fréchet Inception Distance(FID)、Fréchet Video Distance(FVD)、文本視頻對(duì)齊(TVA)、用戶偏好度(UP)、運(yùn)動(dòng)平滑度(MS)、動(dòng)態(tài)度(DD)、主體一致性(SC) 和成像質(zhì)量(IQ)。表2對(duì)比了GameGen-X和4個(gè)知名開源模型,即Mira、OpenSora Plan1.2、OpenSora1.2和CogVideoX-5B。值得注意的是,Mira和OpenSora1.2都明確提到在游戲數(shù)據(jù)上進(jìn)行訓(xùn)練,而其他兩個(gè)模型雖然不是專門為此目的設(shè)計(jì)的,但仍然可以在類似環(huán)境中滿足某些生成需求。結(jié)果顯示,GameGen-X在FID、FVD、TVA、MS和SC等指標(biāo)上表現(xiàn)良好。這表明GameGen-X在生成高質(zhì)量和連貫的視頻游戲內(nèi)容方面具有優(yōu)勢(shì),同時(shí)保持了競(jìng)爭(zhēng)性的視覺和技術(shù)質(zhì)量。
此外,團(tuán)隊(duì)還使用了有條件的視頻片段和密集提示詞來(lái)評(píng)估模型的生成響應(yīng)。其中,新引入的指標(biāo)成功率(SR),負(fù)責(zé)衡量模型對(duì)控制信號(hào)的準(zhǔn)確響應(yīng)頻率。這是由人類專家和PLLaVA共同評(píng)估的。SR指標(biāo)分為兩部分:角色動(dòng)作的成功率(SR-C),評(píng)估模型對(duì)角色動(dòng)作的響應(yīng)能力,以及環(huán)境事件的成功率(SR-E),評(píng)估模型對(duì)天氣、光照和物體變化的處理能力。如表3所示,GameGen-X在控制能力方面優(yōu)于其他模型,突顯了其在生成上下文適宜和互動(dòng)性游戲內(nèi)容方面的有效性。在生成性能方面,有著8fps視頻的CogVideo和場(chǎng)景頻繁變化的OpenSora1.2,獲得了更高的DD。
圖5展示了GameGen-X在生成各種角色、環(huán)境、動(dòng)作和事件的多樣化生成能力。這些例子顯示模型可以創(chuàng)建刺客和法師等角色,模擬櫻花森林和熱帶雨林等環(huán)境,執(zhí)行飛行和駕駛等復(fù)雜動(dòng)作,并重現(xiàn)暴風(fēng)雪和暴雨等環(huán)境事件。
圖6展示了GameGen-X根據(jù)文本指令和鍵盤輸入控制環(huán)境事件和角色動(dòng)作的能力。在提供的示例中,模型有效地操控了場(chǎng)景的各個(gè)方面,如光照條件和大氣效果,突顯了其模擬不同時(shí)間和天氣條件的能力。此外,角色的動(dòng)作,主要涉及環(huán)境中的導(dǎo)航,通過(guò)輸入的鍵盤信號(hào)得到精確控制。通過(guò)調(diào)整光照和大氣等環(huán)境因素,模型提供了一個(gè)逼真而沉浸的環(huán)境。同時(shí),管理角色動(dòng)作的能力確保生成的內(nèi)容能夠直觀地響應(yīng)用戶的互動(dòng)。通過(guò)這些能力,GameGen-X展示出了在提升開放世界電子游戲模擬的真實(shí)感和參與度方面的潛力。
如圖7所示,GameGen-X在角色細(xì)節(jié)、視覺環(huán)境和鏡頭邏輯方面更好地滿足了游戲內(nèi)容的要求,這得益于嚴(yán)格的數(shù)據(jù)集收集和OGameData的構(gòu)建。
此外,GameGen-X還與包括Kling、Pika、Runway、Luma和Tongyi在內(nèi)的其他商業(yè)產(chǎn)品進(jìn)行了比較,如圖8所示。在左側(cè)部分,即最初生成的視頻片段中,只有Pika、Kling1.5和GameGen-X正確地遵循了文本描述。其他模型要么未能顯示角色,要么將其描繪為進(jìn)入洞穴而非退出。在右側(cè)部分,GameGen-X和Kling1.5都成功引導(dǎo)角色走出洞穴。GameGen-X實(shí)現(xiàn)了高質(zhì)量的控制響應(yīng),同時(shí)保持了一致的鏡頭邏輯,并遵循了類似游戲的體驗(yàn)。這得益于整體訓(xùn)練框架和InstructNet的設(shè)計(jì)。
結(jié)論
OGameData的開發(fā)為模型訓(xùn)練提供了重要的基礎(chǔ),使其能夠捕捉開放世界游戲的多樣性和復(fù)雜性。而通過(guò)兩階段的訓(xùn)練過(guò)程,GameGen-X實(shí)現(xiàn)了內(nèi)容生成和交互控制之間的相互增強(qiáng),從而實(shí)現(xiàn)了豐富且身臨其境般的模擬體驗(yàn)。除了技術(shù)貢獻(xiàn)之外,更重要的是:GameGen-X 還為游戲內(nèi)容設(shè)計(jì)的未來(lái)開辟了新的視野。它表明游戲設(shè)計(jì)與開發(fā)有可能轉(zhuǎn)向更加自動(dòng)化、數(shù)據(jù)驅(qū)動(dòng)的流程,從而顯著減少游戲內(nèi)容早期創(chuàng)建所需的手動(dòng)工作。通過(guò)利用模型來(lái)創(chuàng)建身臨其境的世界和交互式游戲玩法,我們可能對(duì)于玩家自己通過(guò)創(chuàng)造性的探索來(lái)構(gòu)建一個(gè)游戲的未來(lái)越來(lái)越近了。盡管挑戰(zhàn)依然存在,GameGen-X代表了游戲設(shè)計(jì)中向新穎范式邁出的重大飛躍。它為未來(lái)的研究和開發(fā)奠定了基礎(chǔ),也為生成模型成為創(chuàng)建下一代交互式數(shù)字世界的不可或缺的工具鋪平了道路。團(tuán)隊(duì)介紹
Haoxuan Che
Haoxuan Che正在香港科技大學(xué)(HKUST)攻讀計(jì)算機(jī)科學(xué)與工程博士學(xué)位。他的主要研究興趣在于計(jì)算機(jī)視覺、醫(yī)學(xué)圖像分析和可信賴人工智能。在加入香港科技大學(xué)之前,我曾畢業(yè)于西北工業(yè)大學(xué)(NWPU),獲得了軟件與微電子學(xué)院的軟件工程學(xué)士學(xué)位。Xuanhua He(何炫華)
何炫華目前是中國(guó)科學(xué)技術(shù)大學(xué)的碩士生,由Jie Zhang和Chengjun Xie教授指導(dǎo)。他于2022年在廈門大學(xué)獲得了軟件工程學(xué)士學(xué)位,師從Yongxuan Lai教授。他的研究興趣集中在計(jì)算機(jī)視覺領(lǐng)域,特別是圖像超分辨率、圖像增強(qiáng)和視頻生成。此前,他還曾曾探索過(guò)遙感圖像處理和聯(lián)邦學(xué)習(xí)。參考資料: