當前位置：人工智能實驗室> 企業(yè)新聞 > 人大系多模態(tài)模型邁向AGI：首次實現(xiàn)自主更新，還在寫真視頻生成上好于Sora

人大系多模態(tài)模型邁向AGI：首次實現(xiàn)自主更新，還在寫真視頻生成上好于Sora
來源：互聯(lián)網(wǎng) 發(fā)布日期：2024-04-30 16:01:46 瀏覽：15171次

導讀：導語：在4月27日召開的中關(guān)村論壇通用人工智能平行論壇上,人大系初創(chuàng)公司智子引擎隆重發(fā)布全新的多模態(tài)大模型Awaker 1.0,向AGI邁出至關(guān)重要的一步。相對于智子引擎前代的ChatImg序列模型,Awaker 1.0采用全新的MOE架構(gòu)并具備自主更新能力,是業(yè)界首個實現(xiàn)真正...

導語：

在4月27日召開的中關(guān)村論壇通用人工智能平行論壇上,人大系初創(chuàng)公司智子引擎隆重發(fā)布全新的多模態(tài)大模型Awaker 1.0,向AGI邁出至關(guān)重要的一步。相對于智子引擎前代的ChatImg序列模型,Awaker 1.0采用全新的MOE架構(gòu)并具備自主更新能力,是業(yè)界首個實現(xiàn)“真正”自主更新的多模態(tài)大模型。在視覺生成方面,Awaker 1.0采用完全自研的視頻生成底座VDT,在寫真視頻生成上取得好于Sora的效果。

Awaker 1.0是一個將視覺理解與視覺生成進行超級融合的多模態(tài)大模型。在理解側(cè),Awaker 1.0與數(shù)字世界和現(xiàn)實世界進行交互,在執(zhí)行任務的過程中將場景行為數(shù)據(jù)反哺給模型,以實現(xiàn)持續(xù)更新與訓練;在生成側(cè),Awaker 1.0可以生成高質(zhì)量的多模態(tài)內(nèi)容,對現(xiàn)實世界進行模擬,為理解側(cè)模型提供更多的訓練數(shù)據(jù)。尤其重要的是,因為具備“真正”的自主更新能力,Awaker 1.0適用于更廣泛的行業(yè)場景,能夠解決更復雜的實際任務,比如AI Agent、具身智能、綜合治理、安防巡檢等。

1、Awaker的MOE基座模型

在理解側(cè),Awaker 1.0的基座模型主要解決了多模態(tài)多任務預訓練存在嚴重沖突的問題。受益于精心設計的多任務MOE架構(gòu),Awaker 1.0的基座模型既能繼承智子引擎前代多模態(tài)大模型ChatImg的基礎能力,還能學習各個多模態(tài)任務所需的獨特能力。相對于前代多模態(tài)大模型ChatImg,Awaker 1.0的基座模型能力在多個任務上都有了大幅提升。鑒于主流的多模態(tài)評測榜單存在評測數(shù)據(jù)泄露的問題,我們采取嚴格的標準構(gòu)建自有的評測集,其中大部分的測試圖片來自個人的手機相冊。在該多模態(tài)評測集上,我們對Awaker 1.0和國內(nèi)外最先進的三個多模態(tài)大模型進行公平的人工評測,詳細的評測結(jié)果如下表所示。注意到GPT-4V和Intern-VL并不直接支持檢測任務,它們的檢測結(jié)果是通過要求使用語言描述物體方位得到的。

我們發(fā)現(xiàn),Awaker 1.0的基座模型在視覺問答和業(yè)務應用任務上超過了GPT-4V、Qwen-VL-Max和Intern-VL,同時它在描述、推理和檢測任務上也達到了次好的效果�？傮w而言,Awaker 1.0的平均得分超過國內(nèi)外最先進的三個模型,驗證了多任務MOE架構(gòu)的有效性。下面是幾個具體的對比分析例子。

從這些對比例子可以看到,在計數(shù)和OCR問題上,Awaker 1.0能正確地給出答案,而其它三個模型均回答錯誤(或部分錯誤)。在詳細描述任務上,Qwen-VL-Max比較容易出現(xiàn)幻覺,Intern-VL能夠準確地描述圖片的內(nèi)容但在某些細節(jié)上不夠準確和具體。GPT-4V和Awaker 1.0不但能夠詳細地描述圖片的內(nèi)容,而且能夠準確地識別出圖片中的細節(jié),如圖中展示的可口可樂。

2、Awaker+具身智能:邁向AGI

多模態(tài)大模型與具身智能的結(jié)合是非常自然的,因為多模態(tài)大模型所具有的視覺理解能力可以天然與具身智能的攝像頭進行結(jié)合。在人工智能領域,“多模態(tài)大模型+具身智能”甚至被認為是實現(xiàn)通用人工智能(AGI)的可行路徑。一方面,人們期望具身智能擁有適應性,即智能體能夠通過持續(xù)學習來適應不斷變化的應用環(huán)境,既能在已知多模態(tài)任務上越做越好,也能快速適應未知的多模態(tài)任務。另一方面,人們還期望具身智能具有真正的創(chuàng)造性,希望它通過對環(huán)境的自主探索,能夠發(fā)現(xiàn)新的策略和解決方案,并探索人工智能的能力邊界。通過將多模態(tài)大模型用作具身智能的“大腦”,我們有可能大幅地提升具身智能的適應性和創(chuàng)造性,從而最終接近AGI的門檻(甚至實現(xiàn)AGI)。

但是,現(xiàn)有的多模態(tài)大模型都存在兩個明顯的問題:一是模型的迭代更新周期長,需要大量的人力投入;二是模型的訓練數(shù)據(jù)都源自已有的數(shù)據(jù),模型不能持續(xù)獲得大量的新知識。雖然通過RAG和長上下文的方式也可以注入持續(xù)出現(xiàn)的新知識,但是多模態(tài)大模型本身并沒有學習到這些新知識,同時這兩種補救方式還會帶來額外的問題�？傊�,目前的多模態(tài)大模型在實際應用場景中均不具備很強的適應性,更不用說創(chuàng)造性,導致在行業(yè)落地時總是出現(xiàn)各種各樣的困難。

智子引擎此次發(fā)布的Awaker 1.0,是世界上首個具有自主更新機制的多模態(tài)大模型,可以用作具身智能的“大腦”。Awaker 1.0的自主更新機制,包含三大關(guān)鍵技術(shù):數(shù)據(jù)主動生成、模型反思評估、模型連續(xù)更新。區(qū)別于所有其它多模態(tài)大模型,Awaker 1.0是“活”的,它的參數(shù)可以實時持續(xù)地更新。從下方的框架圖中可以看出,Awaker 1.0能夠與各種智能設備結(jié)合,通過智能設備觀察世界,產(chǎn)生動作意圖,并自動構(gòu)建指令控制智能設備完成各種動作。智能設備在完成各種動作后會自動產(chǎn)生各種反饋,Awaker 1.0能夠從這些動作和反饋中獲取有效的訓練數(shù)據(jù)進行持續(xù)的自我更新,不斷強化模型的各種能力。

以新知識注入為例,Awaker 1.0能夠不斷地在互聯(lián)網(wǎng)上學習最新的新聞信息,并結(jié)合新學習到的新聞信息回答各種復雜問題。不同于RAG和長上下文的傳統(tǒng)方式,Awaker 1.0能真正學到新知識并“記憶”在模型的參數(shù)上。

從上述的例子可以看到,在連續(xù)三天的自我更新中,Awaker 1.0每天都能夠?qū)W習當天的新聞信息,并在描述中準確地說出對應的信息。同時,Awaker 1.0在連續(xù)學習的過程中并不會很快地遺忘學過的知識,例如智界S7的知識在2天后仍然被Awaker 1.0記住或理解。

Awaker 1.0還能夠與各種智能設備結(jié)合,實現(xiàn)云邊協(xié)同。Awaker 1.0作為“大腦”部署在云端,控制各種邊端智能設備執(zhí)行各項任務。邊端智能設備執(zhí)行各項任務時獲得的反饋又會源源不斷地傳回給Awaker 1.0,讓它持續(xù)地獲得訓練數(shù)據(jù),不斷進行自我更新。

上述云邊協(xié)同的技術(shù)路線已經(jīng)應用在電網(wǎng)智能巡檢、智慧城市等應用場景中,取得了遠遠好于傳統(tǒng)小模型的識別效果,并獲得了行業(yè)客戶的高度認可。

3、現(xiàn)實世界的模擬器:VDT

Awaker 1.0的生成側(cè),是智子引擎自主研發(fā)的類Sora視頻生成底座VDT,可以用作現(xiàn)實世界的模擬器。VDT的研究成果于2023年5月發(fā)布在arXiv網(wǎng)站,比OpenAI發(fā)布Sora提前10個月。VDT的學術(shù)論文已經(jīng)被國際頂級人工智能會議ICLR 2024接收。

視頻生成底座VDT 的創(chuàng)新之處,主要包括以下幾個方面:

將 Transformer 技術(shù)應用于基于擴散的視頻生成,展現(xiàn)了 Transformer 在視頻生成領域的巨大潛力。VDT 的優(yōu)勢在于其出色的時間依賴性捕獲能力,能夠生成時間上連貫的視頻幀,包括模擬三維對象隨時間的物理動態(tài)。

提出統(tǒng)一的時空掩碼建模機制,使 VDT 能夠處理多種視頻生成任務,實現(xiàn)了技術(shù)的廣泛應用。VDT 靈活的條件信息處理方式,如簡單的 token 空間拼接,有效地統(tǒng)一了不同長度和模態(tài)的信息。同時,通過與該工作提出的時空掩碼建模機制結(jié)合,VDT 成為了一個通用的視頻擴散工具,在不修改模型結(jié)構(gòu)的情況下可以應用于無條件生成、視頻后續(xù)幀預測、插癥圖生視頻、視頻畫面補全等多種視頻生成任務。

我們重點探索了VDT對簡單物理規(guī)律的模擬,在Physion數(shù)據(jù)集上對VDT進行微調(diào)。在下面的示例中,我們發(fā)現(xiàn)VDT成功模擬了物理過程,如小球沿拋物線軌跡運動和小球在平面上滾動并與其他物體碰撞等。同時也能從第2行第2個例子中看出VDT捕捉到了球的速度和動量規(guī)律,因為小球最終由于沖擊力不夠而沒有撞倒柱子。這證明了Transformer架構(gòu)可以學習到一定的物理規(guī)律。

我們還在寫真視頻生成任務上進行了深度探索。該任務對視頻生成質(zhì)量的要求非常高,因為我們天然對人臉以及人物的動態(tài)變化更加敏感。鑒于該任務的特殊性,我們需要結(jié)合VDT(或Sora)和可控生成來應對寫真視頻生成中的挑戰(zhàn)。目前智子引擎已經(jīng)突破寫真視頻生成的大部分關(guān)鍵技術(shù),取得比Sora更好的寫真視頻生成質(zhì)量。智子引擎還將繼續(xù)優(yōu)化人像可控生成算法,同時也在積極進行商業(yè)化探索。

未來更加通用的VDT將成為解決多模態(tài)大模型數(shù)據(jù)來源問題的得力工具。使用視頻生成的方式,VDT將能夠?qū)ΜF(xiàn)實世界進行模擬,進一步提高視覺數(shù)據(jù)生產(chǎn)的效率,為多模態(tài)大模型Awaker的自主更新提供助力。

4、結(jié)語

Awaker 1.0是智子引擎團隊向著“實現(xiàn)AGI”的終極目標邁進的關(guān)鍵一步。團隊認為AI的自我探索、自我反思等自主學習能力是智能水平的重要評估標準,與持續(xù)加大參數(shù)規(guī)模(Scaling Law)相比是同等重要的。Awaker 1.0已實現(xiàn)“數(shù)據(jù)主動生成、模型反思評估、模型連續(xù)更新”等關(guān)鍵技術(shù)框架,在理解側(cè)和生成側(cè)都實現(xiàn)了效果突破,有望加速多模態(tài)大模型行業(yè)的發(fā)展,最終讓人類實現(xiàn)AGI。

（文章為作者獨立觀點，不代表艾瑞網(wǎng)立場）