展會(huì)信息港展會(huì)大全

整合長(zhǎng)期記憶,AI實(shí)現(xiàn)自我進(jìn)化,探索大模型這一可能性
來源:互聯(lián)網(wǎng)   發(fā)布日期:2024-10-28 14:52:54   瀏覽:1572次  

導(dǎo)讀:劃重點(diǎn) 01天橋腦科學(xué)研究院和普林斯頓大學(xué)等研究機(jī)構(gòu)發(fā)布研究論文,探討長(zhǎng)期記憶對(duì)AI自我進(jìn)化的重要性。 02該團(tuán)隊(duì)提出基于多智能體的Omne框架,在GAIA基準(zhǔn)測(cè)試中獲得第一名成績(jī)。 03長(zhǎng)期記憶有助于模型在處理長(zhǎng)期、分散和個(gè)性化數(shù)據(jù)時(shí)逐步提升推理和學(xué)習(xí)能力...

劃重點(diǎn)

01天橋腦科學(xué)研究院和普林斯頓大學(xué)等研究機(jī)構(gòu)發(fā)布研究論文,探討長(zhǎng)期記憶對(duì)AI自我進(jìn)化的重要性。

02該團(tuán)隊(duì)提出基于多智能體的Omne框架,在GAIA基準(zhǔn)測(cè)試中獲得第一名成績(jī)。

03長(zhǎng)期記憶有助于模型在處理長(zhǎng)期、分散和個(gè)性化數(shù)據(jù)時(shí)逐步提升推理和學(xué)習(xí)能力。

04為此,研究人員需解決如何更好地構(gòu)建LTM數(shù)據(jù)、設(shè)計(jì)新模型架構(gòu)等問題。

05未來,Omne框架將繼續(xù)探索如何在復(fù)雜場(chǎng)景中實(shí)現(xiàn)智能體自我進(jìn)化和多智能體場(chǎng)景中的應(yīng)用。

以上內(nèi)容由騰訊混元大模型生成,僅供參考

機(jī)器之心報(bào)道

編輯:Panda、小舟

地球上最早的生命證據(jù)至少可以追溯到 35 億年前,而直到大約 25 萬到 40 萬年前,智人才出現(xiàn)地球上。在這漫長(zhǎng)的歲月中,生物不斷地興盛又覆滅,但整體趨勢(shì)總是越來越復(fù)雜,其中最復(fù)雜的生物組件莫過于我們智人的大腦。這樣的復(fù)雜性是我們的意識(shí)和智慧的來源。而這一切背后的機(jī)制是進(jìn)化(evolution)。

到了現(xiàn)今的大模型時(shí)代,強(qiáng)大的基礎(chǔ)模型已經(jīng)展現(xiàn)出了強(qiáng)大的智能水平,能完成多種多樣的任務(wù)。但它們也有個(gè)缺點(diǎn),訓(xùn)練之后就基本定型了,難以隨著用戶的使用而演進(jìn)。但毫無疑問,這項(xiàng)能力很重要。

近日,天橋腦科學(xué)研究院和普林斯頓大學(xué)等多所研究機(jī)構(gòu)發(fā)布了一篇研究論文,詳細(xì)闡述了長(zhǎng)期記憶對(duì) AI 自我進(jìn)化的重要性,并且他們還提出了自己的實(shí)現(xiàn)框架 基于多智能體的 Omne,其在 GAIA 基準(zhǔn)上取得了第一名的成績(jī)。

整合長(zhǎng)期記憶,AI實(shí)現(xiàn)自我進(jìn)化,探索大模型這一可能性

論文標(biāo)題:Long Term Memory : The Foundation of AI Self-Evolution

論文地址:https://arxiv.org/pdf/2410.15665

首先,該團(tuán)隊(duì)將 LLM 的模型進(jìn)化過程分成了三個(gè)主要階段

階段 1:在物理世界中積累認(rèn)知。

階段 2:在數(shù)字世界中構(gòu)建基礎(chǔ)模型。

階段 3:模型自我進(jìn)化,以實(shí)現(xiàn)更強(qiáng)大的智能。

整合長(zhǎng)期記憶,AI實(shí)現(xiàn)自我進(jìn)化,探索大模型這一可能性

現(xiàn)有的研究主要圍繞著階段 1 和 2,即如何構(gòu)建更好的數(shù)據(jù)以及將其用于訓(xùn)練更強(qiáng)大的基礎(chǔ)模型。目前人們有一個(gè)普遍的看法:在這種曲線擬合范式中,架構(gòu)并不重要,關(guān)鍵的因素是數(shù)據(jù)集。但到了階段 3,架構(gòu)就會(huì)變得和數(shù)據(jù)一樣重要。核心的難題是如何在統(tǒng)計(jì)模型的基礎(chǔ)上有效表達(dá)少數(shù)個(gè)體的數(shù)據(jù)。該研究關(guān)注的核心是如何確保在統(tǒng)計(jì)模型內(nèi)有效地表達(dá)個(gè)體數(shù)據(jù)。

實(shí)現(xiàn)模型自我進(jìn)化的原理

模型的自我進(jìn)化能力是模型長(zhǎng)期適應(yīng)和個(gè)性化的關(guān)鍵,而這又嚴(yán)重仰賴于有效的記憶機(jī)制。

在這一理解的基礎(chǔ)上,該團(tuán)隊(duì)提出:長(zhǎng)期記憶(LTM)能為模型的持續(xù)進(jìn)化提供歷史數(shù)據(jù)積累和經(jīng)驗(yàn)學(xué)習(xí)能力。正如人類通過經(jīng)驗(yàn)和記憶來完善認(rèn)知和行為一樣,LTM 也能讓模型在處理長(zhǎng)期、分散和個(gè)性化的數(shù)據(jù)時(shí)逐步提升推理和學(xué)習(xí)能力。

用 LTM 數(shù)據(jù)提升模型能力,使其能夠自我進(jìn)化

在傳統(tǒng) LLM 中,更新模型通常需要調(diào)整所有參數(shù),而如果目的是處理個(gè)體數(shù)據(jù),那這種操作明顯不切實(shí)際。

一種更優(yōu)的方法是僅更新局部參數(shù),從而在無損模型全局穩(wěn)定性的前提下,讓模型適應(yīng)稀疏、個(gè)性化的 LTM 數(shù)據(jù)。這種方法可解決當(dāng)前模型中個(gè)體數(shù)據(jù)「被平均化」的問題,使個(gè)性化信息能夠更全面地表達(dá)。使用上下文學(xué)習(xí)(ICL)的檢索增強(qiáng)生成(RAG)和用于微調(diào)的低秩適應(yīng)(LoRA)等技術(shù)都可被視為局部更新個(gè)體數(shù)據(jù)的方法。

該團(tuán)隊(duì)的做法是采用一種混合策略來整合 LTM 數(shù)據(jù),從而在實(shí)際應(yīng)用中達(dá)到讓人滿意的結(jié)果。但是,該團(tuán)隊(duì)也表示,這可能并非一種完美的解決方案,未來可能還會(huì)出現(xiàn)更好的方法。

組合 LTM 數(shù)據(jù)進(jìn)行實(shí)時(shí)權(quán)重更新,從而實(shí)現(xiàn)自我進(jìn)化

當(dāng)前的 LLM 通常分為訓(xùn)練和推理兩個(gè)階段。在推理階段,模型權(quán)重是凍結(jié)的,防止模型根據(jù)新輸入進(jìn)行調(diào)整和學(xué)習(xí)。這種固定的推理過程會(huì)限制模型的適應(yīng)性,尤其是在處理個(gè)性化任務(wù)和實(shí)時(shí)學(xué)習(xí)方面。

受人腦更新機(jī)制的啟發(fā),該團(tuán)隊(duì)認(rèn)為未來的 LLM 應(yīng)該將推理和訓(xùn)練與 LTM 結(jié)合起來,使模型能夠在接收到新信息時(shí)動(dòng)態(tài)調(diào)整權(quán)重。這就類似于人類的持續(xù)學(xué)習(xí)能力。

此外,這種集成還可以幫助模型在面對(duì)復(fù)雜的推理任務(wù)時(shí)自我反思并糾正錯(cuò)誤的推理路徑,從而提高準(zhǔn)確性和效率。

這種動(dòng)態(tài)的自我調(diào)整能力將大大提升模型的個(gè)性化能力和長(zhǎng)期進(jìn)化潛力。通過長(zhǎng)期記憶,模型不僅可以從短期記憶中學(xué)習(xí),還可以從歷史數(shù)據(jù)中提取有價(jià)值的見解,隨著時(shí)間的推移能更深入地理解個(gè)人偏好和行為模式。這種理解可實(shí)現(xiàn)模型的個(gè)性化定制和動(dòng)態(tài)調(diào)整,使模型能夠更有效地進(jìn)化。特別是在面對(duì)新的或極端的情況時(shí),長(zhǎng)期記憶使模型能夠參考過去的經(jīng)驗(yàn),快速做出調(diào)整并自我進(jìn)化,從而獲得更大的靈活性和適應(yīng)性。

長(zhǎng)期記憶在模型自我進(jìn)化中的實(shí)現(xiàn)路徑

該團(tuán)隊(duì)首先將給出 AI 自我進(jìn)化和 LTM 的定義,然后探索 LTM 在 AI 自我進(jìn)化中的關(guān)鍵作用,之后會(huì)介紹如何使用 LTM 來實(shí)現(xiàn) AI 自我進(jìn)化。

他們做出了以下貢獻(xiàn):

給出了 AI 自我進(jìn)化和 LTM 的定義;

提出了一個(gè)用于 LTM 的數(shù)據(jù)框架,包括數(shù)據(jù)收集、分析與合成;

提出了一個(gè)用于 LTM 的多智能體協(xié)作開發(fā)框架。

AI 自我進(jìn)化的基礎(chǔ)

這里簡(jiǎn)要給出 AI 自我進(jìn)化的定義,詳情請(qǐng)參閱原論文。

AI 自我進(jìn)化是指 AI 模型使用個(gè)性化數(shù)據(jù)不斷學(xué)習(xí)和優(yōu)化,實(shí)現(xiàn)多智能體協(xié)作和認(rèn)知方面的突破。該過程基于一個(gè)共享式內(nèi)核架構(gòu),其中各個(gè)模型通過處理個(gè)性化經(jīng)驗(yàn)和數(shù)據(jù)不斷進(jìn)化,從而提升自身推理能力和適應(yīng)能力,最終實(shí)現(xiàn)在動(dòng)態(tài)環(huán)境中的自主學(xué)習(xí)和持續(xù)進(jìn)化。

要實(shí)現(xiàn) AI 自我進(jìn)化,需要:

多智能體協(xié)作機(jī)制

差異化的個(gè)性化模型

自我糾錯(cuò)和評(píng)估機(jī)制

長(zhǎng)期記憶和學(xué)習(xí)能力

用于 AI 自我進(jìn)化的 LTM

目前,LLM 主要通過兩種記憶機(jī)制來管理信息:上下文存儲(chǔ)器和基于壓縮的參數(shù)存儲(chǔ)器。雖然這些機(jī)制在短期任務(wù)中表現(xiàn)出色,但它們?cè)谥С珠L(zhǎng)期自主學(xué)習(xí)和進(jìn)化方面仍然存在不足。

正如人類使用 LTM 來塑造他們的行為和身份一樣,人工智能系統(tǒng)也可以采用類似的方法根據(jù)「?jìng)(gè)人數(shù)據(jù)」定制其響應(yīng)和行為。這里,「?jìng)(gè)人數(shù)據(jù)」不僅限于個(gè)人用戶,還包括特定的機(jī)構(gòu)和領(lǐng)域,允許模型根據(jù)更廣泛的個(gè)人背景和需求調(diào)整其響應(yīng)和行為。

整合長(zhǎng)期記憶,AI實(shí)現(xiàn)自我進(jìn)化,探索大模型這一可能性

作者深入探討了 LTM 在 AI 自我進(jìn)化中所發(fā)揮的關(guān)鍵作用,首先在 AI 自我進(jìn)化的背景下定義了 LTM,并分析了當(dāng)前 LLM 記憶機(jī)制的缺點(diǎn)。然后,作者討論了通過從人類 LTM 特征中汲取靈感來增強(qiáng)人工智能模型的自我進(jìn)化能力,旨在構(gòu)建能持續(xù)學(xué)習(xí)和自我完善的人工智能系統(tǒng)。

該研究將 AI 自我進(jìn)化中的 LTM 定義為:

LTM 是人工智能系統(tǒng)可以長(zhǎng)期保留和利用的信息,使模型能夠根據(jù)更廣泛的背景調(diào)整其響應(yīng)和行為。

這里,「?jìng)(gè)人數(shù)據(jù)」不僅限于個(gè)人用戶,還包括特定的機(jī)構(gòu)和領(lǐng)域,允許模型根據(jù)更廣泛的個(gè)人背景和需求調(diào)整其反應(yīng)和行為。

從數(shù)據(jù)積累的角度來看:模型和人類都與環(huán)境進(jìn)行廣泛的交互,為個(gè)性化提供基礎(chǔ)數(shù)據(jù)。與人類相比,人工智能模型可以更有效地與環(huán)境交互,并且可以在純虛擬的數(shù)字環(huán)境中執(zhí)行這些交互和迭代。因此,通過設(shè)計(jì)適當(dāng)?shù)挠洃浖?xì)化策略,模型應(yīng)該能夠像人類一樣積累長(zhǎng)期記憶,甚至可能具有更高的效率和規(guī)模。

從模型更新的角度來看:人工智能擅長(zhǎng)存儲(chǔ)和調(diào)用海量數(shù)據(jù),遠(yuǎn)遠(yuǎn)超過人類記憶規(guī)模。神經(jīng)網(wǎng)絡(luò)通過分布式參數(shù)管理這些數(shù)據(jù),處理來自不同領(lǐng)域的輸入。然而,這種存儲(chǔ)相對(duì)剛性,缺乏實(shí)時(shí)更新的靈活性,通常需要重新訓(xùn)練才能實(shí)現(xiàn)更新。相比之下,人類的記憶力卻非常強(qiáng)。

整合長(zhǎng)期記憶,AI實(shí)現(xiàn)自我進(jìn)化,探索大模型這一可能性

LTM 的構(gòu)建策略

LTM 是對(duì)原始數(shù)據(jù)的有效組織和結(jié)構(gòu)化,而不僅僅是表面上對(duì)原始數(shù)據(jù)進(jìn)行分類和排序。相反,它是從記憶快速存儲(chǔ)和檢索以及信息高效利用的角度來設(shè)計(jì)和優(yōu)化。通過建立相關(guān)信息之間的聯(lián)系,有效處理數(shù)據(jù)并重新組織信息,智能體可以快速定位所需的記憶片段,從而提高響應(yīng)速度和準(zhǔn)確性。以下是幾種主要的操作方法:

文本摘要

數(shù)據(jù)結(jié)構(gòu)化

圖表征

矢量化

模型參數(shù)化

如何利用 LTM 實(shí)現(xiàn)模型自我進(jìn)化?

獲得高質(zhì)量的 LTM 數(shù)據(jù)后,下一個(gè)挑戰(zhàn)是如何利用它來增強(qiáng)模型能力并實(shí)現(xiàn)模型的自我進(jìn)化。在使用 LTM 數(shù)據(jù)以最大限度地提高其有效性和效率的過程中需要解決幾個(gè)關(guān)鍵挑戰(zhàn),包括:

適應(yīng)持續(xù)更新的 LTM 數(shù)據(jù)。隨著用戶 LTM 數(shù)據(jù)的不斷積累,模型必須在學(xué)習(xí)新信息和保留先前獲取的知識(shí)之間取得平衡。傳統(tǒng)模型通常假設(shè)穩(wěn)定的數(shù)據(jù)分布,但在實(shí)際場(chǎng)景中,新的 LTM 數(shù)據(jù)可能與早期模式顯著背離,導(dǎo)致過擬合或?yàn)?zāi)難性遺忘等風(fēng)險(xiǎn)。有效處理這些變化對(duì)于適應(yīng)動(dòng)態(tài) LTM 數(shù)據(jù)至關(guān)重要。

實(shí)時(shí)學(xué)習(xí)和高效反饋集成。由于 LTM 數(shù)據(jù)是動(dòng)態(tài)積累的,模型必須快速適應(yīng)用戶行為的實(shí)時(shí)變化。新數(shù)據(jù)的快速集成對(duì)于智能助手等應(yīng)用程序至關(guān)重要,其中無縫的用戶交互是關(guān)鍵。此外,在完善基礎(chǔ)模型時(shí),應(yīng)考慮隱式(例如點(diǎn)擊次數(shù)或花費(fèi)的時(shí)間)和顯式的用戶反潰實(shí)時(shí)結(jié)合這兩種類型的反饋使模型能夠不斷改進(jìn)并滿足個(gè)人用戶的需求。

處理數(shù)據(jù)稀疏性和用戶多樣性。數(shù)據(jù)稀疏是持續(xù)更新的 LTM 系統(tǒng)中一個(gè)常見的問題,特別是對(duì)于交互歷史有限或零星活動(dòng)的用戶來說,這使得訓(xùn)練模型變得困難。此外,用戶多樣性也會(huì)進(jìn)一步增加復(fù)雜性,要求模型適應(yīng)個(gè)體模式,同時(shí)仍然有效地推廣到不同的用戶組。

整合長(zhǎng)期記憶,AI實(shí)現(xiàn)自我進(jìn)化,探索大模型這一可能性

以清華大學(xué)團(tuán)隊(duì)的 Agent Hospital(智能體醫(yī)院)作為案例,該團(tuán)隊(duì)展示了如何在這個(gè)模擬醫(yī)療場(chǎng)景中用 LTM 來提升模型的能力,其中包括醫(yī)療記錄積累、醫(yī)療經(jīng)驗(yàn)反思和基于 RAG 利用 LTM。詳見原論文。

基于 LTM 實(shí)現(xiàn)模型自我進(jìn)化的實(shí)踐

獲取 LTM 數(shù)據(jù)

為了提升模型保留和訪問 LTM 數(shù)據(jù)的能力,該團(tuán)隊(duì)全面研究了各種方法,其中包括:

如何收集真實(shí)世界的 LTM 數(shù)據(jù)。

如何獲取合成的 LTM 數(shù)據(jù),其中包括用真實(shí)數(shù)據(jù)提升合成 LTM 數(shù)據(jù)的生成過程、使用思維鏈增強(qiáng)合成 LTM 數(shù)據(jù)的生成過程、生成訓(xùn)練數(shù)據(jù)和評(píng)估數(shù)據(jù)等多個(gè)方面。

如何使用 LTM 數(shù)據(jù),該團(tuán)隊(duì)介紹了通過 SFT 和 RAG 使用 LTM、將 LTM 用于醫(yī)療領(lǐng)域的智能體自我評(píng)估、通過記憶系統(tǒng)來使用 LTM、通過實(shí)時(shí)權(quán)重更新來使用 LTM。

這其中包含一些實(shí)驗(yàn)評(píng)估和例證,詳見原論文。這里我們來重點(diǎn)看看他們開發(fā)的基于 LTM 的多智能體框架。

基于 LTM 的多智能體框架

該團(tuán)隊(duì)提出一個(gè)基于 LTM 的多智能體框架 Omne。

Omne 是基于 AutoGen MultiAgent Framework 深度定制的開發(fā)框架,專門用于解決 LTM 在 AI 系統(tǒng)中的實(shí)際應(yīng)用難題。

它擴(kuò)展了一系列與記憶相關(guān)的基礎(chǔ)設(shè)施,包括統(tǒng)一的記憶模型、多模態(tài)消息處理系統(tǒng)以及靈活的記憶存儲(chǔ)和操作機(jī)制。Omne 的核心模塊(Omne Core)如下圖所示:

整合長(zhǎng)期記憶,AI實(shí)現(xiàn)自我進(jìn)化,探索大模型這一可能性

Omne 的核心目標(biāo)是提供一套全面的解決方案,使 LTM 能夠在實(shí)際工程項(xiàng)目中有效部署,從而增強(qiáng) AI 系統(tǒng)的長(zhǎng)期記憶能力和任務(wù)處理效率。

基于 Omne Core,該團(tuán)隊(duì)還構(gòu)建了一個(gè) Omne Assistant。

Omne Assistant 的設(shè)計(jì)目標(biāo)是幫助開發(fā)聊天場(chǎng)景中的 AI 助手,其提供了一個(gè)現(xiàn)成的應(yīng)用層框架。它包括 AI 助手所需的基本功能,使開發(fā)人員無需從頭開始設(shè)計(jì)基礎(chǔ)組件,就能快速構(gòu)建功能齊全的聊天機(jī)器人。

Omne Assistant 帶有一個(gè) Simple Responder,這是一個(gè)通用的問答響應(yīng)器,可以處理基本的用戶聊天交互以實(shí)現(xiàn)即時(shí)通信。此外,該框架還提供了一個(gè) Reactive Responder,它具有高級(jí)任務(wù)分析和規(guī)劃功能,使其能夠管理需要多步驟推理和任務(wù)編排的更復(fù)雜的用戶請(qǐng)求。

整合長(zhǎng)期記憶,AI實(shí)現(xiàn)自我進(jìn)化,探索大模型這一可能性

借助這些內(nèi)置組件,Omne Assistant 可讓開發(fā)人員專注于實(shí)現(xiàn)自己的功能,從而更快地開發(fā)和部署配備長(zhǎng)期記憶功能的 AI 助手應(yīng)用。

在 GAIA 基準(zhǔn)(包含 400 多個(gè)問答任務(wù)的通用 AI 助手測(cè)試集)上,該團(tuán)隊(duì)對(duì) Omne 框架進(jìn)行了評(píng)估。

為了探索 AI 的邊界,他們?cè)?Omne 框架中使用了當(dāng)今最強(qiáng)大的 GPT-4o 和 o1-preview 模型,同時(shí)配備了 4 個(gè)工具:網(wǎng)絡(luò)瀏覽、Bing 搜索引擎、基于 llamaparse 的文件讀取器,一個(gè)使用 o1-preview 構(gòu)建的邏輯專家。

基于這 2 個(gè)基礎(chǔ)模型和 4 個(gè)工具,Omne 在測(cè)試集和驗(yàn)證集上分別取得了第一名(40.53%)和第二名(46.06%)的成績(jī)。

整合長(zhǎng)期記憶,AI實(shí)現(xiàn)自我進(jìn)化,探索大模型這一可能性

值得注意的是,Omne 在最復(fù)雜、要求最高的 3 級(jí)問題上達(dá)到了 26.53% 的準(zhǔn)確率。這證明了其通過利用強(qiáng)大的基礎(chǔ)模型(尤其是具有強(qiáng)大推理和邏輯能力的模型)解決現(xiàn)實(shí)問題的潛力。

未來計(jì)劃

該團(tuán)隊(duì)并不打算止步于此,他們已經(jīng)制定了未來研究的計(jì)劃,方向包括:

1. 如何更好地構(gòu)建 LTM 數(shù)據(jù)?

2. 如何為 LTM 設(shè)計(jì)新的模型架構(gòu)?

3. LTM 如何幫助用戶提出更好的問題?

4. 如何將 LTM 與推理時(shí)間搜索相結(jié)合?

5. 如何在復(fù)雜場(chǎng)景中使用 LTM 實(shí)現(xiàn)智能體自我進(jìn)化?

6. 如何在多智能體場(chǎng)景中使用 LTM?

贊助本站

相關(guān)內(nèi)容
AiLab云推薦
推薦內(nèi)容
展開

熱門欄目HotCates

Copyright © 2010-2024 AiLab Team. 人工智能實(shí)驗(yàn)室 版權(quán)所有    關(guān)于我們 | 聯(lián)系我們 | 廣告服務(wù) | 公司動(dòng)態(tài) | 免責(zé)聲明 | 隱私條款 | 工作機(jī)會(huì) | 展會(huì)港