當(dāng)前位置：人工智能實(shí)驗(yàn)室> 自然語言處理 > 復(fù)旦NLP團(tuán)隊(duì)發(fā)布80頁大模型Agent綜述，一文縱覽AI智能體的現(xiàn)狀與未來

復(fù)旦NLP團(tuán)隊(duì)發(fā)布80頁大模型Agent綜述，一文縱覽AI智能體的現(xiàn)狀與未來
來源：互聯(lián)網(wǎng) 發(fā)布日期：2023-09-19 12:22:21 瀏覽：12242次

導(dǎo)讀：機(jī)器之心專欄機(jī)器之心編輯部智能體會(huì)成為打開 AGI 之門的鑰匙嗎？復(fù)旦 NLP 團(tuán)隊(duì)全面探討 LLM-based Agents。近期，復(fù)旦大學(xué)自然語言處理團(tuán)隊(duì)（FudanNLP）推出 LLM-based Agents 綜述論文，全文長達(dá) 86 頁，共有 600 余篇參考文獻(xiàn)！作者們從 AI Agent 的歷...

機(jī)器之心專欄

機(jī)器之心編輯部

智能體會(huì)成為打開 AGI 之門的鑰匙嗎？復(fù)旦 NLP 團(tuán)隊(duì)全面探討 LLM-based Agents。

近期，復(fù)旦大學(xué)自然語言處理團(tuán)隊(duì)（FudanNLP）推出 LLM-based Agents 綜述論文，全文長達(dá) 86 頁，共有 600 余篇參考文獻(xiàn)！作者們從 AI Agent 的歷史出發(fā)，全面梳理了基于大型語言模型的智能代理現(xiàn)狀，包括：LLM-based Agent 的背景、構(gòu)成、應(yīng)用場景、以及備受關(guān)注的代理社會(huì)。同時(shí)，作者們探討了 Agent 相關(guān)的前瞻開放問題，對于相關(guān)領(lǐng)域的未來發(fā)展趨勢具有重要價(jià)值。

論文鏈接：https://arxiv.org/pdf/2309.07864.pdf

LLM-based Agent 論文列表：https://github.com/WooooDyy/LLM-Agent-Paper-List

研究背景

長期以來，研究者們一直在追求與人類相當(dāng)、乃至超越人類水平的通用人工智能（Artificial General Intelligence，AGI）。早在 1950 年代，Alan Turing 就將「智能」的概念擴(kuò)展到了人工實(shí)體，并提出了著名的圖靈測試。這些人工智能實(shí)體通常被稱為代理（Agent*）�！复怼惯@一概念起源于哲學(xué)，描述了一種擁有欲望、信念、意圖以及采取行動(dòng)能力的實(shí)體。在人工智能領(lǐng)域，這一術(shù)語被賦予了一層新的含義：具有自主性、反應(yīng)性、積極性和社交能力特征的智能實(shí)體。

*Agent 術(shù)語的中文譯名并未形成共識(shí)，有學(xué)者將其翻譯為智能體、行為體、代理或智能代理，本文中出現(xiàn)的「代理」和「智能代理」均指代 Agent。

從那時(shí)起，代理的設(shè)計(jì)就成為人工智能社區(qū)的焦點(diǎn)。然而，過去的工作主要集中在增強(qiáng)代理的特定能力，如符號(hào)推理或?qū)μ囟ㄈ蝿?wù)的掌握（國際象棋、圍棋等）。這些研究更加注重算法設(shè)計(jì)和訓(xùn)練策略，而忽視了模型固有的通用能力的發(fā)展，如知識(shí)記憶、長期規(guī)劃、有效泛化和高效互動(dòng)等。事實(shí)證明，增強(qiáng)模型固有能力是推動(dòng)智能代理進(jìn)一步發(fā)展的關(guān)鍵因素。

大型語言模型（LLMs）的出現(xiàn)為智能代理的進(jìn)一步發(fā)展帶來了希望。如果將 NLP 到 AGI 的發(fā)展路線分為五級：語料庫、互聯(lián)網(wǎng)、感知、具身和社會(huì)屬性，那么目前的大型語言模型已經(jīng)來到了第二級，具有互聯(lián)網(wǎng)規(guī)模的文本輸入和輸出。在這個(gè)基礎(chǔ)上，如果賦予 LLM-based Agents 感知空間和行動(dòng)空間，它們將達(dá)到第三、第四級。進(jìn)一步地，多個(gè)代理通過互動(dòng)、合作解決更復(fù)雜的任務(wù)，或者反映出現(xiàn)實(shí)世界的社會(huì)行為，則有潛力來到第五級代理社會(huì)。

作者們設(shè)想的一個(gè)由智能代理構(gòu)成的和諧社會(huì)，人類也可以參與其中。場景取材自《原神》中的海燈節(jié)。

一個(gè) Agent 的誕生

擁有大模型加持的智能代理會(huì)是什么樣？作者們受到達(dá)爾文「適者生存」法則的啟發(fā)，提出了基于大模型的智能代理通用框架。一個(gè)人如果想要在社會(huì)中生存，就必須學(xué)會(huì)適應(yīng)環(huán)境，因此需要具有認(rèn)知能力，并且能夠感知、應(yīng)對外界的變化。同樣，智能代理的框架也由三個(gè)部分組成：控制端（Brain）、感知端（Perception）和行動(dòng)端（Action）。

控制端：通常由 LLMs 構(gòu)成，是智能代理的核心。它不僅可以存儲(chǔ)記憶和知識(shí)，還承擔(dān)著信息處理、決策等不可或缺的功能。它可以呈現(xiàn)推理和計(jì)劃的過程，并很好地應(yīng)對未知任務(wù)，反映出智能代理的泛化性和遷移性。

感知端：將智能代理的感知空間從純文本拓展到包括文本、視覺和聽覺等多模態(tài)領(lǐng)域，使代理能夠更有效地從周圍環(huán)境中獲取與利用信息。

行動(dòng)端：除了常規(guī)的文本輸出，還賦予代理具身能力、使用工具的能力，使其能夠更好地適應(yīng)環(huán)境變化，通過反饋與環(huán)境交互，甚至能夠塑造環(huán)境。

LLM-based Agent 的概念框架，包含三個(gè)組成部分：控制端（Brain）、感知端（Perception）和行動(dòng)端（Action）。

作者們用一個(gè)例子來說明來了 LLM-based Agent 的工作流程：當(dāng)人類詢問是否會(huì)下雨時(shí)，感知端（Perception）將指令轉(zhuǎn)換為 LLMs 可以理解的表示。然后控制端（Brain）開始根據(jù)當(dāng)前天氣和互聯(lián)網(wǎng)上的天氣預(yù)報(bào)進(jìn)行推理和行動(dòng)規(guī)劃。最后，行動(dòng)端（Action）做出響應(yīng)并將雨傘遞給人類。

通過重復(fù)上述過程，智能代理可以不斷獲得反饋并與環(huán)境交互。

控制端：Brain

控制端作為智能代理最核心的組成成分，作者們從五個(gè)方面展開介紹其能力：

自然語言交互：語言是溝通的媒介，其中包含著豐富的信息。得益于 LLMs 強(qiáng)大的自然語言生成和理解能力，智能代理能夠通過自然語言與外界進(jìn)行多輪交互，進(jìn)而實(shí)現(xiàn)目標(biāo)。具體而言，可以分為兩個(gè)方面：

高質(zhì)量文本生成：大量評估實(shí)驗(yàn)表明，LLMs 能夠生成流暢、多樣、新穎、可控的文本。盡管在個(gè)別語言上表現(xiàn)欠佳，但整體上具備良好的多語言能力。

言外之意的理解：除了直觀表現(xiàn)出的內(nèi)容，語言背后可能還傳遞了說話者的意圖、偏好等信息。言外之意有助于代理更高效地溝通與合作，大模型已經(jīng)展現(xiàn)出了這方面的潛力。

知識(shí)：基于大批量語料訓(xùn)練的 LLMs，擁有了存儲(chǔ)海量知識(shí)（Knowledge）的能力。除了語言知識(shí)以外，常識(shí)知識(shí)和專業(yè)技能知識(shí)都是 LLM-based Agents 的重要組成部分。

雖然 LLMs 其本身仍然存在知識(shí)過期、幻覺等問題，現(xiàn)有的一些研究通過知識(shí)編輯或調(diào)用外部知識(shí)庫等方法，可以在一定程度上得到緩解。

記憶：在本文框架中，記憶模塊（Memory）儲(chǔ)存了代理過往的觀察、思考和行動(dòng)序列。通過特定的記憶機(jī)制，代理可以有效地反思并應(yīng)用先前的策略，使其借鑒過去的經(jīng)驗(yàn)來適應(yīng)陌生的環(huán)境。

通常用于提升記憶能力的方法有三種：

擴(kuò)展 Backbone 架構(gòu)的長度限制：針對 Transformers 固有的序列長度限制問題進(jìn)行改進(jìn)。

總結(jié)記憶（Summarizing）：對記憶進(jìn)行摘要總結(jié)，增強(qiáng)代理從記憶中提取關(guān)鍵細(xì)節(jié)的能力。

壓縮記憶（Compressing）：通過使用向量或適當(dāng)?shù)臄?shù)據(jù)結(jié)構(gòu)對記憶進(jìn)行壓縮，可以提高記憶檢索效率。

此外，記憶的檢索方法也很重要，只有檢索到合適的內(nèi)容，代理才能夠訪問到最相關(guān)和準(zhǔn)確的信息。

推理 & 規(guī)劃：推理能力（Reasoning）對于智能代理進(jìn)行決策、分析等復(fù)雜任務(wù)而言至關(guān)重要。具體到 LLMs 上，就是以思維鏈（Chain-of-Thought，CoT）為代表的一系列提示方法。而規(guī)劃（Planning）則是面對大型挑戰(zhàn)時(shí)常用的策略。它幫助代理組織思維、設(shè)定目標(biāo)并確定實(shí)現(xiàn)這些目標(biāo)的步驟。在具體實(shí)現(xiàn)中，規(guī)劃可以包含兩個(gè)步驟：

計(jì)劃制定（Plan Formulation）：代理將復(fù)雜任務(wù)分解為更易于管理的子任務(wù)。例如：一次性分解再按順序執(zhí)行、逐步規(guī)劃并執(zhí)行、多路規(guī)劃并選取最優(yōu)路徑等。在一些需要專業(yè)知識(shí)的場景中，代理可與特定領(lǐng)域的 Planner 模塊集成，提升能力。

計(jì)劃反思（Plan Reflection）：在制定計(jì)劃后，可以進(jìn)行反思并評估其優(yōu)劣。這種反思一般來自三個(gè)方面：借助內(nèi)部反饋機(jī)制；與人類互動(dòng)獲得反饋；從環(huán)境中獲得反潰

遷移性 & 泛化性：擁有世界知識(shí)的 LLMs 賦予智能代理具備強(qiáng)大的遷移與泛化能力。一個(gè)好的代理不是靜態(tài)的知識(shí)庫，還應(yīng)具備動(dòng)態(tài)的學(xué)習(xí)能力：

對未知任務(wù)的泛化：隨著模型規(guī)模與訓(xùn)練數(shù)據(jù)的增大，LLMs 在解決未知任務(wù)上涌現(xiàn)出了驚人的能力。通過指令微調(diào)的大模型在 zero-shot 測試中表現(xiàn)良好，在許多任務(wù)上都取得了不亞于專家模型的成績。

情景學(xué)習(xí)（In-context Learning）：大模型不僅能夠從上下文的少量示例中進(jìn)行類比學(xué)習(xí)，這種能力還可以擴(kuò)展到文本以外的多模態(tài)場景，為代理在現(xiàn)實(shí)世界中的應(yīng)用提供了更多可能性。

持續(xù)學(xué)習(xí)（Continual Learning）：持續(xù)學(xué)習(xí)的主要挑戰(zhàn)是災(zāi)難性遺忘，即當(dāng)模型學(xué)習(xí)新任務(wù)時(shí)容易丟失過往任務(wù)中的知識(shí)。專有領(lǐng)域的智能代理應(yīng)當(dāng)盡量避免丟失通用領(lǐng)域的知識(shí)。

感知端：Perception

人類通過多模態(tài)的方式感知世界，所以研究者們對 LLM-based Agents 抱有同樣的期待。多模態(tài)感知能加深代理對工作環(huán)境的理解，顯著提升了其通用性。

文本輸入：作為 LLMs 最基礎(chǔ)的能力，這里不再贅述。

視覺輸入：LLMs 本身并不具備視覺的感知能力，只能理解離散的文本內(nèi)容。而視覺輸入通常包含有關(guān)世界的大量信息，包括對象的屬性，空間關(guān)系，場景布局等等。常見的方法有：

將視覺輸入轉(zhuǎn)為對應(yīng)的文本描述（Image Captioning）：可以被 LLMs 直接理解，并且可解釋性高。

對視覺信息進(jìn)行編碼表示：以視覺基礎(chǔ)模型 + LLMs 的范式來構(gòu)成感知模塊，通過對齊操作來讓模型理解不同模態(tài)的內(nèi)容，可以端到端的方式進(jìn)行訓(xùn)練。

聽覺輸入：聽覺也是人類感知中的重要組成部分。由于 LLMs 有著優(yōu)秀的工具調(diào)用能力，一個(gè)直觀的想法就是：代理可以將 LLMs 作為控制樞紐，通過級聯(lián)的方式調(diào)用現(xiàn)有的工具集或者專家模型，感知音頻信息。此外，音頻也可以通過頻譜圖（Spectrogram）的方式進(jìn)行直觀表示。頻譜圖可以作為平面圖像來展示 2D 信息，因此，一些視覺的處理方法可以遷移到語音領(lǐng)域。

其他輸入：現(xiàn)實(shí)世界中的信息遠(yuǎn)不止文本、視覺和聽覺。作者們希望在未來，智能代理能配備更豐富的感知模塊，例如觸覺、嗅覺等器官，用于獲取目標(biāo)物體更加豐富的屬性。同時(shí)，代理也能對周圍環(huán)境的溫度、濕度和明暗程度有清楚的感受，采取更 Environment-aware 的行動(dòng)。

此外，還可以為代理引入對更廣闊的整體環(huán)境的感知：采用激光雷達(dá)、GPS、慣性測量單元等成熟的感知模塊。

行動(dòng)端：Action

在大腦做出分析、決策后，代理還需要做出行動(dòng)以適應(yīng)或改變環(huán)境：

文本輸出：作為 LLMs 最基礎(chǔ)的能力，這里不再贅述。

工具使用：盡管 LLMs 擁有出色的知識(shí)儲(chǔ)備和專業(yè)能力，但在面對具體問題時(shí)，也可能會(huì)出現(xiàn)魯棒性問題、幻覺等一系列挑戰(zhàn)。與此同時(shí)，工具作為使用者能力的擴(kuò)展，可以在專業(yè)性、事實(shí)性、可解釋性等方面提供幫助。例如，可以通過使用計(jì)算器來計(jì)算數(shù)學(xué)問題、使用搜索引擎來搜尋實(shí)時(shí)信息。

另外，工具也可以擴(kuò)展智能代理的行動(dòng)空間。例如，通過調(diào)用語音生成、圖像生成等專家模型，來獲得多模態(tài)的行動(dòng)方式。因此，如何讓代理成為優(yōu)秀的工具使用者，即學(xué)會(huì)如何有效地利用工具，是非常重要且有前景的方向。

目前，主要的工具學(xué)習(xí)方法包括從演示中學(xué)習(xí)和從反饋中學(xué)習(xí)。此外，也可以通過元學(xué)習(xí)、課程學(xué)習(xí)等方式來讓代理程序在使用各種工具方面具備泛化能力。更進(jìn)一步，智能代理還可以進(jìn)一步學(xué)習(xí)如何「自給自足」地制造工具，從而提高其自主性和獨(dú)立性。

具身行動(dòng)：具身（Embodyment）是指代理與環(huán)境交互過程中，理解、改造環(huán)境并更新自身狀態(tài)的能力。具身行動(dòng)（Embodied Action）被視為虛擬智能與物理現(xiàn)實(shí)的互通橋梁。

傳統(tǒng)的基于強(qiáng)化學(xué)習(xí)的 Agent 在樣本效率、泛化性和復(fù)雜問題推理等方面存在局限性，而 LLM-based Agents 通過引入大模型豐富的內(nèi)在知識(shí)，使得 Embodied Agent 能夠像人類一樣主動(dòng)感知、影響物理環(huán)境。根據(jù)代理在任務(wù)中的自主程度或者說 Action 的復(fù)雜程度，可以有以下的原子 Action：

Observation 可以幫助智能代理在環(huán)境中定位自身位置、感知對象物品和獲取其他環(huán)境信息；

Manipulation 則是完成一些具體的抓娶推動(dòng)等操作任務(wù)；

Navigation 要求智能代理根據(jù)任務(wù)目標(biāo)變換自身位置并根據(jù)環(huán)境信息更新自身狀態(tài)。

通過組合這些原子行動(dòng)，代理可以完成更為復(fù)雜的任務(wù)。例如「廚房的西瓜比碗大嗎？」這類具身的 QA 任務(wù)。為了解決這個(gè)問題，代理需要導(dǎo)航到廚房，并在觀察二者的大小后得出答案。

受限于物理世界硬件的高成本和具身數(shù)據(jù)集缺乏等問題，目前具身行動(dòng)的研究仍主要集中于游戲平臺(tái)《我的世界》等虛擬沙盒環(huán)境中。因此，一方面作者們期待有一種更貼近現(xiàn)實(shí)的任務(wù)范式和評價(jià)標(biāo)準(zhǔn)，另一方面，也需要大家在高效構(gòu)建相關(guān)數(shù)據(jù)集上面有更多的探索。

Agent in Practice：多樣化的應(yīng)用場景

當(dāng)下，LLM-based Agents 已經(jīng)展現(xiàn)出了令人矚目的多樣性和強(qiáng)大性能。AutoGPT、MetaGPT、CAMEL 以及 GPT Engineer 等耳熟能詳?shù)膽?yīng)用實(shí)例正在以前所未有的速度蓬勃發(fā)展。

在介紹的具體的應(yīng)用之前，作者們討論了 Agent in Practice 的設(shè)計(jì)原則：

1. 幫助用戶從日常任務(wù)、重復(fù)勞動(dòng)中解脫出來，減輕人類的工作壓力，提高解決任務(wù)的效率；

2. 不再需要用戶提出顯式的低級指令，就可以完全自主的分析、規(guī)劃、解決問題；

3. 在解放用戶的雙手以后，嘗試解放大腦：在前沿科學(xué)領(lǐng)域充分發(fā)揮潛能，完成創(chuàng)新性的、探索性的工作。

在這個(gè)基礎(chǔ)上，代理的應(yīng)用可以有三種范式：

LLM-based Agent 的三種應(yīng)用范式：單代理、多代理、人機(jī)交互。

單代理場景

可以接受人類自然語言命令，執(zhí)行日常任務(wù)的智能代理目前備受用戶青睞，具有很高的現(xiàn)實(shí)使用價(jià)值。作者們首先在單智能代理的應(yīng)用場景中，闡述了其多樣化的應(yīng)用場景與對應(yīng)能力。

在本文中，單智能代理的應(yīng)用被劃分為如下三個(gè)層次：

單代理應(yīng)用場景的三個(gè)層次：任務(wù)導(dǎo)向、創(chuàng)新導(dǎo)向、生命周期導(dǎo)向。

在任務(wù)導(dǎo)向的部署中，代理幫助人類用戶處理日�；救蝿�(wù)。它們需要具備基本的指令理解、任務(wù)分解、與環(huán)境交互的能力。具體來說，根據(jù)現(xiàn)有的任務(wù)類型，代理的實(shí)際應(yīng)用又可以分為模擬網(wǎng)絡(luò)環(huán)境與模擬生活場景。

在創(chuàng)新導(dǎo)向的部署中，代理能夠在前沿科學(xué)領(lǐng)域展現(xiàn)出自主探究的潛力。雖然來自專業(yè)領(lǐng)域的固有復(fù)雜性和訓(xùn)練數(shù)據(jù)的缺乏給智能代理的構(gòu)建帶來了阻礙，但目前已經(jīng)有許多工作在化學(xué)、材料、計(jì)算機(jī)等領(lǐng)域取得了進(jìn)展。

在生命周期導(dǎo)向的部署中，代理具備在一個(gè)開放世界中不斷探索、學(xué)習(xí)和使用新技能，并長久生存的能力。在本節(jié)中，作者們以《我的世界》游戲?yàn)槔归_介紹。由于游戲中的生存挑戰(zhàn)可以被認(rèn)為是現(xiàn)實(shí)世界的一個(gè)縮影，已經(jīng)有許多研究者將其作為開發(fā)和測試代理綜合能力的獨(dú)特平臺(tái)。

多代理場景

早在 1986 年，Marvin Minsky 就做出了具有前瞻性的預(yù)言。他在《心智社會(huì)》（The Society of Mind）一書中提出了一種新穎的智力理論，認(rèn)為智力是在許多較小的、特定功能的代理的相互作用中產(chǎn)生的。例如，一些代理可能負(fù)責(zé)識(shí)別模式，而其他代理可能負(fù)責(zé)做出決策或生成解決方案。

這一想法隨著分布式人工智能的興起得到了具體實(shí)踐。多代理系統(tǒng)（Multi-Agent System）作為其中主要的研究問題之一，主要關(guān)注代理們?nèi)绾斡行У貐f(xié)調(diào)并協(xié)作解決問題。本文作者將多代理之間的交互劃分為以下兩種形式：

多代理應(yīng)用場景的兩種交互形式：合作型互動(dòng)、對抗型互動(dòng)。

合作型互動(dòng)：作為實(shí)際應(yīng)用中部署最為廣泛的類型，合作型的代理系統(tǒng)可以有效提高任務(wù)效率、共同改進(jìn)決策。具體來說，根據(jù)合作形式的不同，作者們又將合作型互動(dòng)細(xì)分為無序合作與有序合作。

當(dāng)所有代理自由地表達(dá)自己的觀點(diǎn)、看法，以一種沒有順序的方式進(jìn)行合作時(shí)，稱為無序合作。

當(dāng)所有代理遵循一定的規(guī)則，例如以流水線的形式逐一發(fā)表自己的觀點(diǎn)時(shí)，整個(gè)合作過程井然有序，稱為有序合作。

對抗型互動(dòng)：智能代理以一種針鋒相對（tit for tat）的方式進(jìn)行互動(dòng)。通過競爭、談判、辯論的形式，代理拋棄原先可能錯(cuò)誤的信念，對自己的行為或者推理過程進(jìn)行有意義的反思，最終帶來整個(gè)系統(tǒng)響應(yīng)質(zhì)量的提升。

人機(jī)交互場景

人機(jī)交互（Human-Agent Interaction），顧名思義，是智能代理通過與人類交互，合作完成任務(wù)。一方面，代理的動(dòng)態(tài)學(xué)習(xí)能力需要溝通交流來支持；另一方面，目前的代理系統(tǒng)在可解釋性上的表現(xiàn)依然不足，可能會(huì)存在安全性、合法性等方面的問題，因此需要人類參與進(jìn)行規(guī)范與監(jiān)督。

作者們在論文中將 Human-Agent 的交互劃分為以下兩種模式：

人機(jī)交互場景的的兩種模式：Instructor-Executor 模式 vs. Equal Partnership 模式。

Instructor-Executor 模式：人類作為指導(dǎo)者，給出指令、反饋意見；而代理作為執(zhí)行者，依據(jù)指示逐步調(diào)整、優(yōu)化。這種模式在教育、醫(yī)療、商業(yè)等領(lǐng)域得到了廣泛的應(yīng)用。

Equal Partnership 模式：有研究觀察到代理能夠在與人類的交流中表現(xiàn)出共情能力，或是以平等的身份參與到任務(wù)執(zhí)行中。智能代理展現(xiàn)出在日常生活中的應(yīng)用潛力，有望在未來融入人類社會(huì)。

Agent 社會(huì)：從個(gè)性到社會(huì)性

長期以來，研究人員一直憧憬著構(gòu)建「交互式的人工社會(huì)」，從沙盒游戲《模擬人生》到「元宇宙」，人們對模擬社會(huì)的定義可以概述為：環(huán)境 + 環(huán)境中生存、互動(dòng)的個(gè)體。

在文章中，作者們用一張圖描述了 Agent 社會(huì)的概念框架：

代理社會(huì)的概念框架，分為兩個(gè)關(guān)鍵部分：代理和環(huán)境。

該框架中，我們可以看到：

左側(cè)部分：在個(gè)體層面上，代理表現(xiàn)出多種內(nèi)化行為，例如計(jì)劃、推理和反思。此外，代理還顯現(xiàn)出內(nèi)在的人格特征，涵蓋認(rèn)知、情感和性格三個(gè)方面。

中間部分：單個(gè)代理可以與其他代理個(gè)體組成群體，共同展現(xiàn)出合作等群體行為，例如協(xié)同合作等。

右側(cè)部分：環(huán)境的形式可以是虛擬的沙盒環(huán)境，也可以是真實(shí)的物理世界。環(huán)境中的要素包括了人類參與者和各類可用資源。對于單個(gè)代理而言，其他代理也屬于環(huán)境的一部分。

整體互動(dòng)：代理們通過感知外界環(huán)境、采取行動(dòng)，積極參與整個(gè)交互過程。

代理的社會(huì)行為與人格

文章從外在行為和內(nèi)在人格來審視了代理在社會(huì)中的表現(xiàn)：

社會(huì)行為：從社會(huì)的角度出發(fā)，可以將行為分為個(gè)體和集體兩個(gè)層次：

個(gè)體行為構(gòu)成了代理自身運(yùn)作和發(fā)展的基矗包括以感知為代表的輸入、行動(dòng)為代表的輸出，以及代理自身的內(nèi)化行為。

群體行為是指兩個(gè)以上代理自發(fā)交互時(shí)產(chǎn)生的行為。包括以協(xié)作為代表的積極行為、沖突為代表的消極行為，以及從眾、旁觀等中立行為。

人格：包括認(rèn)知、情感和性格。就像人類在社會(huì)化過程中逐漸形成自己的特質(zhì)一樣，代理也展現(xiàn)了所謂的 "類人智能"，即通過與群體和環(huán)境的互動(dòng)中逐漸塑造人格。

認(rèn)知（Cognitive abilities）：涵蓋了代理獲取和理解知識(shí)的過程，研究表明，基于 LLM 的代理在某些方面能夠表現(xiàn)出類似于人類的深思熟慮和智力水平。

情感（Emotional intelligence）：涉及主觀感受和情緒狀態(tài)，如喜怒哀樂，以及表現(xiàn)出同情和共情的能力。

性格（Character portrayal）：為了理解和分析 LLMs 的性格特征，研究人員利用了成熟的評測方式，如大五人格、MBTI 測試，以探究性格的多樣性和復(fù)雜性。

模擬社會(huì)的運(yùn)行環(huán)境

代理社會(huì)不僅由獨(dú)立的個(gè)體構(gòu)成，還包括了與其交互的環(huán)境。環(huán)境對代理的感知、行動(dòng)和互動(dòng)產(chǎn)生影響。反過來，代理也通過他們的行為和決策也改變著環(huán)境的狀態(tài)。對于單個(gè)代理而言，環(huán)境包括其他自主代理、人類以及可使用的資源。

在此，作者探討了環(huán)境的三種類型：

基于文本的環(huán)境：由于 LLMs 主要依賴語言作為其輸入和輸出格式，因此基于文本的環(huán)境是代理最自然的操作平臺(tái)。通過文字的方式來描述社會(huì)現(xiàn)象和互動(dòng)，文本環(huán)境提供了語義和背景知識(shí)。代理存在于這樣的文本世界中，依賴文本資源來感知、推理和采取行動(dòng)。

虛擬沙盒環(huán)境：在計(jì)算機(jī)領(lǐng)域，沙盒是指一種可受控且隔離的環(huán)境，常用于進(jìn)行軟件測試和病毒分析。而代理社會(huì)的虛擬沙盒環(huán)境則是作為模擬社會(huì)互動(dòng)和行為仿真的平臺(tái)，其主要特點(diǎn)包括：

可視化：可以使用簡單的 2D 圖形界面乃至復(fù)雜的 3D 建模來展示世界，以一種直觀的方式刻畫模擬社會(huì)的方方面面。

可擴(kuò)展性：可以構(gòu)建和部署各種不同的場景（Web、游戲等）進(jìn)行各種實(shí)驗(yàn)，為代理提供了廣闊的探索空間。

真實(shí)的物理環(huán)境：物理環(huán)境是由實(shí)際物體和空間組成的有形環(huán)境，代理在其中進(jìn)行觀察和行動(dòng)。這種環(huán)境引入了豐富的感官輸入（視覺、聽覺和空間感）。與虛擬環(huán)境不同，物理空間對代理行為提出了更多的要求。即代理在物理環(huán)境中必須具備適應(yīng)性，生成可執(zhí)行的運(yùn)動(dòng)控制。

作者舉了一個(gè)例子來解釋物理環(huán)境的復(fù)雜性：想象智能代理在工廠里操作機(jī)械臂的情景，操作機(jī)械臂時(shí)需要精確控制力度，以避免損壞不同材質(zhì)的物體；此外，代理需要在物理工作空間中導(dǎo)航，及時(shí)調(diào)整移動(dòng)路徑，以規(guī)避障礙物并優(yōu)化機(jī)械臂的運(yùn)動(dòng)軌跡。

這些要求都增加了代理在物理環(huán)境中的復(fù)雜性和挑戰(zhàn)性。

模擬，啟動(dòng)！

在文章中，作者們認(rèn)為一個(gè)模擬社會(huì)應(yīng)該具有開放性、持久性、情境性和組織性。開放性允許代理自主地進(jìn)出模擬社會(huì)；持久性是指社會(huì)具有隨著時(shí)間的推移而發(fā)展的連貫軌跡；情境性強(qiáng)調(diào)主體在特定環(huán)境中的存在和運(yùn)作；組織性則確保模擬社會(huì)擁有類似物理世界的規(guī)則與限制。

至于模擬社會(huì)的意義，斯坦福大學(xué)的 Generative Agents 小鎮(zhèn)為大家提供了生動(dòng)的例子 Agent 社會(huì)可以用于探索群體智能的能力邊界，例如代理們共同籌辦了一場情人節(jié)派對；也可以用來加速社會(huì)科學(xué)的研究，例如通過模擬社交網(wǎng)絡(luò)來觀察傳播學(xué)現(xiàn)象。此外，還有研究通過模擬道德決策場景來探討代理背后的價(jià)值觀、通過模擬政策對社會(huì)的影響來輔助決策等。

進(jìn)一步地，作者指出這些模擬還可能存在一定風(fēng)險(xiǎn)，包括但不限于：有害社會(huì)現(xiàn)象；刻板印象和偏見；隱私安全問題；過度依賴與成癮性。

前瞻開放問題

在論文的最后，作者還討論了一些前瞻開放性問題，拋磚引玉，供讀者思考：

智能代理與大語言模型的研究該如何互相促進(jìn)、共同發(fā)展？大模型在語言理解、決策制定以及泛化能力等方面展現(xiàn)出強(qiáng)大的潛力，成為代理構(gòu)建過程中的關(guān)鍵角色，而代理的進(jìn)展也為大模型提出了更高的要求。

LLM-based Agents 會(huì)帶來哪些挑戰(zhàn)與隱憂？智能代理能否真正落地，需要經(jīng)過嚴(yán)謹(jǐn)?shù)陌踩栽u估，避免對真實(shí)世界帶來危害。作者總結(jié)了更多潛在威脅，例如：非法濫用、失業(yè)風(fēng)險(xiǎn)、對人類福祉造成影響等等。

代理數(shù)量的提升（scaling up）會(huì)帶來哪些機(jī)遇和挑戰(zhàn)？在模擬社會(huì)中，提升個(gè)體數(shù)量可以顯著提升模擬的可信度與真實(shí)性。然而，隨著代理數(shù)量的上升，通信與消息傳播問題會(huì)變得相當(dāng)復(fù)雜，信息的失真、誤解或者幻覺現(xiàn)象都會(huì)顯著降低整個(gè)模擬系統(tǒng)的效率。

網(wǎng)絡(luò)上關(guān)于 LLM-based Agent 是否是通向 AGI 的合適道路的爭論。有研究者認(rèn)為，以 GPT-4 為代表的大模型已經(jīng)在足夠的語料上進(jìn)行了訓(xùn)練，在此基礎(chǔ)上構(gòu)建的代理有潛力成為打開 AGI 之門的鑰匙。但也有其他研究者認(rèn)為，自回歸語言建模（Auto-regressive Language Modeling）并不能顯現(xiàn)出真正的智能，因?yàn)樗鼈冎皇亲鞒鲰憫?yīng)。一個(gè)更完備的建模方式，例如世界模型（World Model），才能通向 AGI。

群體智能的演化歷程。群體智能是一種集結(jié)眾人的意見進(jìn)而轉(zhuǎn)化為決策的過程。然而，一味通過增加代理的數(shù)量，是否會(huì)產(chǎn)生真正的「智能」？此外，如何協(xié)調(diào)單個(gè)代理，讓智能代理社會(huì)克服「團(tuán)體迷思」和個(gè)人認(rèn)知偏差？

代理即服務(wù)（Agent as a Service，AaaS）。由于 LLM-based Agents 比大模型本身更加復(fù)雜，中小型企業(yè)或個(gè)人更加難在本地構(gòu)建，因此云廠商可以考慮以服務(wù)的形式來將智能代理落地，即 Agent-as-a-Service。就像其他的云服務(wù)一樣，AaaS 有潛力為用戶提供高靈活性和按需的自助服務(wù)。