當(dāng)前位置：人工智能實(shí)驗(yàn)室> 機(jī)器學(xué)習(xí) > LLM＋模仿學(xué)習(xí)，解決真實(shí)世界中的復(fù)雜任務(wù)：AI2提出SwiftSage

LLM＋模仿學(xué)習(xí)，解決真實(shí)世界中的復(fù)雜任務(wù)：AI2提出SwiftSage
來源：互聯(lián)網(wǎng) 發(fā)布日期：2023-06-15 19:36:10 瀏覽：120439次

導(dǎo)讀：機(jī)器之心專欄機(jī)器之心編輯部 GPT-4 等大型語言模型（LLM）在許多推理任務(wù)上表現(xiàn)出色，然而，大部分現(xiàn)有研究僅關(guān)注靜態(tài)環(huán)境下的任務(wù)，如回答問題或解數(shù)學(xué)題。那么，LLM 能否在真實(shí)世界中完成復(fù)雜的交互式任務(wù)呢？例如，如果我們想制作一個(gè)智能體（agent），...

機(jī)器之心專欄

機(jī)器之心編輯部

GPT-4 等大型語言模型（LLM）在許多推理任務(wù)上表現(xiàn)出色，然而，大部分現(xiàn)有研究僅關(guān)注靜態(tài)環(huán)境下的任務(wù)，如回答問題或解數(shù)學(xué)題。那么，LLM 能否在真實(shí)世界中完成復(fù)雜的交互式任務(wù)呢？例如，如果我們想制作一個(gè)智能體（agent），讓它在物理世界里完成一些實(shí)驗(yàn)，比如測(cè)試一個(gè)物體是否導(dǎo)電，我們可以使用 LLM 嗎？這類復(fù)雜交互式任務(wù)（complex interactive tasks）具有很大的挑戰(zhàn)性，因?yàn)樗?LLM 不僅能理解動(dòng)態(tài)變化的真實(shí)場(chǎng)景，還需要具備諸如長期規(guī)劃（long-horion planning）、任務(wù)分解（task 的 composition）、記憶儲(chǔ)存（memorization）、常識(shí)推理（commonsense reasoning）、異常處理（exception handling）等高階認(rèn)知和推理能力。

面對(duì)這種情況，如何充分發(fā)揮 LLM 的規(guī)劃和推理能力，同時(shí)降低計(jì)算成本呢？認(rèn)知心理學(xué)名著《思考，快與慢》（Thinking, Fast and Slow）中介紹的雙過程理論（dual propcess theory）帶來了很多啟示。該理論認(rèn)為，人類認(rèn)知過程需要兩個(gè)密不可分的系統(tǒng)，其中 System 1 負(fù)責(zé)快速直覺式思考，而 System 2 則負(fù)責(zé)慢速分析式思考。

論文鏈接：https://arxiv.org/abs/2305.17390

項(xiàng)目網(wǎng)站：https://yuchenlin.xyz/swiftsage/

基于此，AI2 (Allen Institute for AI) 的研究人員提出了 SwiftSage 智能體框架。他們通過模仿學(xué)習(xí)得到一個(gè)小型模型，然后將其與 LLM 進(jìn)行融合。這樣，便可以利用大量數(shù)據(jù)對(duì)小型模型進(jìn)行微調(diào)，使其具備環(huán)境和任務(wù)相關(guān)的知識(shí)，并僅在需要時(shí)調(diào)用大型模型進(jìn)行高階推理。在 30 個(gè)任務(wù)上的評(píng)估中，SwiftSage 的表現(xiàn)超過了之前的 SayCan、ReAct 和 Relfexion 等方法近 2 倍，并且大幅降低了 LLM 部分的計(jì)算成本。

研究背景

以往的研究主要探索了三種方法來解決復(fù)雜的交互推理任務(wù)，傳統(tǒng)的一些智能體訓(xùn)練方法包括

1）強(qiáng)化學(xué)習(xí)（Reinforcement Learning）

將交互式推理任務(wù)建模為部分可觀察的馬爾可夫決策過程（Partial Observable Markov Decision Process, POMDP），智能體通過反復(fù)嘗試和學(xué)習(xí)最佳行動(dòng)策略。常見的方法有 DRRN， KG-A2C，CALM 等。

2）模仿學(xué)習(xí)（Imitation Learning）

將交互式推理任務(wù)建模為序列到序列（Seq2Seq）任務(wù)，將過去的行動(dòng)和當(dāng)前的環(huán)境觀察作為輸入，當(dāng)前的行動(dòng)作為輸出，智能體被訓(xùn)練以模仿人類或?qū)＜业男袨�。Text Decision Transformer 是這個(gè)方向的基準(zhǔn)方法。

3）利用大型語言模型（Large Language Model，簡稱 LLM）提示

隨著 LLM 的快速發(fā)展，尤其是 GPT-4 的出現(xiàn)，將 LLM 應(yīng)用于復(fù)雜的交互式推理任務(wù)取得了顯著的成果。除了通過傳統(tǒng)方法直接讓 LLM 根據(jù)過往行動(dòng)和當(dāng)前環(huán)境觀察生成行動(dòng)外，有研究通過直接調(diào)用 LLM 生成 action 候選池再結(jié)合環(huán)境重排序（SayCan），也有研究引入虛擬的 "think" 行動(dòng)來生成子目標(biāo)以實(shí)現(xiàn)更高效的行動(dòng)（ReAct），以及在任務(wù)失敗后利用 LLM 總結(jié)原因并生成反思以提高下一次嘗試的成功概率（Reflection）等多種方式。

雖然傳統(tǒng)方法在相對(duì)簡單的任務(wù)中表現(xiàn)優(yōu)異，但它們?cè)诟鼜?fù)雜和具有挑戰(zhàn)性的任務(wù)中的泛化能力受限。無論是基于強(qiáng)化學(xué)習(xí)的方法還是行為克�。˙ehavior Cloning），在將大目標(biāo)分解為多個(gè)子任務(wù)、實(shí)現(xiàn)長期記憶和處理環(huán)境中的未知異常（比如在導(dǎo)電性測(cè)試中找不到可以使用的燈泡）方面都面臨諸多挑戰(zhàn)。

相較之下，利用 LLM 進(jìn)行提示的方法展示出了在復(fù)雜任務(wù)中生成合理計(jì)劃和根據(jù)人類反饋進(jìn)行調(diào)整的能力，但同樣存在一些問題和局限性。其中一個(gè)主要挑戰(zhàn)是每次預(yù)測(cè)行動(dòng)都需要調(diào)用 LLM，導(dǎo)致整體推理效率低下且成本較高。此外，ReAct 和 Reflection 兩種方法還需要針對(duì)每種未知任務(wù)類型進(jìn)行適當(dāng)?shù)淖幽繕?biāo)人工標(biāo)注，否則在現(xiàn)實(shí)世界情境中的推廣可能會(huì)比較困難。而如何將 LLM 生成的計(jì)劃轉(zhuǎn)化為真實(shí)

SwiftSage：融合模仿學(xué)習(xí)與大模型規(guī)劃的全新框架

研究者受到人腦思維雙系統(tǒng)模型理論（Dual Process Theory）的啟發(fā)，提出一種全新的結(jié)合模仿學(xué)習(xí)和語言模型（LLM）方法的框架 SwiftSage。這一框架為真實(shí)世界中的復(fù)雜任務(wù)帶來了的突破性解決方案。

在認(rèn)知心理學(xué)領(lǐng)域，人腦思維雙系統(tǒng)模型被用于解釋人類思維和決策過程中的兩種獨(dú)特方式。根據(jù)該理論，人類的認(rèn)知過程可分為兩個(gè)相互關(guān)聯(lián)但獨(dú)立運(yùn)作的系統(tǒng)：直覺型思維系統(tǒng)（系統(tǒng) 1）和反思型思維系統(tǒng)（系統(tǒng) 2）。

直覺型思維（系統(tǒng) 1）是一種快速、直觀且自動(dòng)的思考方式，主要依賴于個(gè)體的經(jīng)驗(yàn)、情感和直覺。這種方式對(duì)于解決簡單問題和日常決策具有較高的效率，但在面臨復(fù)雜問題和重大決策時(shí)可能導(dǎo)致偏差和錯(cuò)誤。

反思型思維（系統(tǒng) 2），與此相反，則是一種深思熟慮、有意識(shí)且理性的思考方式。該方式通過運(yùn)用邏輯推理、規(guī)則和分析，為決策和問題解決提供了更加準(zhǔn)確和合理的結(jié)果。然而，這種思維方式需要較多的認(rèn)知資源和時(shí)間。

雙系統(tǒng)模型理論的核心觀點(diǎn)在于，人類思維和決策過程并非單一系統(tǒng)所驅(qū)動(dòng)，而是兩個(gè)系統(tǒng)之間相互作用、互補(bǔ)和競(jìng)爭(zhēng)的結(jié)果。在許多情況下，直覺型思維系統(tǒng)在決策中發(fā)揮主導(dǎo)作用；而在需要深入思考和理性判斷的場(chǎng)合，反思型思維系統(tǒng)的作用則變得更為重要。

AI2 團(tuán)隊(duì)提出的 SwiftSage 框架正是基于人腦思維雙系統(tǒng)模型理論，將模仿學(xué)習(xí)和 LLM 方法的優(yōu)勢(shì)相互結(jié)合，以解決現(xiàn)實(shí)世界中的復(fù)雜數(shù)字任務(wù)，展現(xiàn)出了巨大的潛力和前景。

雙模塊推理系統(tǒng)：迅速?zèng)Q策的 Swift + 深思熟慮的 Sage

SwiftSage 是一個(gè)由兩個(gè)主要模塊組成的框架：迅速?zèng)Q策（Swift）模塊和深思熟慮（Sage）模塊。

Swift 模塊是一個(gè)基于 encoder-decoder 的小型語言模型，它能編碼短期記憶內(nèi)容，例如先前的動(dòng)作、當(dāng)前觀察結(jié)果、已訪問的位置以及當(dāng)前環(huán)境狀態(tài)，并解碼出下一步的行動(dòng)。該模塊模擬了系統(tǒng) 1 中快速、直觀的思維特點(diǎn)。它的優(yōu)勢(shì)來自于大量的離線數(shù)據(jù)，通過在模仿學(xué)習(xí)中采用 behavior cloning 方法，Swift 模塊可以充分了解目標(biāo)環(huán)境中的設(shè)定以及更好地掌握任務(wù)的定義。

Sage 模塊代表了系統(tǒng) 2 中深思熟慮的思維過程，它利用 LLM（例如 GPT-4）來更好地進(jìn)行規(guī)劃。Sage 模塊包含兩個(gè) LLM Prompting 階段，分別稱為規(guī)劃（planning）和融合（grounding）。

在規(guī)劃階段，主要目標(biāo)是引導(dǎo) LLM 定位所需物品、規(guī)劃和追蹤子目標(biāo)以及檢測(cè)和修正潛在的異常和錯(cuò)誤。通過五個(gè)主要問題來實(shí)現(xiàn)這一目標(biāo)，使得智能體能夠更敏銳地捕捉游戲過程中的異常，進(jìn)而更有可能糾正自身行為。

在融合階段，主要目標(biāo)是利用規(guī)劃階段五個(gè)問題的答案和詳細(xì)的動(dòng)作模板，將規(guī)劃階段輸出的計(jì)劃轉(zhuǎn)化為一系列實(shí)際可執(zhí)行的動(dòng)作，這可以稱為動(dòng)作緩存（action buffer）。與之前的方法不同，Sage 不僅生成下一個(gè)即時(shí)動(dòng)作，還包括長期的行動(dòng)規(guī)劃。LLM 收到包含子目標(biāo)（在規(guī)劃階段生成）和支持的行動(dòng)類型的提示（prompt），使它們能夠生成一系列旨在實(shí)現(xiàn)當(dāng)前子目標(biāo)的動(dòng)作（而不是像之前的方法那樣一次生成一個(gè)動(dòng)作）。這樣一來，SwiftSage 進(jìn)一步降低了動(dòng)作預(yù)測(cè)的成本。

為了協(xié)調(diào) Swift 和 Sage 模塊，研究者們提出了一種啟發(fā)式算法，用于確定何時(shí)激活或停用 Sage 模塊以及如何有效地將輸出與動(dòng)作緩存機(jī)制相結(jié)合。默認(rèn)情況下，智能體通常會(huì)采用 Swift 模塊。當(dāng) Swift 模塊遇到困難時(shí)（例如，出現(xiàn)如下圖的四種情況），智能體會(huì)改為執(zhí)行 Sage 模塊產(chǎn)生的動(dòng)作緩存。

實(shí)驗(yàn)結(jié)果：效率、性能和開銷的全方位優(yōu)秀表現(xiàn)

經(jīng)過對(duì) ScienceWorld 中的 30 種任務(wù)類型進(jìn)行全面評(píng)估之后，SwiftSage 在性能上顯著優(yōu)于其他方法，取得了領(lǐng)先水平的平均分?jǐn)?shù) 84.7。相較而言，SayCan 的得分僅為 33.8，ReAct 獲得了 36.4 分，而 Reflexion 則達(dá)到了 45.3 分。

得益于其獨(dú)特的雙系統(tǒng)設(shè)計(jì)，SwiftSage 在 LLM 推理中所需的每個(gè)行動(dòng)的令牌數(shù)量大幅減少，因此在成本效益和效率方面，它比單純依靠 Prompting LLM 方法表現(xiàn)得更為出色。平均來看，為了產(chǎn)生一個(gè)行動(dòng)，Saycan 和 ReAct 需要近 2000 個(gè) token，Reflexion 需要接近 3000 個(gè) token，而 SwiftSage 僅需約 750 個(gè) token。

此外，SwiftSage 在交互式任務(wù)中的效率同樣更高。如下圖所示，SwiftSage 能夠在較少的行動(dòng)數(shù)內(nèi)達(dá)到相同的分?jǐn)?shù)。

在展示出卓越表現(xiàn)后，研究者們認(rèn)為受益于人類認(rèn)知雙過程理論靈感的 SwiftSage 研究成果具有創(chuàng)新性及領(lǐng)先優(yōu)勢(shì)，無論是在性能、效率還是成本方面。這一獨(dú)特框架采用了將較小的語言模型與模仿學(xué)習(xí)相結(jié)合，再輔以 LLM（大型語言模型）的規(guī)劃能力，成為解決復(fù)雜交互推理任務(wù)以及構(gòu)建通用人工智能的關(guān)鍵步驟。SwiftSage 所取得的突破使我們距離充分發(fā)揮 LLM 潛力更近一步，從而更有效地解決現(xiàn)實(shí)世界中的復(fù)雜問題。

結(jié)語

AI2 提出的 SwiftSage 成果再次展示了較小的 LM（語言模型）與 LLM（大型語言模型）協(xié)作框架的巨大潛力。通過利用較小的 LM 進(jìn)行任務(wù)與環(huán)境特定模式的識(shí)別，實(shí)現(xiàn)了分布內(nèi)泛化的高效性。同時(shí)，盡管 LLM 的零樣本泛化能力和深度思考展現(xiàn)出顯著優(yōu)勢(shì)，但將其輸出應(yīng)用于現(xiàn)實(shí)世界場(chǎng)景仍具有一定挑戰(zhàn)性。研究者認(rèn)為，采用雙過程智能體，發(fā)揮這兩種方法的優(yōu)點(diǎn)，對(duì)解決復(fù)雜的交互式推理任務(wù)以及構(gòu)建跨領(lǐng)域的通用智能體具有重要意義。進(jìn)一步地，我們還可以將 SwiftSage 等模型視為一種利用 LLM 作為控制器或規(guī)劃器，用于分解復(fù)雜任務(wù)并調(diào)用 API 工具。

主要作者介紹

Bill Yuchen Lin 林禹臣（AI2）現(xiàn)任 Allen Institute for AI（AI2）研究員。他本科畢業(yè)于上海交通大學(xué) IEEE 試點(diǎn)班（2018），博士畢業(yè)于 USC 南加州大學(xué) （2022）。曾獲得 WWW 2020 Best Paper Runner-Up，TrustNLP Best Paper Award。他多次擔(dān)任 NLP 和 ML 領(lǐng)域頂級(jí)會(huì)議審稿人，Area Chair （ACL2023），多次參與組織 workshop 和 tutorials。他目前的研究興趣在將大語言模型的分析和增強(qiáng)，以及如何利用常識(shí)知識(shí)構(gòu)建通用的智能體。

Yejin Choi （UW & AI2）華盛頓大學(xué)教授，同時(shí)領(lǐng)導(dǎo) AI2 的 Mosaic 組。她曾獲得 ACL Fellow，MacArthur Fellow，她曾獲得 NAACL Best Paper Award in 2022, the ICML Outstanding Paper Award in 2022, the ACL Test of Time award in 2021, the CVPR Longuet-Higgins Prize (test of time award) in 2021, the NeurIPS Outstanding Paper Award in 2021, the AAAI Outstanding Paper Award in 2020 等榮譽(yù)。

Xiang Ren 任翔（USC）南加州大學(xué)副教授，領(lǐng)導(dǎo) INK Research Lab。曾獲得 Forbes' Asia 30 Under 30，NAACL Outstanding Paper Award 2022，Google Research Scholar, 2022，F(xiàn)acebook Sponsored Research Award, 2021，NSF CAREER Award, 2021 等榮譽(yù)。