當(dāng)前位置：人工智能實(shí)驗(yàn)室> 人工智能動(dòng)態(tài) > 不靠更復(fù)雜的策略,僅憑和大模型訓(xùn)練對(duì)齊,零樣本零經(jīng)驗(yàn)單LLM調(diào)用

不靠更復(fù)雜的策略,僅憑和大模型訓(xùn)練對(duì)齊,零樣本零經(jīng)驗(yàn)單LLM調(diào)用
來源：互聯(lián)網(wǎng) 發(fā)布日期：2024-11-06 19:47:47 瀏覽：0次

導(dǎo)讀：AIxiv專欄是機(jī)器之心發(fā)布學(xué)術(shù)、技術(shù)內(nèi)容的欄目。過去數(shù)年，機(jī)器之心AIxiv專欄接收報(bào)道了2000多篇內(nèi)容，覆蓋全球各大高校與企業(yè)的頂級(jí)實(shí)驗(yàn)室，有效促進(jìn)了學(xué)術(shù)交流與傳播。如果您有優(yōu)秀的工作想要分享，歡迎投稿或者聯(lián)系報(bào)道。投稿郵箱：liyazhou@jiqizhixin.com；zhaoyunfeng@jiqizhixin.com網(wǎng)絡(luò)智能體旨在讓一切基于網(wǎng)絡(luò)功能的任務(wù)自動(dòng)發(fā)生。比如你告訴智能體你的預(yù)算，它可以 ......

AIxiv專欄是機(jī)器之心發(fā)布學(xué)術(shù)、技術(shù)內(nèi)容的欄目。過去數(shù)年，機(jī)器之心AIxiv專欄接收報(bào)道了2000多篇內(nèi)容，覆蓋全球各大高校與企業(yè)的頂級(jí)實(shí)驗(yàn)室，有效促進(jìn)了學(xué)術(shù)交流與傳播。如果您有優(yōu)秀的工作想要分享，歡迎投稿或者聯(lián)系報(bào)道。投稿郵箱：liyazhou@jiqizhixin.com；zhaoyunfeng@jiqizhixin.com

網(wǎng)絡(luò)智能體旨在讓一切基于網(wǎng)絡(luò)功能的任務(wù)自動(dòng)發(fā)生。比如你告訴智能體你的預(yù)算，它可以幫你預(yù)訂酒店。既擁有海量常識(shí)，又能做長期規(guī)劃的大語言模型（LLM），自然成為了智能體常用的基礎(chǔ)模塊。

于是上下文學(xué)習(xí)示例、任務(wù)技巧、多智能體協(xié)同、強(qiáng)化學(xué)習(xí)算法…… 一切適用于通用智能體的想法都搶著在大模型落地。

然而有一個(gè)問題始終橫亙在LLM 和智能體之間：基于 LLM 的網(wǎng)絡(luò)智能體的行動(dòng) / 觀測空間與 LLM 訓(xùn)練數(shù)據(jù)的空間相去甚遠(yuǎn)。

智能體在充斥著具身行為的行動(dòng)空間（如鼠標(biāo)懸停、鍵盤組合鍵）和遍布前端功能強(qiáng)化、格式渲染的觀測空間下運(yùn)作，大語言模型的理解和推理能力能充分發(fā)揮作用嗎？尤其是大語言模型的主要訓(xùn)練任務(wù)是文本補(bǔ)全、問答和對(duì)齊人類偏好，這一點(diǎn)值得思考。

來自伊利諾伊大學(xué)香檳分校和亞馬遜的研究人員選擇和這些問題進(jìn)一步對(duì)話。他們?nèi)コ松舷挛氖纠�、技巧、多智能體系統(tǒng)，僅僅通過行動(dòng) / 觀測空間與 LLM 的訓(xùn)練任務(wù)對(duì)齊。他們訓(xùn)練的 AgentOccam 成為了零樣本基于 LLM 的網(wǎng)絡(luò)智能體新 Sota。

這正呼應(yīng)了奧卡姆剃刀原則：「若無必要，勿增實(shí)體」。然而換個(gè)思考的角度，AgentOccam 的研究團(tuán)隊(duì)也想發(fā)問：構(gòu)建通用智能體時(shí)，在鋪設(shè)復(fù)雜的系統(tǒng)框架前，是否已經(jīng)優(yōu)化了行動(dòng) / 觀測空間，讓這些功能模塊達(dá)到了最優(yōu)狀態(tài)？

不靠更復(fù)雜的策略,僅憑和大模型訓(xùn)練對(duì)齊,零樣本零經(jīng)驗(yàn)單LLM調(diào)用

論文鏈接：https://arxiv.org/abs/2410.13825

論文名：AgentOccam: A Simple Yet Strong Baseline for LLM-Based Web Agents

背景及動(dòng)機(jī)

某天你刷著短視頻，看中了主播手中拿著的商品。于是，你興致勃勃地對(duì)智能助手說：「我是學(xué)生，讓這個(gè)老板送我一張優(yōu)惠券！」

隨后，智能體申請了你的私人賬號(hào)權(quán)限、后臺(tái)私信商家、繪聲繪色地寫下「我是學(xué)生」，發(fā)送消息，一套動(dòng)作無需人為干預(yù)，行云流水......一切這樣的任務(wù)，再也不必動(dòng)手，都有智能體代勞。

大語言模型是構(gòu)建智能體的熱門選擇。過去，基于 LLM 的網(wǎng)絡(luò)智能體通常專注于讓智能體學(xué)會(huì)某種應(yīng)用，比如構(gòu)建上下文學(xué)習(xí)樣本、積累任務(wù)經(jīng)驗(yàn)與技巧、以及多智能體角色扮演等等。然而，在實(shí)際交互中，智能體的行動(dòng) / 觀測空間與 LLM 的技能點(diǎn)不太匹配，這之間的差距卻少有人研究。

于是，針對(duì)如何對(duì)齊基于 LLM 的網(wǎng)絡(luò)智能體的觀測和行動(dòng)空間與其訓(xùn)練期間學(xué)到的功能，來自伊利諾伊大學(xué)香檳分校和亞馬遜的研究人員們展開了研究。

網(wǎng)絡(luò)智能體需要準(zhǔn)確地從格式各異、編碼腳本不一的網(wǎng)頁中提取信息，并在網(wǎng)頁上定義的動(dòng)作（例如，鼠標(biāo)滑輪滾動(dòng)、點(diǎn)擊或懸停在按鈕上）中進(jìn)行選擇。這些網(wǎng)絡(luò)觀測和行動(dòng)空間在 LLM 的預(yù)訓(xùn)練和后續(xù)訓(xùn)練數(shù)據(jù)中都較為罕見，這阻礙了 LLM 充分調(diào)動(dòng)潛能，完成任務(wù)。

因此，基于不讓智能體策略變得更復(fù)雜，而是讓智能體與LLM 更加匹配的想法，由此構(gòu)建的智能體得名 AgentOccam。

形式化與方法

該團(tuán)隊(duì)通過部分可觀測的馬爾可夫決策過程（POMDP），將網(wǎng)絡(luò)交互過程形式化為：

在 POMDP 中，觀測 o∈O 是智能體從網(wǎng)絡(luò)環(huán)境接收到的信息，例如 HTML，以及任何指令和提示。行動(dòng) a∈A 是網(wǎng)絡(luò)環(huán)境認(rèn)可的動(dòng)作指令。

不靠更復(fù)雜的策略,僅憑和大模型訓(xùn)練對(duì)齊,零樣本零經(jīng)驗(yàn)單LLM調(diào)用

如上圖所示，AgentOccam 包括三個(gè)組成部分：

首先，減少非必要的網(wǎng)絡(luò)交互動(dòng)作，讓智能體的具身和瑣碎互動(dòng)需求達(dá)到最��；

其次，消除冗余和不相關(guān)的網(wǎng)頁元素，并重構(gòu)網(wǎng)頁內(nèi)容塊，以獲取更簡潔但同樣信息豐富的表示，從而精煉觀察空間；

最后，引入兩個(gè)規(guī)劃動(dòng)作（分支和修剪），這使得智能體能夠以規(guī)劃樹結(jié)構(gòu)自組織導(dǎo)航工作流，并使用相同結(jié)構(gòu)過濾歷史步以進(jìn)行回放。

整個(gè)框架通過一套適用于所有標(biāo)記語言的通用規(guī)則來格式化網(wǎng)頁，無需依賴測試基準(zhǔn)中的任務(wù)相關(guān)信息。

不靠更復(fù)雜的策略,僅憑和大模型訓(xùn)練對(duì)齊,零樣本零經(jīng)驗(yàn)單LLM調(diào)用

網(wǎng)絡(luò)智能體的行動(dòng)空間規(guī)定了可以用來與網(wǎng)絡(luò)環(huán)境交互的有效命令。

研究團(tuán)隊(duì)從智能體常見的失敗中得出總結(jié)：想要成功完成任務(wù)，需要編輯行動(dòng)空間來解決兩個(gè)關(guān)鍵問題：第一，去除 LLM 難以理解且經(jīng)常誤用的無關(guān)行動(dòng)；第二，當(dāng)執(zhí)行任務(wù)需要規(guī)劃、嘗試多個(gè)潛在路徑時(shí)，要提高智能體的記憶和規(guī)劃能力。

為此，該團(tuán)隊(duì)提出了對(duì)應(yīng)的解決方法。第一個(gè)問題可以通過簡單地移除或合并操作來解決（如上圖中的步驟 1 和 2）。對(duì)于第二個(gè)問題，過去的研究通常依賴人工制定規(guī)則或任務(wù)技巧，但這些方法難以泛化。在本研究中，LLM 將自主生成計(jì)劃和管理任務(wù)流程（如步驟 3 所示）。

不靠更復(fù)雜的策略,僅憑和大模型訓(xùn)練對(duì)齊,零樣本零經(jīng)驗(yàn)單LLM調(diào)用

AgentOccam 的觀測空間（提示詞）包含了任務(wù)概述的通用指令、期望的輸出和可用操作說明，以及關(guān)于當(dāng)前任務(wù)目標(biāo)、智能體過去的交互記錄和最新的觀察信息。

過往互動(dòng)和當(dāng)前觀測的部分占據(jù)了最多的字符數(shù)。這主要?dú)w因于兩個(gè)因素：單頁面的長度和歷史跨度的范圍，這是AgentOccam觀測空間的主要優(yōu)化對(duì)象。

不靠更復(fù)雜的策略,僅憑和大模型訓(xùn)練對(duì)齊,零樣本零經(jīng)驗(yàn)單LLM調(diào)用

網(wǎng)頁標(biāo)記語言主要用于前端加載和渲染，往往包含大量格式化字符，顯得冗余且重復(fù)（如上圖步驟 1 所示）。因此，此時(shí)的目標(biāo)是優(yōu)化這些表示方式，使得單頁內(nèi)容對(duì) LLMs 更加簡潔易讀。

將觀測歷史作為輸入，對(duì)于執(zhí)行長程任務(wù)至關(guān)重要。因?yàn)橐恍╆P(guān)鍵信息可能不會(huì)顯示在當(dāng)前頁面上。然而，觀測歷史也會(huì)顯著增加上下文長度，并增加推理難度以及推斷成本。

為了解決這個(gè)問題，設(shè)置僅選擇先前網(wǎng)頁上最重要和相關(guān)的信息，這一選擇依據(jù)兩個(gè)規(guī)則，分別基于關(guān)鍵節(jié)點(diǎn)和規(guī)劃樹，見于步驟 2 和 3。

結(jié)果

研究團(tuán)隊(duì)在 WebArena 上評(píng)估了 AgentOccam 性能。WebArena含有 812 項(xiàng)任務(wù)，橫跨網(wǎng)購、社交網(wǎng)站、軟件開發(fā)、在線商貿(mào)管理、地圖等。

測試對(duì)象為AgentOccam 框架下的GPT-4-Turbo。對(duì)比的基線包括：一、WebArena 隨配智能體，二、SteP，前 WebArena 上最優(yōu)智能體，涵蓋 14 條人類專為 WebArena 任務(wù)編寫的技巧，三、多智能體協(xié)同方法 WebPilot；四、總結(jié)智能體交互經(jīng)驗(yàn)的工作 AWM。

不靠更復(fù)雜的策略,僅憑和大模型訓(xùn)練對(duì)齊,零樣本零經(jīng)驗(yàn)單LLM調(diào)用

從上表不難看出，AgentOccam 性能優(yōu)于以往及同期工作。其中，AgentOccam 分別以 9.8（+29.4%）和 5.9（+15.8%）的絕對(duì)分?jǐn)?shù)領(lǐng)先往期和同期工作，并且通過其觀測與行動(dòng)空間的對(duì)齊，使得相似的基本網(wǎng)絡(luò)智能體的成功率提高了 26.6 點(diǎn)（+161%）。

不靠更復(fù)雜的策略,僅憑和大模型訓(xùn)練對(duì)齊,零樣本零經(jīng)驗(yàn)單LLM調(diào)用

消融實(shí)驗(yàn)

逐模塊對(duì)比行動(dòng)與觀測空間的對(duì)齊對(duì)最終結(jié)果的貢獻(xiàn)。從下表可以看出，行動(dòng)空間對(duì)齊能使智能體完成更多 click、type 等引導(dǎo)環(huán)境變化的動(dòng)作，觀測空間對(duì)齊則減少大模型調(diào)用的字符數(shù)與智能體完成任務(wù)所需的步數(shù)。

不靠更復(fù)雜的策略,僅憑和大模型訓(xùn)練對(duì)齊,零樣本零經(jīng)驗(yàn)單LLM調(diào)用

LLM-as-a-Judge

研究團(tuán)隊(duì)發(fā)現(xiàn)，智能體的決策行為波動(dòng)性很強(qiáng)。簡而言之，面對(duì)一個(gè)目標(biāo)，智能體有一定概率做出正確的行為決斷，但由于 token 預(yù)測的隨機(jī)性，它可能做出一些高成本、低回報(bào)的決定。這也導(dǎo)致它在后續(xù)步驟中難以糾正之前的錯(cuò)誤而失敗。

例如，要求智能體在某個(gè)最相關(guān)的話題下發(fā)布帖子，單次 LLM 調(diào)用的 AgentOccam 往往輕率地選擇話題，未考慮「最相關(guān)」的要求。

為了解決此類問題，他們引導(dǎo) AgentOccam 生成單步內(nèi)所有可能的行動(dòng)，這系列行動(dòng)將交付另一個(gè) Judge 智能體（同樣調(diào)用 GPT-4-turbo）決斷，做出最大化回報(bào)的選擇。

與復(fù)合策略結(jié)合使用

復(fù)合策略中，與任務(wù)相關(guān)的經(jīng)驗(yàn)可以提升智能體性能。同時(shí)，不因?yàn)榧尤肓烁啾尘爸R(shí)擾亂決策，不會(huì)影響泛化性，能夠糾正錯(cuò)誤行為模式。

由于行為 / 觀測空間對(duì)齊和復(fù)合策略方法正交，因此能結(jié)合利用。該團(tuán)隊(duì)試驗(yàn)將 AgentOccam 與 1）SteP 和 2）上述的 LLM-as-a-Judge 方法聯(lián)合使用。

對(duì)于和前 SOTA 方法 SteP 聯(lián)合，由于它引入人類編寫的 WebArena 任務(wù)攻略，在經(jīng)驗(yàn)密集型任務(wù)，如購物網(wǎng)頁任務(wù)中，人類撰寫的引導(dǎo)性經(jīng)驗(yàn)大幅提升任務(wù)成功率。

而在常識(shí)泛化密集型任務(wù)，如社交網(wǎng)頁發(fā)帖任務(wù)中，不相關(guān)知識(shí)出現(xiàn)會(huì)錯(cuò)誤擾亂智能體決策。對(duì)于 LLM-as-a-Judge 方法，Judge 角色的引入不影響智能體的泛化性，同時(shí)糾正了智能體倉促?zèng)Q策的錯(cuò)誤行為模式，在 WebArena 上進(jìn)一步提升 2.6 的絕對(duì)分?jǐn)?shù)。

上一篇：狂攬16億大單！云天勵(lì)飛：做最懂大模型的邊緣計(jì)算產(chǎn)品及服務(wù)

下一篇：卡內(nèi)基梅隆大學(xué)研發(fā)出皮膚供電技術(shù)，可穿戴設(shè)備將無需電池

不靠更復(fù)雜的策略,僅憑和大模型訓(xùn)練對(duì)齊,零樣本零經(jīng)驗(yàn)單LLM調(diào)用
來源：互聯(lián)網(wǎng) 發(fā)布日期：2024-11-06 19:47:47 瀏覽：0次

相關(guān)內(nèi)容

AiLab云推薦

最新資訊

本月熱點(diǎn)

熱門排行

推薦內(nèi)容

在線客服

熱門欄目HotCates

關(guān)于我們

版權(quán)聲明

不靠更復(fù)雜的策略,僅憑和大模型訓(xùn)練對(duì)齊,零樣本零經(jīng)驗(yàn)單LLM調(diào)用 來源：互聯(lián)網(wǎng) 發(fā)布日期：2024-11-06 19:47:47 瀏覽：0次

相關(guān)內(nèi)容

AiLab云推薦

最新資訊

本月熱點(diǎn)

熱門排行

推薦內(nèi)容

在線客服

熱門欄目HotCates

關(guān)于我們

版權(quán)聲明

不靠更復(fù)雜的策略,僅憑和大模型訓(xùn)練對(duì)齊,零樣本零經(jīng)驗(yàn)單LLM調(diào)用
來源：互聯(lián)網(wǎng) 發(fā)布日期：2024-11-06 19:47:47 瀏覽：0次