AIxiv專欄是機(jī)器之心發(fā)布學(xué)術(shù)、技術(shù)內(nèi)容的欄目。過去數(shù)年,機(jī)器之心AIxiv專欄接收報(bào)道了2000多篇內(nèi)容,覆蓋全球各大高校與企業(yè)的頂級(jí)實(shí)驗(yàn)室,有效促進(jìn)了學(xué)術(shù)交流與傳播。如果您有優(yōu)秀的工作想要分享,歡迎投稿或者聯(lián)系報(bào)道。投稿郵箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com
網(wǎng)絡(luò)智能體旨在讓一切基于網(wǎng)絡(luò)功能的任務(wù)自動(dòng)發(fā)生。比如你告訴智能體你的預(yù)算,它可以幫你預(yù)訂酒店。既擁有海量常識(shí),又能做長期規(guī)劃的大語言模型(LLM),自然成為了智能體常用的基礎(chǔ)模塊。
于是上下文學(xué)習(xí)示例、任務(wù)技巧、多智能體協(xié)同、強(qiáng)化學(xué)習(xí)算法…… 一切適用于通用智能體的想法都搶著在大模型落地。
然而有一個(gè)問題始終橫亙在LLM 和智能體之間:基于 LLM 的網(wǎng)絡(luò)智能體的行動(dòng) / 觀測空間與 LLM 訓(xùn)練數(shù)據(jù)的空間相去甚遠(yuǎn)。
智能體在充斥著具身行為的行動(dòng)空間(如鼠標(biāo)懸停、鍵盤組合鍵)和遍布前端功能強(qiáng)化、格式渲染的觀測空間下運(yùn)作,大語言模型的理解和推理能力能充分發(fā)揮作用嗎?尤其是大語言模型的主要訓(xùn)練任務(wù)是文本補(bǔ)全、問答和對(duì)齊人類偏好,這一點(diǎn)值得思考。
來自伊利諾伊大學(xué)香檳分校和亞馬遜的研究人員選擇和這些問題進(jìn)一步對(duì)話。他們?nèi)コ松舷挛氖纠、技巧、多智能體系統(tǒng),僅僅通過行動(dòng) / 觀測空間與 LLM 的訓(xùn)練任務(wù)對(duì)齊。他們訓(xùn)練的 AgentOccam 成為了零樣本基于 LLM 的網(wǎng)絡(luò)智能體新 Sota。
這正呼應(yīng)了奧卡姆剃刀原則:「若無必要,勿增實(shí)體」。然而換個(gè)思考的角度,AgentOccam 的研究團(tuán)隊(duì)也想發(fā)問:構(gòu)建通用智能體時(shí),在鋪設(shè)復(fù)雜的系統(tǒng)框架前,是否已經(jīng)優(yōu)化了行動(dòng) / 觀測空間,讓這些功能模塊達(dá)到了最優(yōu)狀態(tài)?
論文鏈接:https://arxiv.org/abs/2410.13825
論文名:AgentOccam: A Simple Yet Strong Baseline for LLM-Based Web Agents
背景及動(dòng)機(jī)
某天你刷著短視頻,看中了主播手中拿著的商品。于是,你興致勃勃地對(duì)智能助手說:「我是學(xué)生,讓這個(gè)老板送我一張優(yōu)惠券!」
隨后,智能體申請了你的私人賬號(hào)權(quán)限、后臺(tái)私信商家、繪聲繪色地寫下「我是學(xué)生」,發(fā)送消息,一套動(dòng)作無需人為干預(yù),行云流水......一切這樣的任務(wù),再也不必動(dòng)手,都有智能體代勞。
大語言模型是構(gòu)建智能體的熱門選擇。過去,基于 LLM 的網(wǎng)絡(luò)智能體通常專注于讓智能體學(xué)會(huì)某種應(yīng)用,比如構(gòu)建上下文學(xué)習(xí)樣本、積累任務(wù)經(jīng)驗(yàn)與技巧、以及多智能體角色扮演等等。然而,在實(shí)際交互中,智能體的行動(dòng) / 觀測空間與 LLM 的技能點(diǎn)不太匹配,這之間的差距卻少有人研究。
于是,針對(duì)如何對(duì)齊基于 LLM 的網(wǎng)絡(luò)智能體的觀測和行動(dòng)空間與其訓(xùn)練期間學(xué)到的功能,來自伊利諾伊大學(xué)香檳分校和亞馬遜的研究人員們展開了研究。
網(wǎng)絡(luò)智能體需要準(zhǔn)確地從格式各異、編碼腳本不一的網(wǎng)頁中提取信息,并在網(wǎng)頁上定義的動(dòng)作(例如,鼠標(biāo)滑輪滾動(dòng)、點(diǎn)擊或懸停在按鈕上)中進(jìn)行選擇。這些網(wǎng)絡(luò)觀測和行動(dòng)空間在 LLM 的預(yù)訓(xùn)練和后續(xù)訓(xùn)練數(shù)據(jù)中都較為罕見,這阻礙了 LLM 充分調(diào)動(dòng)潛能,完成任務(wù)。
因此,基于不讓智能體策略變得更復(fù)雜,而是讓智能體與LLM 更加匹配的想法,由此構(gòu)建的智能體得名 AgentOccam。
形式化與方法
該團(tuán)隊(duì)通過部分可觀測的馬爾可夫決策過程(POMDP),將網(wǎng)絡(luò)交互過程形式化為:
在 POMDP 中,觀測 o∈O 是智能體從網(wǎng)絡(luò)環(huán)境接收到的信息,例如 HTML,以及任何指令和提示。行動(dòng) a∈A 是網(wǎng)絡(luò)環(huán)境認(rèn)可的動(dòng)作指令。
如上圖所示,AgentOccam 包括三個(gè)組成部分:
首先,減少非必要的網(wǎng)絡(luò)交互動(dòng)作,讓智能體的具身和瑣碎互動(dòng)需求達(dá)到最;
其次,消除冗余和不相關(guān)的網(wǎng)頁元素,并重構(gòu)網(wǎng)頁內(nèi)容塊,以獲取更簡潔但同樣信息豐富的表示,從而精煉觀察空間;
最后,引入兩個(gè)規(guī)劃動(dòng)作(分支和修剪),這使得智能體能夠以規(guī)劃樹結(jié)構(gòu)自組織導(dǎo)航工作流,并使用相同結(jié)構(gòu)過濾歷史步以進(jìn)行回放。
整個(gè)框架通過一套適用于所有標(biāo)記語言的通用規(guī)則來格式化網(wǎng)頁,無需依賴測試基準(zhǔn)中的任務(wù)相關(guān)信息。
網(wǎng)絡(luò)智能體的行動(dòng)空間規(guī)定了可以用來與網(wǎng)絡(luò)環(huán)境交互的有效命令。
研究團(tuán)隊(duì)從智能體常見的失敗中得出總結(jié):想要成功完成任務(wù),需要編輯行動(dòng)空間來解決兩個(gè)關(guān)鍵問題:第一,去除 LLM 難以理解且經(jīng)常誤用的無關(guān)行動(dòng);第二,當(dāng)執(zhí)行任務(wù)需要規(guī)劃、嘗試多個(gè)潛在路徑時(shí),要提高智能體的記憶和規(guī)劃能力。
為此,該團(tuán)隊(duì)提出了對(duì)應(yīng)的解決方法。第一個(gè)問題可以通過簡單地移除或合并操作來解決(如上圖中的步驟 1 和 2)。對(duì)于第二個(gè)問題,過去的研究通常依賴人工制定規(guī)則或任務(wù)技巧,但這些方法難以泛化。在本研究中,LLM 將自主生成計(jì)劃和管理任務(wù)流程(如步驟 3 所示)。
AgentOccam 的觀測空間(提示詞)包含了任務(wù)概述的通用指令、期望的輸出和可用操作說明,以及關(guān)于當(dāng)前任務(wù)目標(biāo)、智能體過去的交互記錄和最新的觀察信息。
過往互動(dòng)和當(dāng)前觀測的部分占據(jù)了最多的字符數(shù)。這主要?dú)w因于兩個(gè)因素:單頁面的長度和歷史跨度的范圍,這是AgentOccam觀測空間的主要優(yōu)化對(duì)象。
網(wǎng)頁標(biāo)記語言主要用于前端加載和渲染,往往包含大量格式化字符,顯得冗余且重復(fù)(如上圖步驟 1 所示)。因此,此時(shí)的目標(biāo)是優(yōu)化這些表示方式,使得單頁內(nèi)容對(duì) LLMs 更加簡潔易讀。
將觀測歷史作為輸入,對(duì)于執(zhí)行長程任務(wù)至關(guān)重要。因?yàn)橐恍╆P(guān)鍵信息可能不會(huì)顯示在當(dāng)前頁面上。然而,觀測歷史也會(huì)顯著增加上下文長度,并增加推理難度以及推斷成本。
為了解決這個(gè)問題,設(shè)置僅選擇先前網(wǎng)頁上最重要和相關(guān)的信息,這一選擇依據(jù)兩個(gè)規(guī)則,分別基于關(guān)鍵節(jié)點(diǎn)和規(guī)劃樹,見于步驟 2 和 3。
結(jié)果
研究團(tuán)隊(duì)在 WebArena 上評(píng)估了 AgentOccam 性能。WebArena含有 812 項(xiàng)任務(wù),橫跨網(wǎng)購、社交網(wǎng)站、軟件開發(fā)、在線商貿(mào)管理、地圖等。
測試對(duì)象為AgentOccam 框架下的GPT-4-Turbo。對(duì)比的基線包括:一、WebArena 隨配智能體,二、SteP,前 WebArena 上最優(yōu)智能體,涵蓋 14 條人類專為 WebArena 任務(wù)編寫的技巧,三、多智能體協(xié)同方法 WebPilot;四、總結(jié)智能體交互經(jīng)驗(yàn)的工作 AWM。
從上表不難看出,AgentOccam 性能優(yōu)于以往及同期工作。其中,AgentOccam 分別以 9.8(+29.4%)和 5.9(+15.8%)的絕對(duì)分?jǐn)?shù)領(lǐng)先往期和同期工作,并且通過其觀測與行動(dòng)空間的對(duì)齊,使得相似的基本網(wǎng)絡(luò)智能體的成功率提高了 26.6 點(diǎn)(+161%)。
消融實(shí)驗(yàn)
逐模塊對(duì)比行動(dòng)與觀測空間的對(duì)齊對(duì)最終結(jié)果的貢獻(xiàn)。從下表可以看出,行動(dòng)空間對(duì)齊能使智能體完成更多 click、type 等引導(dǎo)環(huán)境變化的動(dòng)作,觀測空間對(duì)齊則減少大模型調(diào)用的字符數(shù)與智能體完成任務(wù)所需的步數(shù)。
LLM-as-a-Judge
研究團(tuán)隊(duì)發(fā)現(xiàn),智能體的決策行為波動(dòng)性很強(qiáng)。簡而言之,面對(duì)一個(gè)目標(biāo),智能體有一定概率做出正確的行為決斷,但由于 token 預(yù)測的隨機(jī)性,它可能做出一些高成本、低回報(bào)的決定。這也導(dǎo)致它在后續(xù)步驟中難以糾正之前的錯(cuò)誤而失敗。
例如,要求智能體在某個(gè)最相關(guān)的話題下發(fā)布帖子,單次 LLM 調(diào)用的 AgentOccam 往往輕率地選擇話題,未考慮「最相關(guān)」的要求。
為了解決此類問題,他們引導(dǎo) AgentOccam 生成單步內(nèi)所有可能的行動(dòng),這系列行動(dòng)將交付另一個(gè) Judge 智能體(同樣調(diào)用 GPT-4-turbo)決斷,做出最大化回報(bào)的選擇。
與復(fù)合策略結(jié)合使用
復(fù)合策略中,與任務(wù)相關(guān)的經(jīng)驗(yàn)可以提升智能體性能。同時(shí),不因?yàn)榧尤肓烁啾尘爸R(shí)擾亂決策,不會(huì)影響泛化性,能夠糾正錯(cuò)誤行為模式。
由于行為 / 觀測空間對(duì)齊和復(fù)合策略方法正交,因此能結(jié)合利用。該團(tuán)隊(duì)試驗(yàn)將 AgentOccam 與 1)SteP 和 2)上述的 LLM-as-a-Judge 方法聯(lián)合使用。
對(duì)于和前 SOTA 方法 SteP 聯(lián)合,由于它引入人類編寫的 WebArena 任務(wù)攻略,在經(jīng)驗(yàn)密集型任務(wù),如購物網(wǎng)頁任務(wù)中,人類撰寫的引導(dǎo)性經(jīng)驗(yàn)大幅提升任務(wù)成功率。
而在常識(shí)泛化密集型任務(wù),如社交網(wǎng)頁發(fā)帖任務(wù)中,不相關(guān)知識(shí)出現(xiàn)會(huì)錯(cuò)誤擾亂智能體決策。對(duì)于 LLM-as-a-Judge 方法,Judge 角色的引入不影響智能體的泛化性,同時(shí)糾正了智能體倉促?zèng)Q策的錯(cuò)誤行為模式,在 WebArena 上進(jìn)一步提升 2.6 的絕對(duì)分?jǐn)?shù)。