本篇文章將深入探討AI Agent是什么?它是如何運作的?它實際應用場景有哪些以及對我們的生活會帶來哪些改變。請坐好,準備發(fā)車啦~
隨著大語言模型(LLM)在23年的快速發(fā)展,大模型逐步收斂為以閉源為代表的ChatGPT和以開源為代表的Llama2。
大模型本身也在朝著多模態(tài)的方向發(fā)展,這意味著模型能夠處理不同類型的數(shù)據(jù),如:文本、圖片、視頻和音頻,其本質(zhì)是豐富模型的信息處理與生成能力,能夠更好地理解現(xiàn)實世界,處理復雜問題。
一、LLM vs Agent
雖然大語言模型的能力足夠強大,但它依舊是被動的響應用戶的指令,并且生成的效果取決于使用者如何使用它。
而AI Agent(智能代理)的出現(xiàn),將改變這一現(xiàn)狀。
它是一個自動化的程序,它具備自主規(guī)劃和執(zhí)行的能力,它也被視為通往AGI(通用人工智能)的鑰匙。
從NLP -> AGI 的發(fā)展路線分為五個級別,F(xiàn)rom:《The Rise and Potential of Large Language Model Based Agents: A Survey》,分別是:語料庫、互聯(lián)網(wǎng)、感知、具身和社會屬性。
目前的大語言模型已經(jīng)來到了第二級,具備互聯(lián)網(wǎng)實時訪問的多模態(tài)內(nèi)容輸出。AI Agent在LLM的基礎之上在往感知、具身和社會屬性的方向方展;當其具備感知環(huán)境與行動的能力時,將進入到第三和第四級別;再進一步,當多個Agent通過它們之間的互動、合作,且具備情感屬性,能夠處理更加復雜的任務或反映現(xiàn)實世界中的社會行為時,Agent將進入第五級。
圖片來源:《The Rise and Potential of Large Language Model Based Agents: A Survey》
二、什么是AI Agent?
Agent被翻譯為代理或者智能體,它核心的作用是具備自主實現(xiàn)目標的能力,能夠感知外部環(huán)境,具備自主性、反饋性、積極性和情感社交屬性的智能體。
光這樣描述還是很抽象,以我們的日常行為進行一個比喻:人類處理任何問題和任務時,都會經(jīng)歷信息輸入->信息處理->信息輸出過程。
信息輸入:主要通過人類感官系統(tǒng),視覺、聽覺、味覺、觸覺等信息處理:主要通過人類的大腦進行規(guī)劃與決策信息輸出:主要通過人類的語言和四肢所采取的行動
我們來想想一個場景: 小明想要吃樹上的蘋果,首先通過感官系統(tǒng)感知到蘋果樹上的蘋果,然后在大腦中思考如何采摘蘋果,最后借助采摘工具,拿到蘋果后成功地放到嘴巴里津津有味地吃了起來。我們將場景抽象成模型,其實就形成了AI Agent的大致框架:
分以下幾個模塊:
感知模塊:小明看到蘋果樹上的蘋果規(guī)劃模塊:想嘗一嘗蘋果,并思考和規(guī)劃如何才能吃到蘋果行動模塊:借助采摘工具,拿到蘋果后放入嘴中反饋模塊:蘋果是甜的,津津有味地吃了起來~
其中最關鍵的是大腦部分(規(guī)劃&決策),由ChatGPT、Llama2、Gemini這樣的大語言模型作為Agent的大腦,增強了Agent的規(guī)劃與決策的能力。
三、AI Agent關鍵模塊說明
我們將上圖進行進一步的抽象和延展,就是網(wǎng)上廣為流傳由OpenAI提出的Agent的模型圖:
圖片來源:《LLM Powered Autonomous Agents》
其實和上圖模型中各模塊的關聯(lián)關系差不多,只是OpenAI將AI Agent各模塊的相關信息呈現(xiàn)的更豐富,基于這張模型圖,可以拆分為以下幾個模塊:規(guī)劃、記憶、工具和行動。
1. Memory-記憶模塊部分
將記憶模塊分為兩個子模塊,分別是
1)短期記憶模塊:提示詞工程中的上下文,類比于人類的感知模塊,是外部信息的輸入,如:文本/圖片/視頻/音頻。
短期記憶模塊受到模型的上下文的限制,我們常看到的GPT-4 Turbo支持128k上下文指的就是模型能夠記住的上下文長度,超過上下文的限制后,LLM就會忘記之前輸入的信息(猶如得了阿爾茲海默癥)。
2)長期記憶模塊:支持向量庫檢索,類比于人類的博物館,支持在執(zhí)行任務時調(diào)用博物館中的知識。
長期記憶分為:
外顯的陳述性記憶(客觀的事實或觀點,如:事件&事實&概念)內(nèi)顯的程序記憶(主觀習得的知識,如:翻譯&騎自行車)
2. Planning-規(guī)劃模塊部分
將規(guī)劃模塊進行細分,其中思維鏈(CoT)和子目標分解(Subgoal Decomposition)是為了將復雜目標進行拆分,找到最優(yōu)的執(zhí)行路徑。
圖片來源:《Tree of Thoughts: Deliberate Problem Solving with Large Language Models》
而反思(Reflection)和自我批判(Self-critics)模塊,引入強化學習機制,通過環(huán)境的反饋狀態(tài),能從錯誤中吸取”教訓”,從而提高結果的質(zhì)量。其中大語言模型-LLM在規(guī)劃模塊占據(jù)核心位置。像CoT、ToT、ReAct等在規(guī)劃模塊運用的相關技術,其實大部分是進階的提示詞工程的使用技巧,掌握了這些進階提示詞工程的技巧,我們一樣能在ChatGPT中實現(xiàn)智能體的規(guī)劃能力。
3. Action&Tools-行動和工具調(diào)用模塊
雖然OpenAI拆分為了兩個不同的模塊,但是我們其實可以把它看作一個整體,有了工具再采取行動(有了采摘工具再去采摘蘋果)。
圖片來源:《The Rise and Potential of Large Language Model Based Agents: A Survey》
Agent具體的行動方式分類三類:
1)文本輸出:大語言模型的基礎能力
2)工具使用:大語言模型通過調(diào)用外部的程序工具,拓展了模型本身能力的邊界,其中能夠調(diào)用的工具包括:
專家模塊,如:調(diào)用其他的模型來協(xié)同處理任務工具模塊,如:其他應用程序的API或插件處理特定任務
3)具身行動:可理解為現(xiàn)實世界的機器人,能夠在現(xiàn)實環(huán)境中定位自身位置、感知周圍物體,接收指定任務后與周圍物體進行交互,從而實現(xiàn)任務目標
我們用一個簡單的公式做個階段性的總結:
Agent = LLM + 記憶 + 感知&反思 + 規(guī)劃+ 工具使用
四、AI Agent應用場景
23年11月9日比爾蓋茨在其發(fā)表的文章《AI is about to completely change how you use computers》中提出:AI Agent在醫(yī)療保艦教育、生產(chǎn)力、娛樂與購物等應用領域將發(fā)揮其巨大的潛能。
咱們重點談談教育和娛樂。
1. 教育
谷歌在22年底曾發(fā)布的三篇有關未來教育的報告,其中提到關于未來教學方式將從一對多的教學方式,轉變?yōu)閭性化教學和自適應教學
目前也已有許多頭部機構在教育領域已有了較為成熟的AI應用 像可汗學院推出的AI學習助手Khanmigo,不僅能為學生在數(shù)學、科學、人文科學等領域進行教學輔導,而且能夠幫助老師編寫教案、規(guī)劃課程,將AI深入融合進了教學工作的各個環(huán)節(jié),讓老師能夠更專注于學生的綜合能力培養(yǎng)。
再推薦一款筆者常用的GPTs,名為Mr.Ranedeer
先介紹一下GPTs,GPTs是由OpenAI推出的ChatGPT的定制化模式,任何人都無需編碼即可構建屬于自己的ChatGPT
雖然只需要說說話就能構建GPT,但是要讓自己的GPT足夠實用,且能夠在將來GPTs的商店中賺到錢,那還需要具備三個核心要素:
提示詞-Prompt,優(yōu)秀的Prompt才會讓GPT有優(yōu)秀的表現(xiàn)行為-Action,能夠讓GPT具備調(diào)用工具的能力,拓展GPT的能力邊界數(shù)據(jù)-Database,數(shù)據(jù)的質(zhì)量很大程度上決定了GPT輸出的質(zhì)量
其中數(shù)據(jù)屬于屬于企業(yè)&個人,有就是有,沒有就是沒有。
所以對于大部分人來說,能做的就是Prompt的撰寫和Action的配置。其中Action中的Function Calling(函數(shù)調(diào)用-調(diào)用外部應用的API接口),是GPTs能夠作為Agent的最核心能力,通過接入外部應用的接口GPT可以調(diào)用其他軟件去完成任務目標,從而給出目標結果。
情不自禁的扯遠了…
我們再回到剛剛推薦的Mr.Ranedeer,它是作者:JushBJJ分享的GPTs,最早是以Prompt的形式上傳至Github中分享給大家使用。
它能夠根據(jù)我們給出的學習計劃,自動拆解學習內(nèi)容完成每一章的學習內(nèi)容后,可以選擇繼續(xù)學習或出題測試檢驗自己的學習成果學習過程中我們能夠隨時提出對某個知識點感興趣,它會基于我們的興趣進行延展學習
具體的使用方法:
1)進入網(wǎng)站:https://supertools.therundown.ai/content/mr-ranedeer 這是一個匯聚全球創(chuàng)作者所創(chuàng)作的GPTs,并且按照不同類別進行分類,找起來非常方便。
2)選擇Mr.Ranedeer,點擊使用按鈕,頁面會自動跳轉至自己的ChatGPT界面中,就能開始學習起來啦。
2. 娛樂
由奚志恒等作者發(fā)布的論文《The Rise and Potential of Large Language Model Based Agents: A Survey 》中,原神為例,構建了一個由多個Agent共同協(xié)作的社會,人類也能夠參與到其中與不同Agent進行互動交流。
圖片來源:《The Rise and Potential of Large Language Model Based Agents: A Survey》
圖中左上角有一個Agent在點菜,另一個Agent在規(guī)劃和解決做菜的任務;右上角的Agent們在討論如何制作燈籠和計算燈籠的成本。
基于上述的案例我們能夠構想一下未來具有AI加持的游戲畫面:
在一個類似于像荒野大鏢客這樣的開放性游戲中,我們遇見的每一個NPC都具有獨立情感,我們能夠與之交互,不同玩家的行為選擇會產(chǎn)生不同的游戲劇情。
結尾
好啦,以上就是我對Agent的理解,如果文章中有描述不對的地方,請幫忙指正,避免對其他讀者產(chǎn)生誤導,在這里我先說謝謝啦
讓我們共同迎接2024,加油朋友們
本文由 @在野在也 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理。未經(jīng)作者許可,禁止轉載。
題圖來自 Pixabay,基于CC0協(xié)議。