當(dāng)前位置：人工智能實(shí)驗(yàn)室> 人工智能動(dòng)態(tài) > 為什么在ChatGPT之后，智能體將成為下一個(gè)顛覆性人工智能應(yīng)用

為什么在ChatGPT之后，智能體將成為下一個(gè)顛覆性人工智能應(yīng)用
來(lái)源：互聯(lián)網(wǎng) 發(fā)布日期：2023-08-18 14:03:02 瀏覽：15425次

導(dǎo)讀：【編者按：隨著著名的斯坦福大學(xué)的虛擬小鎮(zhèn) (Smallville) 項(xiàng)目正式開源，越來(lái)越多的人開始關(guān)注智能體（AI Agents）的發(fā)展。而基于大語(yǔ)言模型的智能體則是AI領(lǐng)域接下來(lái)重要的應(yīng)用方向，也引起越來(lái)越多的 AI 從業(yè)者的重視。IT博主 Shawn Wang發(fā)表了名為The A...

【編者按：隨著著名的斯坦福大學(xué)的虛擬小鎮(zhèn) (Smallville) 項(xiàng)目正式開源，越來(lái)越多的人開始關(guān)注智能體（AI Agents）的發(fā)展。而基于大語(yǔ)言模型的智能體則是AI領(lǐng)域接下來(lái)重要的應(yīng)用方向，也引起越來(lái)越多的 AI 從業(yè)者的重視。IT博主 Shawn Wang發(fā)表了名為“The Anatomy of Autonomy: Why Agents are the next AI Killer App after ChatGPT（自主性的剖析：為什么在ChatGPT之后，智能體將成為下一個(gè)顛覆性人工智能應(yīng)用)” 的文章，探討了自主人工智能的前景和重要性。作者還比較了自主AI與自動(dòng)駕駛汽車的發(fā)展類比，強(qiáng)調(diào)了自主AI正處于發(fā)展的早期階段，為讀者呈現(xiàn)了一個(gè)值得期待的未來(lái)愿景。我們特將該內(nèi)容編譯出來(lái)和各位客戶、合作伙伴朋友分享。如需轉(zhuǎn)載，請(qǐng)聯(lián)系我們（ID：15937102830）】

“GPT是通用目的技術(shù)”，但每個(gè)GPT都需要一個(gè)殺手級(jí)應(yīng)用。個(gè)人計(jì)算需要VisiCalc，智能手機(jī)帶來(lái)了Uber、Instagram、Pokemon Go以及iMessage/WhatsApp，mRNA研究使Covid疫苗得以快速生產(chǎn)。

GPT-3后的AI浪潮不僅僅是“炒作”，最有力的指標(biāo)之一是殺手級(jí)應(yīng)用已經(jīng)顯而易見，每個(gè)應(yīng)用程序的機(jī)會(huì)都超過(guò)1億美元:

用于寫作的生成文本- Jasper AI在2年內(nèi)實(shí)現(xiàn)從0到7500萬(wàn)美元的年度重復(fù)銷售額（ARR）

非藝術(shù)家的生成藝術(shù)- Midjourney/Stable Diffusion Multiverses

用于知識(shí)工作者的協(xié)作伙伴- GitHub的CopilotX和“Copilot for X”

對(duì)話式人工智能用戶體驗(yàn)- ChatGPT / Bing Chat，以及以及大量小眾需求的文檔問(wèn)答初創(chuàng)公司。

我將所有這些作為背景，來(lái)暗示：第五個(gè)殺手級(jí)應(yīng)用已經(jīng)出現(xiàn)，那就是自主智能體（Autonomous Agents）。

但首先，像往常一樣，讓我們從概要開始，以便讓那些不了解情況的人能夠跟上。

自主人工智能簡(jiǎn)史

每一次微小的卷積都可以使我們變得更聰明

根據(jù)我對(duì)神經(jīng)生物學(xué)的理解，每一次對(duì)大腦進(jìn)行微小改進(jìn)的卷積都會(huì)讓我們變得更聰明一點(diǎn)。類似地，人工智能通過(guò)“卷積”來(lái)進(jìn)步，在回顧過(guò)去的過(guò)程中，我們通往今天的道路是顯而易見的。我想將其繪制出來(lái)：

關(guān)鍵的自主能力按大致的時(shí)間順序排列：

基礎(chǔ)模型：

一切都始于大規(guī)模LLM（通過(guò)API或開源）的進(jìn)化和廣泛普及。這些模型的龐大規(guī)模最終使以下三個(gè)主要特征成為可能：

完美的自然語(yǔ)言理解和生成

世界知識(shí)（1750億個(gè)參數(shù)可以存儲(chǔ)320GB，相當(dāng)于15個(gè)維基百科）

出現(xiàn)了類似上下文學(xué)習(xí)的重要能力

這導(dǎo)致了早期提示工程師的崛起，比如Gwern Branwern和Riley Goodside等人，他們探索了創(chuàng)造性的單次提示。

能力1：元認(rèn)知（純推理的自我改進(jìn)）

Kojima等人（2022年）發(fā)現(xiàn)，只需在提示中加入“讓我們一步一步思考”的話語(yǔ)，就可以顯著提高GPT3在基準(zhǔn)測(cè)試中的性能，后來(lái)發(fā)現(xiàn)這是因?yàn)樵诟y的任務(wù)中外部化了工作記憶。

wei等人（2022年）將一系列思維鏈提示技術(shù)，進(jìn)一步提高了基準(zhǔn)測(cè)試的性能。

wang等人（2022年）發(fā)現(xiàn)，在多個(gè)思維鏈中進(jìn)行多數(shù)投票，即使在常規(guī)思維鏈無(wú)效的情況下，也能發(fā)揮作用。

出現(xiàn)了越來(lái)越多的技術(shù)，如使用前校準(zhǔn)、自我提問(wèn)、遞歸批評(píng)與改進(jìn)、自動(dòng)提示工程等。

能力2：外部?jī)?chǔ)存器（從主要靜態(tài)外部數(shù)據(jù)中讀取）

上下文/少量樣本學(xué)習(xí)的能力可用于廉價(jià)更新基礎(chǔ)模型，超越其知識(shí)截止日期，并將注意力集中在特定領(lǐng)域的私有數(shù)據(jù)上。

有限的上下文長(zhǎng)度的約束導(dǎo)致需要嵌入、分塊和鏈接框架，如LangChain，以及像Pinecone（現(xiàn)價(jià)值7億美元）、Weaviate（2億美元）和Chroma（7500萬(wàn)美元）之類的向量數(shù)據(jù)庫(kù)。

另一種使用自然語(yǔ)言來(lái)訪問(wèn)和回答關(guān)系數(shù)據(jù)庫(kù)問(wèn)題的方式是SQL文本公司，其中包括Perplexity AI（2600萬(wàn)美元A輪融資）、Seek AI（750萬(wàn)美元種子輪融資），以及包括CensusGPT和OSS Insight在內(nèi)的眾多其他方法。

能力3：瀏覽器自動(dòng)化（沙盒式瀏覽器讀寫）

Sharif Shameem在2021年首次展示了GPT-3自動(dòng)化Chrome購(gòu)買Airpods的功能。

Adept以由Transformer論文作者組成的全明星團(tuán)隊(duì)籌集了A輪融資，并推出了ACT-1 Action Transformer（盡管Vaswani等人已經(jīng)離開，但現(xiàn)在已經(jīng)進(jìn)行了3.5億美元的B輪融資）。

一年后，Nat Friedman的NatBot將瀏覽器自動(dòng)化重新引入了時(shí)代，展示了智能體如何通過(guò)一條自然語(yǔ)言指令在谷歌搜索和地圖中進(jìn)行餐廳預(yù)訂。

Dust XP1也發(fā)布了，但只能讀取，沒有進(jìn)行任何自動(dòng)化。MULTION走得更遠(yuǎn)，現(xiàn)在也在ChatGPT插件商店中。

瀏覽器智能體的一個(gè)不錯(cuò)的變體是桌面智能體Embra AI在這里似乎最受矚目（盡管仍處于發(fā)布前），而Rewind AI可能是下一個(gè)。

看起來(lái)，多模態(tài)GPT4的視覺能力能夠在這里極大地促進(jìn)桌面智能體，尤其是在沒有可用的可訪問(wèn)性文本或DOM的情況下。

能力4：工具制作和工具使用（服務(wù)器端，與一切相連）

搜索。從記憶的世界知識(shí)中生成的答案，或者從數(shù)據(jù)庫(kù)中檢索并放入上下文中的內(nèi)容，永遠(yuǎn)不會(huì)像只是搜索互聯(lián)網(wǎng)一樣及時(shí)更新。OpenAI通過(guò)WebGPT打開了這個(gè)潘多拉盒子，展示了他們對(duì)于爬取網(wǎng)頁(yè)、概括內(nèi)容并附帶引用回答的解決方案（現(xiàn)在在ChatGPT插件和Bing Chat中已上線，但在Dust和其他工具中也得到了復(fù)制）。

編寫可運(yùn)行的代碼。我們知道GPT-3可以編寫代碼，但需要像Riley Goodside這樣的勇敢靈魂，才會(huì)要求它生成針對(duì)已知糟糕能力（如數(shù)學(xué)）的代碼，并運(yùn)行生成的代碼。Replit被證明是這種能力增強(qiáng)風(fēng)格的完美托管平臺(tái)（另一個(gè)例子在此）。

ReAct。Yao等人（2022年）創(chuàng)造了ReAct模式，引入了一個(gè)極為簡(jiǎn)單的提示模板，使LLMs能夠在給定一組工具的情況下，可靠地進(jìn)行推理+行動(dòng)的選擇。Schick等人（2023年）引入了Toolformer，專門訓(xùn)練了一個(gè)帶有特殊標(biāo)記的模型，但這似乎并不那么流行。

多模型方法。正在探索模型調(diào)用其他具有它們沒有的能力的模型，例如HuggingGPT / Microsoft JARVIS和VisualChatGPT。

自我學(xué)習(xí)。執(zhí)行API的自我學(xué)習(xí)智能體（SLAPA）搜索API文檔，以教會(huì)自己如何使用工具，而不僅僅是何時(shí)使用。這種方法被用于ChatGPT插件的OpenAPI（曾用名Swagger）規(guī)范中，該規(guī)范還使用了自然語(yǔ)言。

值得一提的是，我們基本上已經(jīng)實(shí)現(xiàn)了6個(gè)月前JohnMcDonnell在這篇優(yōu)秀的帖子中提出的完整愿景：

那么，在最近的這一能力突飛猛進(jìn)中，我們看到了什么新的東西呢？

我認(rèn)為線索就在BabyAGI中自然演化出的4個(gè)智能體（向上滾動(dòng)以查看圖表）：

“上下文智能體”（能力1 + 2）可能是LlamaIndex和Langchain都在努力開發(fā)的數(shù)據(jù)增強(qiáng)檢索的更智能版本。Yohei添加了“相關(guān)（任務(wù)）上下文”的需求，這可能與向量數(shù)據(jù)庫(kù)提供的經(jīng)典語(yǔ)義相似性算法略有不同。

主動(dòng)學(xué)習(xí)可能會(huì)重新受到青睞，因?yàn)樽灾蔚?ldquo;上下文智能體”會(huì)積極地展現(xiàn)出他們不知道的事情，以進(jìn)行優(yōu)先級(jí)排序。

“執(zhí)行智能體”調(diào)用OpenAI或任何其他基礎(chǔ)模型，并可以選擇制作或使用任何提供的工具來(lái)完成任務(wù)（能力3 +4）。

“任務(wù)創(chuàng)建智能體”會(huì)創(chuàng)建任務(wù)，但不能產(chǎn)生幻覺，必須自我批評(píng)并從以前的任務(wù)中學(xué)習(xí)（能力1 + 2）。這是一個(gè)具有挑戰(zhàn)性的任務(wù)，但不超出簡(jiǎn)單常識(shí)基準(zhǔn)的范圍。

最后一個(gè)智能體是“優(yōu)先級(jí)智能體”。��！一個(gè)新任務(wù)！

這導(dǎo)致我們確定...

能力5：規(guī)劃、反思和優(yōu)先級(jí)排序

Shinn等人（2023年）展示了具有動(dòng)態(tài)內(nèi)存和自我反思功能的自主智能體“Reflexion”在GPT-4基準(zhǔn)測(cè)試中可以顯著提高。

Shoggoth the Coder贏得了最近的ChatGPT插件黑客馬拉松大賽，作為一個(gè)能夠提出和提交開源項(xiàng)目的PR修復(fù)的獨(dú)立智能體。

Meta的Simulacra論文展示了自主NPC智能體在類似游戲的環(huán)境中相互交互的有趣潛力。

無(wú)論用例如何，人們都會(huì)期望自治智能體能夠更加深入地進(jìn)行規(guī)劃，優(yōu)先考慮任務(wù)列表，反思錯(cuò)誤，并將所有相關(guān)上下文保留在內(nèi)存中。“AGI的火花”論文特別指出，GPT-4的一個(gè)顯著弱點(diǎn)就是規(guī)劃，這意味著在這方面我們可能需要進(jìn)一步推進(jìn)基礎(chǔ)模型才能保證可靠性。

最近的LangChain Agents網(wǎng)絡(luò)研討會(huì)討論還強(qiáng)調(diào)了需要具備堆疊智能體和協(xié)調(diào)智能體之間的能力。

在潛在空間社區(qū)中，AI虛擬軟件開發(fā)平臺(tái)e2b已經(jīng)在討論擁有AI開發(fā)者工作人員團(tuán)隊(duì)的潛力。

為什么自主人工智能是必殺技

技術(shù)的進(jìn)步是思考

是什么讓軟件對(duì)人類有價(jià)值？在我的投資和職業(yè)建議中，我喜歡鼓勵(lì)人們發(fā)展一個(gè)“軟件價(jià)值理論”。

軟件最明顯的價(jià)值驅(qū)動(dòng)因素之一是自動(dòng)化。我們所有人都永遠(yuǎn)不會(huì)擁有足夠的貨幣，時(shí)間，而能夠淘汰人類努力，無(wú)論是通過(guò)巧妙的系統(tǒng)設(shè)計(jì)，雇傭他人還是編程機(jī)器，都會(huì)釋放我們的時(shí)間，并通過(guò)并行執(zhí)行更多任務(wù)來(lái)提高我們的產(chǎn)出能力。事實(shí)上，這可以被視為技術(shù)和文明的核心定義：

“文明的進(jìn)步是通過(guò)增加我們無(wú)需考慮就能執(zhí)行的操作數(shù)量來(lái)實(shí)現(xiàn)的” - 阿爾弗雷德諾思懷特黑德。

自動(dòng)化與主治之間的關(guān)系微妙但重要：

沒有您的輸入，ChatGPT就無(wú)法執(zhí)行任何操作，但一旦您輸入了正確的提示，它可以為您做很多研究，尤其是使用插件

默認(rèn)情況下，AutoGPT需要您輸入一個(gè)目標(biāo)并點(diǎn)擊“是”以批準(zhǔn)它采取的每一步，但這比編寫響應(yīng)要容易得多

AutoGPT還有有限（運(yùn)行N步）和無(wú)限（無(wú)限運(yùn)行）的“連續(xù)模式”，這些模式完全自主，但很可能出錯(cuò)，因此必須進(jìn)行密切監(jiān)控

我們剛剛解釋了技術(shù)和文明的進(jìn)步需要我們能夠在不考慮的情況下做事情，因此顯然，具有盡可能多的信任和可靠性的完全自治是最終目標(biāo)。讓千千萬(wàn)萬(wàn)的智能體綻放！大多數(shù)人都從AI助手開始，但Josh Browder正在開發(fā)AI律師，Replika正在開發(fā)AIWaifu，我想要AI初級(jí)開發(fā)人員和AI視頻、播客和通訊編輯，Karpathy希望我們繼續(xù)與AI C-Suite合作。

幸運(yùn)的是，我們不必從頭開始推理出這個(gè)進(jìn)展的每一步，因?yàn)槠嚬こ處焻f(xié)會(huì)在將近十年前為此建立了一種簡(jiǎn)化方法：

我會(huì)假設(shè)您對(duì)一些自動(dòng)駕駛汽車的討論有所了解，但是現(xiàn)在是時(shí)候了解，2023年的自主駕駛AI智能體大約處于自動(dòng)駕駛汽車在2015年左右的水平。我們開始在我們使用的東西中加入了一些智能，比如Copilot和Gmail的自動(dòng)完成，但這些都是非常輕量級(jí)的，我們的隱喻性“雙手”始終保持在10點(diǎn)和2點(diǎn)的位置。

在接下來(lái)的十年里，我們將對(duì)我們的智能體產(chǎn)生足夠的信任，從一個(gè)AI對(duì)多人的范式轉(zhuǎn)變?yōu)橐粋€(gè)AI對(duì)一個(gè)人，然后再轉(zhuǎn)變?yōu)橐粋€(gè)人對(duì)多個(gè)AI，這個(gè)過(guò)程將加速類似于從1960年代到2010年代計(jì)算產(chǎn)業(yè)化的版本，因?yàn)樵诒忍嘏c原子之間進(jìn)行迭代和操控更加容易。

在自治人工智能領(lǐng)域，將會(huì)有兩種不同的觀點(diǎn)或流派：

就業(yè)派（Jobs School）：AI智能體增強(qiáng)您的智能體能力，就像是“為你的思維提供的自行車”。

扎克派（Zuck School）：AI算法取代您的智能體能力，控制您的思維。

我們會(huì)盡力將我們的努力引導(dǎo)到前者，但并不總是會(huì)成功。

Auto-GPT概要

提示工程的下一個(gè)前沿

Auto-GPT（以及其年輕的兄弟BabyAGI）是獨(dú)立開發(fā)的Python項(xiàng)目，分別于3月30日和4月2日開源，已經(jīng)引起了巨大的關(guān)注。在過(guò)去的兩周中，Auto-GPT在Twitter和GitHub上都趨于第一的熱度（遠(yuǎn)遠(yuǎn)超過(guò)了其他所有開源AI項(xiàng)目，包括Segment-Anything、Stable Diffusion，以及現(xiàn)在由Sequoia投資、估值2億美元的LangChain）。

這兩個(gè)項(xiàng)目都不涉及基礎(chǔ)模型的訓(xùn)練，實(shí)際上也沒有任何深度機(jī)器學(xué)習(xí)創(chuàng)新；相反，它們展示了將現(xiàn)有的語(yǔ)言模型API（如GPT3、4或任何替代品）和推理/工具選擇提示模式無(wú)限循環(huán)地應(yīng)用，以執(zhí)行潛在地?zé)o限長(zhǎng)時(shí)間運(yùn)行的迭代工作，以實(shí)現(xiàn)人類用戶設(shè)定的高級(jí)目標(biāo)。

我們確實(shí)是指“高級(jí)” Toran Richards 最初為 Auto-GPT 做的演示是“一個(gè)旨在自主開發(fā)和經(jīng)營(yíng)企業(yè)，唯一目標(biāo)是增加您的凈資產(chǎn)”的AI，而 Yohei Nakajima 編寫了 Jackson Fall 在ChatGPT 上的病毒式 HustleGPT 提示，并告訴它“開始并發(fā)展一家移動(dòng)AI初創(chuàng)企業(yè)”。在此后的兩周里，社區(qū)成員構(gòu)建了擴(kuò)展、克壟智能體管理器、框架、ChatGPT插件和可視化工具包等，應(yīng)用領(lǐng)域包括市場(chǎng)研究、測(cè)試驅(qū)動(dòng)開發(fā)和科學(xué)文獻(xiàn)審查。

除了這些相似之處，這兩個(gè)項(xiàng)目在方法上有很大的不同。

BabyAGI 故意設(shè)計(jì)得很小，添加和剝離了 LangChain，其初始代碼不到150行，10個(gè)環(huán)境變量（現(xiàn)在約為800行代碼）。

而 Auto-GPT 則更加廣泛（7300 行代碼），具備克隆 GitHub 存儲(chǔ)庫(kù)、啟動(dòng)其他智能體、語(yǔ)音交流、發(fā)送推文和生成圖像的功能，需要50個(gè)環(huán)境變量來(lái)支持每個(gè)向量數(shù)據(jù)庫(kù)和LLM提供商/文本到圖像模型/瀏覽器。

這些項(xiàng)目也引起了人工智能專家的想象力，Andrej Karpathy 稱AutoGPT是“提示工程的下一個(gè)前沿”，而Eliezer Yudkowsky贊許地觀察到BabyAGI即使在提示時(shí)也拒絕將世界變成回形針。

一款A(yù)I生成頭像工具，可以生成各種風(fēng)格的頭像，快來(lái)試試吧~

源于硅谷、扎根中國(guó)，上海殷泊信息科技有限公司 (MoPaaS) 是中國(guó)領(lǐng)先的人工智能(AI)平臺(tái)和服務(wù)提供商，為用戶的數(shù)字轉(zhuǎn)型、智能升級(jí)和融合創(chuàng)新直接賦能。針對(duì)中國(guó)AI應(yīng)用和工程市場(chǎng)的需求，基于自主的智能云平臺(tái)專利技術(shù)，MoPaaS 在業(yè)界率先推出新一代開放的AI平臺(tái)為加速客戶AI技術(shù)創(chuàng)新和應(yīng)用落地提供高效的算力優(yōu)化和規(guī)�；疉I模型開發(fā)、部署和運(yùn)維 (ModelOps) 能力和服務(wù)；特別是針對(duì)企業(yè)應(yīng)用場(chǎng)景，提供包括大模型遷移適配、提示工程以及部署推理的端到端 LLMOps方案。MoPaaS AI平臺(tái)已經(jīng)服務(wù)在工業(yè)制造、能源交通、互聯(lián)網(wǎng)、醫(yī)療衛(wèi)生、金融技術(shù)、教學(xué)科研、政府等行業(yè)超過(guò)300家國(guó)內(nèi)外滿意的客戶的AI技術(shù)研發(fā)、人才培養(yǎng)和應(yīng)用落地工程需求。MoPaaS致力打造全方位開放的AI技術(shù)和應(yīng)用生態(tài)。MoPaaS 被Forrester評(píng)為中國(guó)企業(yè)級(jí)云平臺(tái)市場(chǎng)的卓越表現(xiàn)者 (Strong Performer)。