當(dāng)前位置：人工智能實(shí)驗(yàn)室> 人工智能應(yīng)用 > GPT-4準(zhǔn)確率飆升64%，還當(dāng)起了“老板”

GPT-4準(zhǔn)確率飆升64%，還當(dāng)起了“老板”
來(lái)源：互聯(lián)網(wǎng) 發(fā)布日期：2024-01-29 16:11:51 瀏覽：3139次

導(dǎo)讀：【新智元導(dǎo)讀】大模型幻覺問(wèn)題還有另一種解法？斯坦福聯(lián)手OpenAI研究人員提出「元提示」新方法，能夠讓大模型成為全能「指揮家」，匯聚不同專家模型精華，讓GPT-4的輸出更精準(zhǔn)。新智元報(bào)道編輯：桃子好困當(dāng)你讓大模型寫一首「莎士比亞十四行詩(shī)」，并以嚴(yán)...

【新智元導(dǎo)讀】大模型幻覺問(wèn)題還有另一種解法？斯坦福聯(lián)手OpenAI研究人員提出「元提示」新方法，能夠讓大模型成為全能「指揮家」，匯聚不同專家模型精華，讓GPT-4的輸出更精準(zhǔn)。

新智元報(bào)道

編輯：桃子好困

當(dāng)你讓大模型寫一首「莎士比亞十四行詩(shī)」，并以嚴(yán)格的韻律「ABAB CDCD EFEF GG」執(zhí)行。

同時(shí)，詩(shī)中還要包含提供的3個(gè)詞。

對(duì)于這么高難度的創(chuàng)作題，LLM在收到指令后，并不一定能夠按要求做出這首詩(shī)。

正所謂，人各有所長(zhǎng)，LLM也是如此，僅憑單一模型有時(shí)是無(wú)法完成一項(xiàng)任務(wù)的。

那該如何解？

最近，來(lái)自斯坦福和OpenAI的兩位研究員，設(shè)計(jì)了一種提升LLM性能的全新方法元提示（meta-prompting）。

「元提示」能夠把單一的LLM變身為全能的「指揮家」。

論文地址：https://arxiv.org/abs/2401.12954

通過(guò)使用高層「元提示」指令，讓大模型把復(fù)雜任務(wù)拆成子任務(wù)，然后再將這些任務(wù)分配給「專家模型」。

每個(gè)模型收到量身訂制的指令后，輸出結(jié)果。最終元模型有效整合這些結(jié)果，輸出最終的答案。

最重要的是，LLM還會(huì)利用自身理解、推理能力，對(duì)最終輸出結(jié)果進(jìn)行打磨和驗(yàn)證，確保輸出結(jié)果的準(zhǔn)確性。

這種合作方式，能夠讓LLM成為核心，通過(guò)靈活調(diào)用專家，在多種任務(wù)上實(shí)現(xiàn)大幅性能提升。

實(shí)驗(yàn)中，研究人員在Game of 24（24點(diǎn)游戲）、Checkmate-in-One、Python編程挑戰(zhàn)等多種任務(wù)上，為GPT-4集成了Python解釋器，在元提示策略下，模型性能刷新SOTA。

具體來(lái)說(shuō)，相比「標(biāo)準(zhǔn)提示」提升了17.1%，相比「動(dòng)態(tài)專家提示」提高了17.3%，相比「多角色提示」提高了15.2%。

元提示讓LLM充當(dāng)「指揮者」

我們已看到，GPT-4、PaLM、LLaMa等新一代大模型已經(jīng)在NLP處理生成中，展現(xiàn)出強(qiáng)大的泛化能力。

然而，所有的LLM并非強(qiáng)大到無(wú)所不能，也會(huì)在輸出結(jié)果中產(chǎn)生「幻覺」，比如輸出不符合事實(shí)、誤導(dǎo)性的內(nèi)容。

隨著這些模型的運(yùn)行成本變得更加實(shí)惠，人們自然會(huì)問(wèn)，是否可以使用「腳手架」（Scaffolding）系統(tǒng)并利用多個(gè) 大模型查詢，以便提升LLM輸出的準(zhǔn)確性和穩(wěn)健性？

在這項(xiàng)研究中，斯坦福和OpenAI的研究人員便提出了一種增強(qiáng)大模型性能的新技術(shù)元提示（meta-prompting）。

這個(gè)過(guò)程，就需要構(gòu)建一個(gè)高級(jí)「元提示」，來(lái)指示大模型：

將復(fù)雜的任務(wù)或問(wèn)題分解為多個(gè)小的、可管理的子任務(wù)

為每個(gè)子任務(wù)分配一個(gè)受過(guò)特定領(lǐng)域訓(xùn)練的「專家」模型

監(jiān)督這些專家模型之間的溝通

在整個(gè)過(guò)程中，運(yùn)用LLM理解、推理和驗(yàn)證能力

當(dāng)收到「查詢」時(shí)，大模型在元提示下充當(dāng)「指揮者」。它會(huì)生成一個(gè)消息歷史，包含來(lái)自各種專家模型的響應(yīng)。

LLM最初負(fù)責(zé)生成消息歷史中的「指揮」部分，過(guò)程就包括選擇專家模型，并為它們制定具體指示。

然而，相同的LLM也可以充當(dāng)這些獨(dú)立專家，根據(jù)指揮者為每個(gè)特定查詢選擇的專業(yè)知識(shí)和信息生成輸出。

這種方法允許單一、統(tǒng)一的LLM保持一致的推理思路，同時(shí)還可以利用各種專家角色。

通過(guò)動(dòng)態(tài)選擇的上下文來(lái)提示這些專家，從而為大模型流程引入了新的視角，而指揮模型則保留了整個(gè)歷史和協(xié)調(diào)的全景圖。

因此，這種方法使單個(gè)黑盒LLM，能夠有效地充當(dāng)核心指揮者的角色，又可以作為多樣化專家小組生成更準(zhǔn)確、可靠和一致的響應(yīng)。

作者介紹，「元提示」方法結(jié)合并擴(kuò)展了進(jìn)來(lái)一系列關(guān)于各種「提示理念」的研究。

其中，就包括高層次規(guī)劃和決策、動(dòng)態(tài)角色分配、多智能體辯論、自我調(diào)試和自我反思等等。

任何任務(wù)，皆不懼

而「元提示」獨(dú)到之處就在于，與任務(wù)無(wú)關(guān)性。

與需要針對(duì)每個(gè)任務(wù)量身定制的特定指令或示例的傳統(tǒng)腳手架方法不同，「元提示」是在各種任務(wù)和輸入中采用同一組高級(jí)指令。

這種通用性對(duì)用戶來(lái)說(shuō)非常有利，因?yàn)闉槊總€(gè)不同任務(wù)提供詳細(xì)示例，或具體指導(dǎo)非常的麻煩。

舉個(gè)栗子，當(dāng)收到「寫一首關(guān)于自拍的莎士比亞十四行詩(shī)」之類的一次性請(qǐng)求時(shí)，用戶不需要提供「高質(zhì)量新古典主義詩(shī)歌」的示例。

「元提示」通過(guò)提供廣泛、靈活的框架，提高了LLM的實(shí)用性，同時(shí)又不影響相關(guān)性。

此外，為了展示「元提示」的多功能性和集成功能，研究人員還調(diào)用「Python解釋器」的功能，增強(qiáng)了AI系統(tǒng)。

這使得該技術(shù)的應(yīng)用更加動(dòng)態(tài)和全面，進(jìn)一步擴(kuò)展了其有效解決各種任務(wù)和查詢的潛力。

下圖中，展示了「元提示」對(duì)話內(nèi)容的可視化。

具體描述了元模型（中心控制LLM，又名「指揮者」）如何將其自身的輸出，與各種專家模型或代碼執(zhí)行的輸入和輸出穿插在一起。

這樣的配置使得元提示成為幾乎通用的工具。

它允許將各種LLM交互和計(jì)算整合到一個(gè)單一的、一致的描述中�！冈崾尽沟呐c眾不同之處在于，它讓大模型自行決斷使用哪些提示以及執(zhí)行哪些代碼片段。

算法過(guò)程

「元提示」方法的本意是，使用模型來(lái)協(xié)調(diào)和執(zhí)行多個(gè)獨(dú)立的查詢，然后綜合它們的響應(yīng)以輸出最終響應(yīng)。

這一機(jī)制支持集成方法，利用獨(dú)立專業(yè)模型的優(yōu)勢(shì)和多樣性，來(lái)協(xié)作解決和解決多方面的任務(wù)或問(wèn)題。

研究人員認(rèn)為，雖然單個(gè)通用模型可能為通用查詢提供有價(jià)值且有用的見解，但結(jié)合多個(gè)特定領(lǐng)域模型（我們也稱為專家）的觀點(diǎn)和結(jié)論有可能輸出更全面、更穩(wěn)健的結(jié)果，甚至是準(zhǔn)確的解決方案。

我們的元提示策略的核心是其淺層次結(jié)構(gòu)，其中一個(gè)模型（稱為"元模型"）作為權(quán)威的主要實(shí)體出現(xiàn)。

從概念上講，框架內(nèi)的特定領(lǐng)域?qū)＜铱梢圆扇《喾N形式，例如為執(zhí)行特定任務(wù)而定制的微調(diào)LLM、用于處理特定領(lǐng)域相關(guān)查詢的專用API，甚至是計(jì)算器或Python解釋器等計(jì)算工具可以執(zhí)行算術(shù)計(jì)算或編寫和執(zhí)行代碼。

這些專家盡管功能各異，但都在元模型的監(jiān)督下進(jìn)行指導(dǎo)和統(tǒng)一。

實(shí)驗(yàn)設(shè)置中，只能通過(guò)元模型調(diào)用專家模型，它們之間不能直接相互交流。這一限制，是為了簡(jiǎn)化專家之間的溝通，并將元模型置于操作的中心。

-轉(zhuǎn)換輸入

使用轉(zhuǎn)換函數(shù)t_init，將原始查詢放置在合適的模板（template）中，然后向元模型發(fā)出初始指令。

- 循環(huán)迭代

（a）提示元模型：當(dāng)前消息列表，即H_t，指導(dǎo)元模型的下一步行動(dòng)直接處理查詢，或咨詢特定領(lǐng)域的專家。

（b）調(diào)用特定領(lǐng)域的專家模型：如果元模型沒有返回結(jié)果，它可以調(diào)用任何專家并給它指令，這些指令是使用e_exp從其輸出中提取的。不過(guò)，這個(gè)過(guò)程是孤立的：每個(gè)專家模型只能看到元模型選擇與它們共享的內(nèi)容，并做出相應(yīng)的響應(yīng)。

比如，如果問(wèn)題涉及數(shù)學(xué)和歷史，元模型可能會(huì)咨詢數(shù)學(xué)專家進(jìn)行計(jì)算，并咨詢歷史專家了解歷史背景。專家的輸出結(jié)果會(huì)被提取出來(lái)，并附加額外的說(shuō)明，所有這些都使用t_mid模板。

（c）返回最終響應(yīng)：如果元模型的響應(yīng)包含最終答案（通過(guò)不同的特殊標(biāo)記突出顯示），則使用e_ret提取解決方案并返回。

（d）錯(cuò)誤處理：如果模型響應(yīng)y_t既不包含最終答案，也不包含對(duì)專家模型的調(diào)用，則在信息列表中附加錯(cuò)誤信息H_t。這確保了程序是穩(wěn)健的，并可以處理意外的輸出。

在接下來(lái)的實(shí)驗(yàn)中，研究人員將「元提示」與四種基線方法進(jìn)行了比較，包括標(biāo)準(zhǔn)提示（Standard prompting）、零樣本CoT提示、專家提示、多角色提示。

此外，為了評(píng)估「元提示」方法相對(duì)于其他零樣本提示基線的有效性，研究人員還采用了一系列需要不同程度的數(shù)學(xué)和算法推理、特定領(lǐng)域知識(shí)和文學(xué)創(chuàng)作能力的任務(wù)和數(shù)據(jù)集。

其中包括：

- 24點(diǎn)游戲：使用四個(gè)給定數(shù)字中的每一個(gè)，恰好一次組成一個(gè)值為24的算術(shù)表達(dá)式

- Three BIG-Bench Hard：即幾何形狀、多步算術(shù)、單詞排序

- Python編程難題：一系列用Python編寫的具有挑戰(zhàn)性的編程難題，具有不同的難度級(jí)別

- 多語(yǔ)種小學(xué)數(shù)學(xué)：是GSM8K數(shù)據(jù)集的多語(yǔ)種版本，將一個(gè)子集的示例翻譯成十種不同類型的語(yǔ)言

- 莎士比亞十四行詩(shī)寫作：目標(biāo)是以嚴(yán)格的韻律「ABAB CDCD EFEF GG」寫一首十四行詩(shī)，需要包含提供的三個(gè)詞。

主要成果

從表1所示的結(jié)果中可以看到，元提示（meta-prompting）技術(shù)相較于傳統(tǒng)的零樣本（zero-shot）提示技術(shù)具有明顯的優(yōu)勢(shì)

元提示技術(shù)的表現(xiàn)分別比標(biāo)準(zhǔn)提示提高了17.1%，比專家（動(dòng)態(tài)）提示（expert (dynamic) prompting）提高了17.3%，以及比多人格提示（multipersona prompting）提高了15.2%。

而在Python解釋器的輔助下，元提示（meta-prompting）技術(shù)在多種任務(wù)上顯著超越了傳統(tǒng)的零樣本（zero-shot）提示技術(shù)。這一方法在解決那些高度依賴啟發(fā)式或反復(fù)試錯(cuò)策略的任務(wù)上表現(xiàn)出色。

例如，在24點(diǎn)游戲挑戰(zhàn)中，與傳統(tǒng)提示方法相比，元提示技術(shù)使準(zhǔn)確度大幅提升了超過(guò)60%，在Python編程難題上取得了約15%的提升，并在十四行詩(shī)創(chuàng)作上實(shí)現(xiàn)了近18%的提升。

零樣本分解、錯(cuò)誤檢測(cè)與聚合

元提示框架之所以成功，一大原因是它巧妙地利用了專業(yè)知識(shí)、內(nèi)部合作以及在過(guò)程中不斷自我檢驗(yàn)的機(jī)制。

這種方法，連同采用多角色互動(dòng)的方式，促進(jìn)了多輪對(duì)話，讓不同的角色共同參與到解決問(wèn)題的過(guò)程中。

以解決MGSM數(shù)據(jù)集中的多語(yǔ)言算術(shù)問(wèn)題為例，GPT-4在采用元提示方法時(shí)，通常會(huì)經(jīng)歷三個(gè)階段：

首先將問(wèn)題從源語(yǔ)言（比如，孟加拉語(yǔ)）翻譯成英語(yǔ)，接著應(yīng)用計(jì)算專長(zhǎng)（例如，請(qǐng)求數(shù)學(xué)專家的幫助）來(lái)尋找解決方案，最后進(jìn)行獨(dú)立或驗(yàn)證確認(rèn)。

其中，元提示能夠在不被明確指令的情況下完成這樣的翻譯。

新視角

這個(gè)概念可以幫助解決一個(gè)廣為人知的問(wèn)題：大語(yǔ)言模型傾向于重復(fù)自己的錯(cuò)誤，并且還非常自信。

相比于多角色提示，元提示會(huì)在過(guò)程中讓專家或不同角色重新審視問(wèn)題，從而為發(fā)現(xiàn)新的見解和先前未被注意到的錯(cuò)誤提供了可能。

想象一下，如果任務(wù)是解決24點(diǎn)游戲，即用6、11、12和13這四個(gè)數(shù)字，每個(gè)各用一次，組成一個(gè)算術(shù)表達(dá)式，使其結(jié)果為24：

元模型（Meta Model）建議咨詢數(shù)學(xué)、問(wèn)題解決和Python編程的專家。強(qiáng)調(diào)需要準(zhǔn)確無(wú)誤地遵循規(guī)則，并在必要時(shí)讓其他專家進(jìn)行復(fù)審。

在一位專家給出方案后，另一位專家指出了其中的錯(cuò)誤。于是，元模型建議編寫一個(gè)Python程序來(lái)搜索可行的方案。

接著，元模型邀請(qǐng)了一位編程專家負(fù)責(zé)編寫這個(gè)程序。

另一位編程專家隨后發(fā)現(xiàn)了程序中的錯(cuò)誤，對(duì)其進(jìn)行了修改，并執(zhí)行了更新后的程序。

為了確保輸出的結(jié)果無(wú)誤，元模型又請(qǐng)了一位數(shù)學(xué)專家來(lái)進(jìn)行驗(yàn)證。

經(jīng)過(guò)核驗(yàn)，元模型最終給出了答案。

可以看到，通過(guò)在每一步驟中加入新的視角，元提示不僅能找到問(wèn)題的解決方案，還能有效地發(fā)現(xiàn)并更正錯(cuò)誤。

實(shí)時(shí)代碼執(zhí)行

通過(guò)在高級(jí)編程策略中引入Python編程專家，并使其根據(jù)人類的自然語(yǔ)言指令來(lái)編寫并執(zhí)行代碼，研究人員成功地把解決問(wèn)題的比例從32.7%提高到了45.8%。

這種實(shí)時(shí)執(zhí)行代碼的能力，讓研究人員能夠即時(shí)地驗(yàn)證和優(yōu)化解決方案，極大地提升了解決問(wèn)題的效率和準(zhǔn)確性。

而且，這種提升的效果并不局限于某一種特定的任務(wù)。

在24點(diǎn)游戲和單詞排序這樣的任務(wù)中，將Python解釋器集成到元提示中后，準(zhǔn)確率分別提高了56.0%和15.6%。（與基線相比則分別提高了64.0%和19.2%）。

總的來(lái)說(shuō)，Python解釋器可以讓各類任務(wù)的平均性能提升額外的11.5%。

作者介紹

Mirac Suzgun

Mirac Suzgun是斯坦福大學(xué)計(jì)算機(jī)科學(xué)專業(yè)的博士生，同時(shí)他也在斯坦福法學(xué)院攻讀法學(xué)博士學(xué)位。

他專注于研究大語(yǔ)言模型（LLM）的局限與潛能，尋找更有效、更易于理解的文本生成方法。

他本科畢業(yè)于哈佛學(xué)院，取得了數(shù)學(xué)與計(jì)算機(jī)科學(xué)的雙學(xué)位，并輔修了民間傳說(shuō)與神話學(xué)。

Adam Tauman Kalai

Adam Tauman Kalai是OpenAI的一名研究員，專注于Lilian Weng領(lǐng)導(dǎo)下的AI安全與倫理問(wèn)題。

在此之前，他在微軟研究院新英格蘭分部工作，自該研究院2008年成立以來(lái)，共參與了包括代碼生成（教計(jì)算機(jī)編程）、公平性原則、算法設(shè)計(jì)、翻譯鯨魚語(yǔ)言、博弈論、計(jì)算機(jī)幽默、眾包技術(shù)等多個(gè)有趣項(xiàng)目的研究。

在加入微軟研究院之前，他曾在喬治亞理工學(xué)院和豐田工業(yè)大學(xué)芝加哥分校擔(dān)任計(jì)算機(jī)科學(xué)助理教授。

參考資料：

https://arxiv.org/abs/2401.12954

相關(guān)熱詞： GPT-4 準(zhǔn)確率飆升 64% 起了老板新智元導(dǎo)讀

上一篇：蘋果汽車，困于自動(dòng)駕駛

下一篇：“用AI打敗AI”，網(wǎng)絡(luò)安全如何AI賦能？| ToB產(chǎn)業(yè)觀察

AiLab云推薦

GPT-4準(zhǔn)確率飆升64%，還當(dāng)起了“老板”
來(lái)源：互聯(lián)網(wǎng) 發(fā)布日期：2024-01-29 16:11:51 瀏覽：3139次

相關(guān)內(nèi)容

AiLab云推薦

最新資訊

本月熱點(diǎn)

熱門排行

推薦內(nèi)容

在線客服

熱門欄目HotCates

關(guān)于我們

版權(quán)聲明

GPT-4準(zhǔn)確率飆升64%，還當(dāng)起了“老板” 來(lái)源：互聯(lián)網(wǎng) 發(fā)布日期：2024-01-29 16:11:51 瀏覽：3139次

相關(guān)內(nèi)容

AiLab云推薦

最新資訊

本月熱點(diǎn)

熱門排行

推薦內(nèi)容

在線客服

熱門欄目HotCates

關(guān)于我們

版權(quán)聲明

GPT-4準(zhǔn)確率飆升64%，還當(dāng)起了“老板”
來(lái)源：互聯(lián)網(wǎng) 發(fā)布日期：2024-01-29 16:11:51 瀏覽：3139次