展會(huì)信息港展會(huì)大全

GPT-4準(zhǔn)確率飆升64%,還當(dāng)起了“老板”
來(lái)源:互聯(lián)網(wǎng)   發(fā)布日期:2024-01-29 16:11:51   瀏覽:3139次  

導(dǎo)讀:【新智元導(dǎo)讀】大模型幻覺問(wèn)題還有另一種解法?斯坦福聯(lián)手OpenAI研究人員提出「元提示」新方法,能夠讓大模型成為全能「指揮家」,匯聚不同專家模型精華,讓GPT-4的輸出更精準(zhǔn)。 新智元報(bào)道 編輯:桃子 好困 當(dāng)你讓大模型寫一首「莎士比亞十四行詩(shī)」,并以嚴(yán)...

【新智元導(dǎo)讀】大模型幻覺問(wèn)題還有另一種解法?斯坦福聯(lián)手OpenAI研究人員提出「元提示」新方法,能夠讓大模型成為全能「指揮家」,匯聚不同專家模型精華,讓GPT-4的輸出更精準(zhǔn)。

新智元報(bào)道

編輯:桃子 好困

當(dāng)你讓大模型寫一首「莎士比亞十四行詩(shī)」,并以嚴(yán)格的韻律「ABAB CDCD EFEF GG」執(zhí)行。

同時(shí),詩(shī)中還要包含提供的3個(gè)詞。

對(duì)于這么高難度的創(chuàng)作題,LLM在收到指令后,并不一定能夠按要求做出這首詩(shī)。

正所謂,人各有所長(zhǎng),LLM也是如此,僅憑單一模型有時(shí)是無(wú)法完成一項(xiàng)任務(wù)的。

那該如何解?

最近,來(lái)自斯坦福和OpenAI的兩位研究員,設(shè)計(jì)了一種提升LLM性能的全新方法元提示(meta-prompting)。

「元提示」能夠把單一的LLM變身為全能的「指揮家」。

論文地址:https://arxiv.org/abs/2401.12954

通過(guò)使用高層「元提示」指令,讓大模型把復(fù)雜任務(wù)拆成子任務(wù),然后再將這些任務(wù)分配給「專家模型」。

每個(gè)模型收到量身訂制的指令后,輸出結(jié)果。最終元模型有效整合這些結(jié)果,輸出最終的答案。

最重要的是,LLM還會(huì)利用自身理解、推理能力,對(duì)最終輸出結(jié)果進(jìn)行打磨和驗(yàn)證,確保輸出結(jié)果的準(zhǔn)確性。

這種合作方式,能夠讓LLM成為核心,通過(guò)靈活調(diào)用專家,在多種任務(wù)上實(shí)現(xiàn)大幅性能提升。

實(shí)驗(yàn)中,研究人員在Game of 24(24點(diǎn)游戲)、Checkmate-in-One、Python編程挑戰(zhàn)等多種任務(wù)上,為GPT-4集成了Python解釋器,在元提示策略下,模型性能刷新SOTA。

具體來(lái)說(shuō),相比「標(biāo)準(zhǔn)提示」提升了17.1%,相比「動(dòng)態(tài)專家提示」提高了17.3%,相比「多角色提示」提高了15.2%。

元提示讓LLM充當(dāng)「指揮者」

我們已看到,GPT-4、PaLM、LLaMa等新一代大模型已經(jīng)在NLP處理生成中,展現(xiàn)出強(qiáng)大的泛化能力。

然而,所有的LLM并非強(qiáng)大到無(wú)所不能,也會(huì)在輸出結(jié)果中產(chǎn)生「幻覺」,比如輸出不符合事實(shí)、誤導(dǎo)性的內(nèi)容。

隨著這些模型的運(yùn)行成本變得更加實(shí)惠,人們自然會(huì)問(wèn),是否可以使用「腳手架」(Scaffolding)系統(tǒng)并利用多個(gè) 大模型查詢,以便提升LLM輸出的準(zhǔn)確性和穩(wěn)健性?

在這項(xiàng)研究中,斯坦福和OpenAI的研究人員便提出了一種增強(qiáng)大模型性能的新技術(shù)元提示(meta-prompting)。

這個(gè)過(guò)程,就需要構(gòu)建一個(gè)高級(jí)「元提示」,來(lái)指示大模型:

1

將復(fù)雜的任務(wù)或問(wèn)題分解為多個(gè)小的、可管理的子任務(wù)

2

為每個(gè)子任務(wù)分配一個(gè)受過(guò)特定領(lǐng)域訓(xùn)練的「專家」模型

3

監(jiān)督這些專家模型之間的溝通

4

在整個(gè)過(guò)程中,運(yùn)用LLM理解、推理和驗(yàn)證能力

當(dāng)收到「查詢」時(shí),大模型在元提示下充當(dāng)「指揮者」。它會(huì)生成一個(gè)消息歷史,包含來(lái)自各種專家模型的響應(yīng)。

LLM最初負(fù)責(zé)生成消息歷史中的「指揮」部分,過(guò)程就包括選擇專家模型,并為它們制定具體指示。

然而,相同的LLM也可以充當(dāng)這些獨(dú)立專家,根據(jù)指揮者為每個(gè)特定查詢選擇的專業(yè)知識(shí)和信息生成輸出。

這種方法允許單一、統(tǒng)一的LLM保持一致的推理思路,同時(shí)還可以利用各種專家角色。

通過(guò)動(dòng)態(tài)選擇的上下文來(lái)提示這些專家,從而為大模型流程引入了新的視角,而指揮模型則保留了整個(gè)歷史和協(xié)調(diào)的全景圖。

因此,這種方法使單個(gè)黑盒LLM,能夠有效地充當(dāng)核心指揮者的角色,又可以作為多樣化專家小組生成更準(zhǔn)確、可靠和一致的響應(yīng)。

作者介紹,「元提示」方法結(jié)合并擴(kuò)展了進(jìn)來(lái)一系列關(guān)于各種 「提示理念」的研究。

其中,就包括高層次規(guī)劃和決策、動(dòng)態(tài)角色分配、多智能體辯論、自我調(diào)試和自我反思等等。

任何任務(wù),皆不懼

而「元提示」獨(dú)到之處就在于,與任務(wù)無(wú)關(guān)性。

與需要針對(duì)每個(gè)任務(wù)量身定制的特定指令或示例的傳統(tǒng)腳手架方法不同,「元提示」是在各種任務(wù)和輸入中采用同一組高級(jí)指令。

這種通用性對(duì)用戶來(lái)說(shuō)非常有利,因?yàn)闉槊總(gè)不同任務(wù)提供詳細(xì)示例,或具體指導(dǎo)非常的麻煩。

舉個(gè)栗子,當(dāng)收到「寫一首關(guān)于自拍的莎士比亞十四行詩(shī)」之類的一次性請(qǐng)求時(shí),用戶不需要提供「高質(zhì)量新古典主義詩(shī)歌」的示例。

「元提示」通過(guò)提供廣泛、靈活的框架,提高了LLM的實(shí)用性,同時(shí)又不影響相關(guān)性。

此外,為了展示「元提示」的多功能性和集成功能,研究人員還調(diào)用「Python解釋器」的功能,增強(qiáng)了AI系統(tǒng)。

這使得該技術(shù)的應(yīng)用更加動(dòng)態(tài)和全面,進(jìn)一步擴(kuò)展了其有效解決各種任務(wù)和查詢的潛力。

下圖中,展示了「元提示」對(duì)話內(nèi)容的可視化。

具體描述了元模型(中心控制LLM,又名「指揮者」)如何將其自身的輸出,與各種專家模型或代碼執(zhí)行的輸入和輸出穿插在一起。

這樣的配置使得元提示成為幾乎通用的工具。

它允許將各種LLM交互和計(jì)算整合到一個(gè)單一的、一致的描述中!冈崾尽沟呐c眾不同之處在于,它讓大模型自行決斷使用哪些提示以及執(zhí)行哪些代碼片段。

算法過(guò)程

「元提示」方法的本意是,使用模型來(lái)協(xié)調(diào)和執(zhí)行多個(gè)獨(dú)立的查詢,然后綜合它們的響應(yīng)以輸出最終響應(yīng)。

這一機(jī)制支持集成方法,利用獨(dú)立專業(yè)模型的優(yōu)勢(shì)和多樣性,來(lái)協(xié)作解決和解決多方面的任務(wù)或問(wèn)題。

研究人員認(rèn)為,雖然單個(gè)通用模型可能為通用查詢提供有價(jià)值且有用的見解,但結(jié)合多個(gè)特定領(lǐng)域模型(我們也稱為專家)的觀點(diǎn)和結(jié)論有可能輸出更全面、更穩(wěn)健的結(jié)果,甚至是準(zhǔn)確的解決方案。

我們的元提示策略的核心是其淺層次結(jié)構(gòu),其中一個(gè)模型(稱為"元模型")作為權(quán)威的主要實(shí)體出現(xiàn)。

從概念上講,框架內(nèi)的特定領(lǐng)域?qū)<铱梢圆扇《喾N形式,例如為執(zhí)行特定任務(wù)而定制的微調(diào)LLM、用于處理特定領(lǐng)域相關(guān)查詢的專用API,甚至是計(jì)算器或Python解釋器等計(jì)算工具可以執(zhí)行算術(shù)計(jì)算或編寫和執(zhí)行代碼。

這些專家盡管功能各異,但都在元模型的監(jiān)督下進(jìn)行指導(dǎo)和統(tǒng)一。

實(shí)驗(yàn)設(shè)置中,只能通過(guò)元模型調(diào)用專家模型,它們之間不能直接相互交流。這一限制,是為了簡(jiǎn)化專家之間的溝通,并將元模型置于操作的中心。

-轉(zhuǎn)換輸入

使用轉(zhuǎn)換函數(shù)t_init,將原始查詢放置在合適的模板(template)中,然后向元模型發(fā)出初始指令。

- 循環(huán)迭代

(a)提示元模型:當(dāng)前消息列表,即H_t,指導(dǎo)元模型的下一步行動(dòng)直接處理查詢,或咨詢特定領(lǐng)域的專家。

(b)調(diào)用特定領(lǐng)域的專家模型:如果元模型沒有返回結(jié)果,它可以調(diào)用任何專家并給它指令,這些指令是使用e_exp從其輸出中提取的。不過(guò),這個(gè)過(guò)程是孤立的:每個(gè)專家模型只能看到元模型選擇與它們共享的內(nèi)容,并做出相應(yīng)的響應(yīng)。

比如,如果問(wèn)題涉及數(shù)學(xué)和歷史,元模型可能會(huì)咨詢數(shù)學(xué)專家進(jìn)行計(jì)算,并咨詢歷史專家了解歷史背景。專家的輸出結(jié)果會(huì)被提取出來(lái),并附加額外的說(shuō)明,所有這些都使用t_mid模板。

(c)返回最終響應(yīng):如果元模型的響應(yīng)包含最終答案(通過(guò)不同的特殊標(biāo)記突出顯示),則使用e_ret提取解決方案并返回。

(d)錯(cuò)誤處理:如果模型響應(yīng)y_t既不包含最終答案,也不包含對(duì)專家模型的調(diào)用,則在信息列表中附加錯(cuò)誤信息H_t。這確保了程序是穩(wěn)健的,并可以處理意外的輸出。

在接下來(lái)的實(shí)驗(yàn)中,研究人員將「元提示」與四種基線方法進(jìn)行了比較,包括標(biāo)準(zhǔn)提示(Standard prompting)、零樣本CoT提示、專家提示、多角色提示。

此外,為了評(píng)估「元提示」方法相對(duì)于其他零樣本提示基線的有效性,研究人員還采用了一系列需要不同程度的數(shù)學(xué)和算法推理、特定領(lǐng)域知識(shí)和文學(xué)創(chuàng)作能力的任務(wù)和數(shù)據(jù)集。

其中包括:

- 24點(diǎn)游戲:使用四個(gè)給定數(shù)字中的每一個(gè),恰好一次組成一個(gè)值為24的算術(shù)表達(dá)式

- Three BIG-Bench Hard:即幾何形狀、多步算術(shù)、單詞排序

- Python編程難題:一系列用Python編寫的具有挑戰(zhàn)性的編程難題,具有不同的難度級(jí)別

- 多語(yǔ)種小學(xué)數(shù)學(xué):是GSM8K數(shù)據(jù)集的多語(yǔ)種版本,將一個(gè)子集的示例翻譯成十種不同類型的語(yǔ)言

- 莎士比亞十四行詩(shī)寫作:目標(biāo)是以嚴(yán)格的韻律「ABAB CDCD EFEF GG」寫一首十四行詩(shī),需要包含提供的三個(gè)詞。

主要成果

從表1所示的結(jié)果中可以看到,元提示(meta-prompting)技術(shù)相較于傳統(tǒng)的零樣本(zero-shot)提示技術(shù)具有明顯的優(yōu)勢(shì)

元提示技術(shù)的表現(xiàn)分別比標(biāo)準(zhǔn)提示提高了17.1%,比專家(動(dòng)態(tài))提示(expert (dynamic) prompting)提高了17.3%,以及比多人格提示(multipersona prompting)提高了15.2%。

而在Python解釋器的輔助下,元提示(meta-prompting)技術(shù)在多種任務(wù)上顯著超越了傳統(tǒng)的零樣本(zero-shot)提示技術(shù)。這一方法在解決那些高度依賴啟發(fā)式或反復(fù)試錯(cuò)策略的任務(wù)上表現(xiàn)出色。

例如,在24點(diǎn)游戲挑戰(zhàn)中,與傳統(tǒng)提示方法相比,元提示技術(shù)使準(zhǔn)確度大幅提升了超過(guò)60%,在Python編程難題上取得了約15%的提升,并在十四行詩(shī)創(chuàng)作上實(shí)現(xiàn)了近18%的提升。

零樣本分解、錯(cuò)誤檢測(cè)與聚合

元提示框架之所以成功,一大原因是它巧妙地利用了專業(yè)知識(shí)、內(nèi)部合作以及在過(guò)程中不斷自我檢驗(yàn)的機(jī)制。

這種方法,連同采用多角色互動(dòng)的方式,促進(jìn)了多輪對(duì)話,讓不同的角色共同參與到解決問(wèn)題的過(guò)程中。

以解決MGSM數(shù)據(jù)集中的多語(yǔ)言算術(shù)問(wèn)題為例,GPT-4在采用元提示方法時(shí),通常會(huì)經(jīng)歷三個(gè)階段:

首先將問(wèn)題從源語(yǔ)言(比如,孟加拉語(yǔ))翻譯成英語(yǔ),接著應(yīng)用計(jì)算專長(zhǎng)(例如,請(qǐng)求數(shù)學(xué)專家的幫助)來(lái)尋找解決方案,最后進(jìn)行獨(dú)立或驗(yàn)證確認(rèn)。

其中,元提示能夠在不被明確指令的情況下完成這樣的翻譯。

新視角

這個(gè)概念可以幫助解決一個(gè)廣為人知的問(wèn)題:大語(yǔ)言模型傾向于重復(fù)自己的錯(cuò)誤,并且還非常自信。

相比于多角色提示,元提示會(huì)在過(guò)程中讓專家或不同角色重新審視問(wèn)題,從而為發(fā)現(xiàn)新的見解和先前未被注意到的錯(cuò)誤提供了可能。

想象一下,如果任務(wù)是解決24點(diǎn)游戲,即用6、11、12和13這四個(gè)數(shù)字,每個(gè)各用一次,組成一個(gè)算術(shù)表達(dá)式,使其結(jié)果為24:

1

元模型(Meta Model)建議咨詢數(shù)學(xué)、問(wèn)題解決和Python編程的專家。強(qiáng)調(diào)需要準(zhǔn)確無(wú)誤地遵循規(guī)則,并在必要時(shí)讓其他專家進(jìn)行復(fù)審。

2

在一位專家給出方案后,另一位專家指出了其中的錯(cuò)誤。于是,元模型建議編寫一個(gè)Python程序來(lái)搜索可行的方案。

3

接著,元模型邀請(qǐng)了一位編程專家負(fù)責(zé)編寫這個(gè)程序。

4

另一位編程專家隨后發(fā)現(xiàn)了程序中的錯(cuò)誤,對(duì)其進(jìn)行了修改,并執(zhí)行了更新后的程序。

5

為了確保輸出的結(jié)果無(wú)誤,元模型又請(qǐng)了一位數(shù)學(xué)專家來(lái)進(jìn)行驗(yàn)證。

6

經(jīng)過(guò)核驗(yàn),元模型最終給出了答案。

可以看到,通過(guò)在每一步驟中加入新的視角,元提示不僅能找到問(wèn)題的解決方案,還能有效地發(fā)現(xiàn)并更正錯(cuò)誤。

實(shí)時(shí)代碼執(zhí)行

通過(guò)在高級(jí)編程策略中引入Python編程專家,并使其根據(jù)人類的自然語(yǔ)言指令來(lái)編寫并執(zhí)行代碼,研究人員成功地把解決問(wèn)題的比例從32.7%提高到了45.8%。

這種實(shí)時(shí)執(zhí)行代碼的能力,讓研究人員能夠即時(shí)地驗(yàn)證和優(yōu)化解決方案,極大地提升了解決問(wèn)題的效率和準(zhǔn)確性。

而且,這種提升的效果并不局限于某一種特定的任務(wù)。

在24點(diǎn)游戲和單詞排序這樣的任務(wù)中,將Python解釋器集成到元提示中后,準(zhǔn)確率分別提高了56.0%和15.6%。(與基線相比則分別提高了64.0%和19.2%)。

總的來(lái)說(shuō),Python解釋器可以讓各類任務(wù)的平均性能提升額外的11.5%。

作者介紹

Mirac Suzgun

Mirac Suzgun是斯坦福大學(xué)計(jì)算機(jī)科學(xué)專業(yè)的博士生,同時(shí)他也在斯坦福法學(xué)院攻讀法學(xué)博士學(xué)位。

他專注于研究大語(yǔ)言模型(LLM)的局限與潛能,尋找更有效、更易于理解的文本生成方法。

他本科畢業(yè)于哈佛學(xué)院,取得了數(shù)學(xué)與計(jì)算機(jī)科學(xué)的雙學(xué)位,并輔修了民間傳說(shuō)與神話學(xué)。

Adam Tauman Kalai

Adam Tauman Kalai是OpenAI的一名研究員,專注于Lilian Weng領(lǐng)導(dǎo)下的AI安全與倫理問(wèn)題。

在此之前,他在微軟研究院新英格蘭分部工作,自該研究院2008年成立以來(lái),共參與了包括代碼生成(教計(jì)算機(jī)編程)、公平性原則、算法設(shè)計(jì)、翻譯鯨魚語(yǔ)言、博弈論、計(jì)算機(jī)幽默、眾包技術(shù)等多個(gè)有趣項(xiàng)目的研究。

在加入微軟研究院之前,他曾在喬治亞理工學(xué)院和豐田工業(yè)大學(xué)芝加哥分校擔(dān)任計(jì)算機(jī)科學(xué)助理教授。

參考資料:

https://arxiv.org/abs/2401.12954

贊助本站

人工智能實(shí)驗(yàn)室
相關(guān)內(nèi)容
AiLab云推薦
推薦內(nèi)容
展開

熱門欄目HotCates

Copyright © 2010-2024 AiLab Team. 人工智能實(shí)驗(yàn)室 版權(quán)所有    關(guān)于我們 | 聯(lián)系我們 | 廣告服務(wù) | 公司動(dòng)態(tài) | 免責(zé)聲明 | 隱私條款 | 工作機(jī)會(huì) | 展會(huì)港