展會(huì)信息港展會(huì)大全

LeCun又雙叒唱衰自回歸LLM:GPT-4的推理能力非常有限,有兩篇論文為證
來(lái)源:互聯(lián)網(wǎng)   發(fā)布日期:2023-10-25 18:52:13   瀏覽:6022次  

導(dǎo)讀:機(jī)器之心報(bào)道 機(jī)器之心編輯部 「任何認(rèn)為自動(dòng)回歸式 LLM 已經(jīng)接近人類水平的 AI,或者僅僅需要擴(kuò)大規(guī)模就能達(dá)到人類水平的人,都必須讀一讀這個(gè)。AR-LLM 的推理和規(guī)劃能力非常有限,要解決這個(gè)問(wèn)題,并不是把它們變大、用更多數(shù)據(jù)進(jìn)行訓(xùn)練就能解決的。」 一...

機(jī)器之心報(bào)道

機(jī)器之心編輯部

「任何認(rèn)為自動(dòng)回歸式 LLM 已經(jīng)接近人類水平的 AI,或者僅僅需要擴(kuò)大規(guī)模就能達(dá)到人類水平的人,都必須讀一讀這個(gè)。AR-LLM 的推理和規(guī)劃能力非常有限,要解決這個(gè)問(wèn)題,并不是把它們變大、用更多數(shù)據(jù)進(jìn)行訓(xùn)練就能解決的。」

一直以來(lái),圖靈獎(jiǎng)得主 Yann LeCun 就是 LLM 的「質(zhì)疑者」,而自回歸模型是 GPT 系列 LLM 模型所依賴的學(xué)習(xí)范式。他不止一次公開(kāi)表達(dá)過(guò)對(duì)自回歸和 LLM 的批評(píng),并產(chǎn)出了不少金句,比如:

「從現(xiàn)在起 5 年內(nèi),沒(méi)有哪個(gè)頭腦正常的人會(huì)使用自回歸模型!

「自回歸生成模型弱爆了。ˋuto-Regressive Generative Models suck!)」

「LLM 對(duì)世界的理解非常膚淺!

讓 LeCun 近日再次發(fā)出疾呼的,是兩篇新發(fā)布的論文:

「LLM 真的能像文獻(xiàn)中所說(shuō)的那樣自我批判(并迭代改進(jìn))其解決方案嗎?我們小組的兩篇新論文在推理 (https://arxiv.org/abs/2310.12397) 和規(guī)劃 (https://arxiv.org/abs/2310.08118) 任務(wù)中對(duì)這些說(shuō)法進(jìn)行了調(diào)查(并提出了質(zhì)疑)!

看起來(lái),這兩篇關(guān)于調(diào)查 GPT-4 的驗(yàn)證和自我批判能力的論文的主題引起了很多人的共鳴。

論文作者表示,他們同樣認(rèn)為 LLM 是了不起的「創(chuàng)意生成器」(無(wú)論是語(yǔ)言形式還是代碼形式),只是它們無(wú)法保證自己的規(guī)劃 / 推理能力。因此,它們最好在 LLM-Modulo 環(huán)境中使用(環(huán)路中要么有一個(gè)可靠的推理者,要么有一個(gè)人類專家)。自我批判需要驗(yàn)證,而驗(yàn)證是推理的一種形式(因此對(duì)所有關(guān)于 LLM 自我批判能力的說(shuō)法都感到驚訝)。

同時(shí),質(zhì)疑的聲音也是存在的:「卷積網(wǎng)絡(luò)的推理能力更加有限,但這并沒(méi)有阻止 AlphaZero 的工作出現(xiàn)。這都是關(guān)于推理過(guò)程和建立的 (RL) 反饋循環(huán)。我認(rèn)為模型能力可以進(jìn)行極其深入的推理(例如研究級(jí)數(shù)學(xué))!

對(duì)此,LeCun 的想法是:「AlphaZero「確實(shí)」執(zhí)行規(guī)劃。這是通過(guò)蒙特卡洛樹(shù)搜索完成的,使用卷積網(wǎng)絡(luò)提出好的動(dòng)作,并使用另一個(gè)卷積網(wǎng)絡(luò)來(lái)評(píng)估位置。探索這棵樹(shù)所花費(fèi)的時(shí)間可能是無(wú)限的,這就是推理和規(guī)劃。」

在未來(lái)的一段時(shí)間內(nèi),自回歸 LLM 是否具備推理和規(guī)劃能力的話題或許都不會(huì)有定論。

接下來(lái),我們可以先看看這兩篇新論文講了什么。

論文 1:GPT-4 Doesn’t Know It’s Wrong: An Analysis of Iterative Prompting for Reasoning Problems

第一篇論文引發(fā)了研究者對(duì)最先進(jìn)的 LLM 具有自我批判能力的質(zhì)疑,包括 GPT-4 在內(nèi)。

論文地址:https://arxiv.org/pdf/2310.12397.pdf

接下來(lái)我們看看論文簡(jiǎn)介。

人們對(duì)大型語(yǔ)言模型(LLM)的推理能力一直存在相當(dāng)大的分歧,最初,研究者樂(lè)觀的認(rèn)為 LLM 的推理能力隨著模型規(guī)模的擴(kuò)大會(huì)自動(dòng)出現(xiàn),然而,隨著更多失敗案例的出現(xiàn),人們的期望不再那么強(qiáng)烈。之后,研究者普遍認(rèn)為 LLM 具有自我批判( self-critique )的能力,并以迭代的方式改進(jìn) LLM 的解決方案,這一觀點(diǎn)被廣泛傳播。

然而事實(shí)真的是這樣嗎?

來(lái)自亞利桑那州立大學(xué)的研究者在新的研究中檢驗(yàn)了 LLM 的推理能力。具體而言,他們重點(diǎn)研究了迭代提示(iterative prompting)在圖著色問(wèn)題(是最著名的 NP - 完全問(wèn)題之一)中的有效性。

該研究表明(i)LLM 不擅長(zhǎng)解決圖著色實(shí)例(ii)LLM 不擅長(zhǎng)驗(yàn)證解決方案,因此在迭代模式下無(wú)效。從而,本文的結(jié)果引發(fā)了人們對(duì)最先進(jìn)的 LLM 自我批判能力的質(zhì)疑。

論文給出了一些實(shí)驗(yàn)結(jié)果,例如,在直接模式下,LLM 在解決圖著色實(shí)例方面非常糟糕,此外,研究還發(fā)現(xiàn) LLM 并不擅長(zhǎng)驗(yàn)證解決方案。然而更糟糕的是,系統(tǒng)無(wú)法識(shí)別正確的顏色,最終得到錯(cuò)誤的顏色。

如下圖是對(duì)圖著色問(wèn)題的評(píng)估,在該設(shè)置下,GPT-4 可以以獨(dú)立和自我批判的模式猜測(cè)顏色。在自我批判回路之外還有一個(gè)外部聲音驗(yàn)證器。

結(jié)果表明 GPT4 在猜測(cè)顏色方面的準(zhǔn)確率低于 20%,更令人驚訝的是,自我批判模式(下圖第二欄)的準(zhǔn)確率最低。本文還研究了相關(guān)問(wèn)題:如果外部聲音驗(yàn)證器對(duì) GPT-4 猜測(cè)的顏色提供可證明正確的批判,GPT-4 是否會(huì)改進(jìn)其解決方案。在這種情況下,反向提示確實(shí)可以提高性能。

即使 GPT-4 偶然猜出了一個(gè)有效的顏色,它的自我批判可能會(huì)讓它產(chǎn)生幻覺(jué),認(rèn)為不存在違規(guī)行為。

最后,作者給出總結(jié),對(duì)于圖著色問(wèn)題:

自我批判實(shí)際上會(huì)損害 LLM 的性能,因?yàn)?GPT-4 在驗(yàn)證方面很糟糕;

來(lái)自外部驗(yàn)證器的反饋確實(shí)能提高 LLM 的性能。

論文 2:Can Large Language Models Really Improve by Self-critiquing Their Own Plans?

在論文《Can Large Language Models Really Improve by Self-critiquing Their Own Plans?》中,研究團(tuán)隊(duì)探究了 LLM 在規(guī)劃(planning)的情境下自我驗(yàn)證 / 批判的能力。

這篇論文對(duì) LLM 批判自身輸出結(jié)果的能力進(jìn)行了系統(tǒng)研究,特別是在經(jīng)典規(guī)劃問(wèn)題的背景下。雖然最近的研究對(duì) LLM 的自我批判潛力持樂(lè)觀態(tài)度,尤其是在迭代環(huán)境中,但這項(xiàng)研究卻提出了不同的觀點(diǎn)。

論文地址:https://arxiv.org/abs/2310.08118

令人意外的是,研究結(jié)果表明,自我批判會(huì)降低規(guī)劃生成的性能,特別是與具有外部驗(yàn)證器和 LLM 驗(yàn)證器的系統(tǒng)相比。LLM 會(huì)產(chǎn)生大量錯(cuò)誤信息,從而損害系統(tǒng)的可靠性。

研究者在經(jīng)典 AI 規(guī)劃域 Blocksworld 上進(jìn)行的實(shí)證評(píng)估突出表明,在規(guī)劃問(wèn)題中,LLM 的自我批判功能并不有效。驗(yàn)證器可能會(huì)產(chǎn)生大量錯(cuò)誤,這對(duì)整個(gè)系統(tǒng)的可靠性不利,尤其是在規(guī)劃的正確性至關(guān)重要的領(lǐng)域。

有趣的是,反饋的性質(zhì)(二進(jìn)制或詳細(xì)反饋)對(duì)規(guī)劃生成性能沒(méi)有明顯影響,這表明核心問(wèn)題在于 LLM 的二進(jìn)制驗(yàn)證能力,而不是反饋的粒度。

如下圖所示,該研究的評(píng)估架構(gòu)包括 2 個(gè) LLM 生成器 LLM + 驗(yàn)證器 LLM。對(duì)于給定的實(shí)例,生成器 LLM 負(fù)責(zé)生成候選規(guī)劃,而驗(yàn)證器 LLM 決定其正確性。如果發(fā)現(xiàn)規(guī)劃不正確,驗(yàn)證器會(huì)提供反饋,給出其錯(cuò)誤的原因。然后,該反饋被傳輸?shù)缴善?LLM 中,并 prompt 生成器 LLM 生成新的候選規(guī)劃。該研究所有實(shí)驗(yàn)均采用 GPT-4 作為默認(rèn) LLM。

該研究在 Blocksworld 上對(duì)幾種規(guī)劃生成方法進(jìn)行了實(shí)驗(yàn)和比較。具體來(lái)說(shuō),該研究生成了 100 個(gè)隨機(jī)實(shí)例,用于對(duì)各種方法進(jìn)行評(píng)估。為了對(duì)最終 LLM 規(guī)劃的正確性進(jìn)行真實(shí)評(píng)估,該研究采用了外部驗(yàn)證器 VAL。

如表 1 所示,LLM+LLM backprompt 方法在準(zhǔn)確性方面略優(yōu)于非 backprompt 方法。

在 100 個(gè)實(shí)例中,驗(yàn)證器準(zhǔn)確識(shí)別了 61 個(gè)(61%)。

下表顯示了 LLM 在接受不同級(jí)別反饋(包括沒(méi)有反饋)時(shí)的表現(xiàn)。

贊助本站

人工智能實(shí)驗(yàn)室

相關(guān)熱詞: LeCun 又雙 叒唱 衰自 回歸 LLM GPT-4 推理

相關(guān)內(nèi)容
AiLab云推薦
推薦內(nèi)容
展開(kāi)

熱門欄目HotCates

Copyright © 2010-2024 AiLab Team. 人工智能實(shí)驗(yàn)室 版權(quán)所有    關(guān)于我們 | 聯(lián)系我們 | 廣告服務(wù) | 公司動(dòng)態(tài) | 免責(zé)聲明 | 隱私條款 | 工作機(jī)會(huì) | 展會(huì)港