麻豆av深夜在线观看,榴莲视频APP在线下载,欧美变态另类熟妇第一区

LeCun又雙叒唱衰自回歸LLM：GPT-4的推理能力非常有限，有兩篇論文為證

來(lái)源：互聯(lián)網(wǎng) 發(fā)布日期：2023-10-25 18:52:13 瀏覽：6022次

導(dǎo)讀：機(jī)器之心報(bào)道機(jī)器之心編輯部「任何認(rèn)為自動(dòng)回歸式 LLM 已經(jīng)接近人類水平的 AI，或者僅僅需要擴(kuò)大規(guī)模就能達(dá)到人類水平的人，都必須讀一讀這個(gè)。AR-LLM 的推理和規(guī)劃能力非常有限，要解決這個(gè)問(wèn)題，并不是把它們變大、用更多數(shù)據(jù)進(jìn)行訓(xùn)練就能解決的。」一...

機(jī)器之心報(bào)道

機(jī)器之心編輯部

「任何認(rèn)為自動(dòng)回歸式 LLM 已經(jīng)接近人類水平的 AI，或者僅僅需要擴(kuò)大規(guī)模就能達(dá)到人類水平的人，都必須讀一讀這個(gè)。AR-LLM 的推理和規(guī)劃能力非常有限，要解決這個(gè)問(wèn)題，并不是把它們變大、用更多數(shù)據(jù)進(jìn)行訓(xùn)練就能解決的。」

一直以來(lái)，圖靈獎(jiǎng)得主 Yann LeCun 就是 LLM 的「質(zhì)疑者」，而自回歸模型是 GPT 系列 LLM 模型所依賴的學(xué)習(xí)范式。他不止一次公開(kāi)表達(dá)過(guò)對(duì)自回歸和 LLM 的批評(píng)，并產(chǎn)出了不少金句，比如：

「從現(xiàn)在起 5 年內(nèi)，沒(méi)有哪個(gè)頭腦正常的人會(huì)使用自回歸模型�！�

「自回歸生成模型弱爆了�。ˋuto-Regressive Generative Models suck!）」

「LLM 對(duì)世界的理解非常膚淺�！�

讓 LeCun 近日再次發(fā)出疾呼的，是兩篇新發(fā)布的論文：

「LLM 真的能像文獻(xiàn)中所說(shuō)的那樣自我批判（并迭代改進(jìn)）其解決方案嗎？我們小組的兩篇新論文在推理 (https://arxiv.org/abs/2310.12397) 和規(guī)劃 (https://arxiv.org/abs/2310.08118) 任務(wù)中對(duì)這些說(shuō)法進(jìn)行了調(diào)查（并提出了質(zhì)疑）�！�

看起來(lái)，這兩篇關(guān)于調(diào)查 GPT-4 的驗(yàn)證和自我批判能力的論文的主題引起了很多人的共鳴。

論文作者表示，他們同樣認(rèn)為 LLM 是了不起的「創(chuàng)意生成器」（無(wú)論是語(yǔ)言形式還是代碼形式），只是它們無(wú)法保證自己的規(guī)劃 / 推理能力。因此，它們最好在 LLM-Modulo 環(huán)境中使用（環(huán)路中要么有一個(gè)可靠的推理者，要么有一個(gè)人類專家）。自我批判需要驗(yàn)證，而驗(yàn)證是推理的一種形式（因此對(duì)所有關(guān)于 LLM 自我批判能力的說(shuō)法都感到驚訝）。

同時(shí)，質(zhì)疑的聲音也是存在的：「卷積網(wǎng)絡(luò)的推理能力更加有限，但這并沒(méi)有阻止 AlphaZero 的工作出現(xiàn)。這都是關(guān)于推理過(guò)程和建立的 (RL) 反饋循環(huán)。我認(rèn)為模型能力可以進(jìn)行極其深入的推理（例如研究級(jí)數(shù)學(xué)）�！�

對(duì)此，LeCun 的想法是：「AlphaZero「確實(shí)」執(zhí)行規(guī)劃。這是通過(guò)蒙特卡洛樹(shù)搜索完成的，使用卷積網(wǎng)絡(luò)提出好的動(dòng)作，并使用另一個(gè)卷積網(wǎng)絡(luò)來(lái)評(píng)估位置。探索這棵樹(shù)所花費(fèi)的時(shí)間可能是無(wú)限的，這就是推理和規(guī)劃。」

在未來(lái)的一段時(shí)間內(nèi)，自回歸 LLM 是否具備推理和規(guī)劃能力的話題或許都不會(huì)有定論。

接下來(lái)，我們可以先看看這兩篇新論文講了什么。

論文 1：GPT-4 Doesn’t Know It’s Wrong: An Analysis of Iterative Prompting for Reasoning Problems

第一篇論文引發(fā)了研究者對(duì)最先進(jìn)的 LLM 具有自我批判能力的質(zhì)疑，包括 GPT-4 在內(nèi)。

論文地址：https://arxiv.org/pdf/2310.12397.pdf

接下來(lái)我們看看論文簡(jiǎn)介。

人們對(duì)大型語(yǔ)言模型（LLM）的推理能力一直存在相當(dāng)大的分歧，最初，研究者樂(lè)觀的認(rèn)為 LLM 的推理能力隨著模型規(guī)模的擴(kuò)大會(huì)自動(dòng)出現(xiàn)，然而，隨著更多失敗案例的出現(xiàn)，人們的期望不再那么強(qiáng)烈。之后，研究者普遍認(rèn)為 LLM 具有自我批判（ self-critique ）的能力，并以迭代的方式改進(jìn) LLM 的解決方案，這一觀點(diǎn)被廣泛傳播。

然而事實(shí)真的是這樣嗎？

來(lái)自亞利桑那州立大學(xué)的研究者在新的研究中檢驗(yàn)了 LLM 的推理能力。具體而言，他們重點(diǎn)研究了迭代提示（iterative prompting）在圖著色問(wèn)題（是最著名的 NP - 完全問(wèn)題之一）中的有效性。

該研究表明（i）LLM 不擅長(zhǎng)解決圖著色實(shí)例（ii）LLM 不擅長(zhǎng)驗(yàn)證解決方案，因此在迭代模式下無(wú)效。從而，本文的結(jié)果引發(fā)了人們對(duì)最先進(jìn)的 LLM 自我批判能力的質(zhì)疑。

論文給出了一些實(shí)驗(yàn)結(jié)果，例如，在直接模式下，LLM 在解決圖著色實(shí)例方面非常糟糕，此外，研究還發(fā)現(xiàn) LLM 并不擅長(zhǎng)驗(yàn)證解決方案。然而更糟糕的是，系統(tǒng)無(wú)法識(shí)別正確的顏色，最終得到錯(cuò)誤的顏色。

如下圖是對(duì)圖著色問(wèn)題的評(píng)估，在該設(shè)置下，GPT-4 可以以獨(dú)立和自我批判的模式猜測(cè)顏色。在自我批判回路之外還有一個(gè)外部聲音驗(yàn)證器。

結(jié)果表明 GPT4 在猜測(cè)顏色方面的準(zhǔn)確率低于 20%，更令人驚訝的是，自我批判模式（下圖第二欄）的準(zhǔn)確率最低。本文還研究了相關(guān)問(wèn)題：如果外部聲音驗(yàn)證器對(duì) GPT-4 猜測(cè)的顏色提供可證明正確的批判，GPT-4 是否會(huì)改進(jìn)其解決方案。在這種情況下，反向提示確實(shí)可以提高性能。

即使 GPT-4 偶然猜出了一個(gè)有效的顏色，它的自我批判可能會(huì)讓它產(chǎn)生幻覺(jué)，認(rèn)為不存在違規(guī)行為。

最后，作者給出總結(jié)，對(duì)于圖著色問(wèn)題：

自我批判實(shí)際上會(huì)損害 LLM 的性能，因?yàn)?GPT-4 在驗(yàn)證方面很糟糕；

來(lái)自外部驗(yàn)證器的反饋確實(shí)能提高 LLM 的性能。

論文 2：Can Large Language Models Really Improve by Self-critiquing Their Own Plans?

在論文《Can Large Language Models Really Improve by Self-critiquing Their Own Plans?》中，研究團(tuán)隊(duì)探究了 LLM 在規(guī)劃（planning）的情境下自我驗(yàn)證 / 批判的能力。

這篇論文對(duì) LLM 批判自身輸出結(jié)果的能力進(jìn)行了系統(tǒng)研究，特別是在經(jīng)典規(guī)劃問(wèn)題的背景下。雖然最近的研究對(duì) LLM 的自我批判潛力持樂(lè)觀態(tài)度，尤其是在迭代環(huán)境中，但這項(xiàng)研究卻提出了不同的觀點(diǎn)。

論文地址：https://arxiv.org/abs/2310.08118

令人意外的是，研究結(jié)果表明，自我批判會(huì)降低規(guī)劃生成的性能，特別是與具有外部驗(yàn)證器和 LLM 驗(yàn)證器的系統(tǒng)相比。LLM 會(huì)產(chǎn)生大量錯(cuò)誤信息，從而損害系統(tǒng)的可靠性。

研究者在經(jīng)典 AI 規(guī)劃域 Blocksworld 上進(jìn)行的實(shí)證評(píng)估突出表明，在規(guī)劃問(wèn)題中，LLM 的自我批判功能并不有效。驗(yàn)證器可能會(huì)產(chǎn)生大量錯(cuò)誤，這對(duì)整個(gè)系統(tǒng)的可靠性不利，尤其是在規(guī)劃的正確性至關(guān)重要的領(lǐng)域。

有趣的是，反饋的性質(zhì)（二進(jìn)制或詳細(xì)反饋）對(duì)規(guī)劃生成性能沒(méi)有明顯影響，這表明核心問(wèn)題在于 LLM 的二進(jìn)制驗(yàn)證能力，而不是反饋的粒度。

如下圖所示，該研究的評(píng)估架構(gòu)包括 2 個(gè) LLM 生成器 LLM + 驗(yàn)證器 LLM。對(duì)于給定的實(shí)例，生成器 LLM 負(fù)責(zé)生成候選規(guī)劃，而驗(yàn)證器 LLM 決定其正確性。如果發(fā)現(xiàn)規(guī)劃不正確，驗(yàn)證器會(huì)提供反饋，給出其錯(cuò)誤的原因。然后，該反饋被傳輸?shù)缴善?LLM 中，并 prompt 生成器 LLM 生成新的候選規(guī)劃。該研究所有實(shí)驗(yàn)均采用 GPT-4 作為默認(rèn) LLM。

該研究在 Blocksworld 上對(duì)幾種規(guī)劃生成方法進(jìn)行了實(shí)驗(yàn)和比較。具體來(lái)說(shuō)，該研究生成了 100 個(gè)隨機(jī)實(shí)例，用于對(duì)各種方法進(jìn)行評(píng)估。為了對(duì)最終 LLM 規(guī)劃的正確性進(jìn)行真實(shí)評(píng)估，該研究采用了外部驗(yàn)證器 VAL。

如表 1 所示，LLM+LLM backprompt 方法在準(zhǔn)確性方面略優(yōu)于非 backprompt 方法。