當(dāng)前位置：人工智能實(shí)驗(yàn)室> 人工智能應(yīng)用 > 爆火的“GPT-4 MIT本科數(shù)學(xué)滿(mǎn)分”論文作弊，數(shù)據(jù)集本身有問(wèn)題

爆火的“GPT-4 MIT本科數(shù)學(xué)滿(mǎn)分”論文作弊，數(shù)據(jù)集本身有問(wèn)題
來(lái)源：互聯(lián)網(wǎng) 發(fā)布日期：2023-06-19 09:05:21 瀏覽：8740次

導(dǎo)讀：機(jī)器之心報(bào)道編輯：蛋醬結(jié)論不應(yīng)該如此被夸大。這兩天，一篇關(guān)于 GPT-4 滿(mǎn)分通過(guò) MIT EECS 和數(shù)學(xué)本科考試的論文在推特上瘋傳。論文地址：https://arxiv.org/pdf/2306.08997.pdf 簡(jiǎn)單概括，一個(gè)來(lái)自 MIT 的研究團(tuán)隊(duì)從自己學(xué)校的數(shù)學(xué)、電氣工程和計(jì)算機(jī)科...

機(jī)器之心報(bào)道

編輯：蛋醬

結(jié)論不應(yīng)該如此被夸大。

這兩天，一篇關(guān)于 GPT-4 滿(mǎn)分通過(guò) MIT EECS 和數(shù)學(xué)本科考試的論文在推特上瘋傳。

論文地址：https://arxiv.org/pdf/2306.08997.pdf

簡(jiǎn)單概括，一個(gè)來(lái)自 MIT 的研究團(tuán)隊(duì)從自己學(xué)校的數(shù)學(xué)、電氣工程和計(jì)算機(jī)科學(xué) (EECS) 專(zhuān)業(yè)的課程問(wèn)題、期中考試和期末考試中，整理出了一個(gè)包含 4550 個(gè)問(wèn)題和解決方案的綜合數(shù)據(jù)集。

然后，研究團(tuán)隊(duì)讓各種大語(yǔ)言模型去完成這個(gè)數(shù)據(jù)集的題目，結(jié)果太嚇人：GPT-3.5 能做對(duì) 1/3，GPT-4 幾乎滿(mǎn)分通過(guò)。

論文作者表示，提升模型表現(xiàn)主要靠「四件套」：Few-shot learning、CoT、Self-critique、Expert。

就像上表中所示，加持 GPT-4 的手法越多，模型的答題正確率就越高。原始的 GPT-4 本來(lái)就能拿到 90% 的正確率得分，一番運(yùn)作之后，甚至直接拿到滿(mǎn)分。

但大部分討論得很激烈的網(wǎng)友可能沒(méi)注意到，這個(gè)分?jǐn)?shù)本身就是用 GPT-4 打的……

三位同樣來(lái)自 MIT 的學(xué)生第一時(shí)間發(fā)現(xiàn)了這篇論文，作為險(xiǎn)些被 GPT-4 趕超的群體，他們想立即領(lǐng)會(huì)一下爆款論文的方法論。

研究了一小時(shí)后，他們對(duì)該論文的方法產(chǎn)生了懷疑。

兩小時(shí)后，他們意識(shí)到：數(shù)據(jù)集本身有問(wèn)題。

盡管原論文的作者宣稱(chēng)已手動(dòng)審查了發(fā)布的數(shù)據(jù)集質(zhì)量，但三人發(fā)現(xiàn)，有明顯的跡象表明，測(cè)試數(shù)據(jù)集的很大一部分被污染了。

也就是說(shuō)，模型就像一個(gè)學(xué)生在考試前被告知了答案，這是赤裸裸的「作弊」。

產(chǎn)生質(zhì)疑后，他們立即著手在數(shù)據(jù)集上完成了零樣本 GPT-4 的運(yùn)行，并對(duì)數(shù)據(jù)的前 30% 進(jìn)行了手動(dòng)評(píng)分，結(jié)果與原論文相差甚遠(yuǎn)，應(yīng)該說(shuō)是一個(gè)天上、一個(gè)地下。

「作為麻省理工學(xué)院的本科生，至少根據(jù)我們的經(jīng)驗(yàn)，這個(gè)測(cè)試集并不能準(zhǔn)確地代表在麻省理工學(xué)院獲得 EECS 學(xué)位所需的理解廣度和深度。」三人在博客中這么寫(xiě)道。

最新進(jìn)展：零樣本 GPT-4 的準(zhǔn)確率能達(dá)到 62.5% 了，但還是和論文里宣稱(chēng)的 90% 差很多。

三人還質(zhì)疑了「過(guò)度宣傳」的風(fēng)潮：「這些論文通常在任何合法的同行評(píng)審之前就被上傳到 Arxiv，并在 Twitter 上廣泛分享。在這種情況下，可能會(huì)傳播不良信息，并為未來(lái)的工作樹(shù)立一個(gè)糟糕的先例。」

「深度學(xué)習(xí)」斗士 Gary Marcus 也不出意料地聲援了這波質(zhì)疑：

同時(shí)，三人也在博客中指出一點(diǎn)：《Exploring the MIT Mathematics and EECS Curriculum Using Large Language Models》論文上列出的幾個(gè)作者都是本科生研究人員，讓這些人對(duì)工作中出現(xiàn)的任何失誤負(fù)責(zé)是不合適的。相反，責(zé)任應(yīng)該在指導(dǎo)作者身上他們才是被期望確保工作符合其領(lǐng)域內(nèi)公共學(xué)術(shù)標(biāo)準(zhǔn)的人。

接下來(lái)讓我們看下，這篇「爆火」論文都有哪些問(wèn)題。

數(shù)據(jù)集到底有什么問(wèn)題？

首先，從原論文中得知，研究者收集的數(shù)據(jù)集包含獲得 MIT 學(xué)位考試所需的 30 門(mén)數(shù)學(xué)和 EECS 課程的 4550 個(gè)問(wèn)題和相應(yīng)的解決方案，涵蓋核心課程和選修課程。

論文中寫(xiě)道：「在沒(méi)有圖像和有解決方案的問(wèn)題中隨機(jī)選擇了 288 個(gè)問(wèn)題的測(cè)試集�！�

這個(gè)數(shù)據(jù)集（不包括用于微調(diào)開(kāi)源 LLM 的訓(xùn)練集）隨著論文的公開(kāi)也被發(fā)布到 GitHub 上，同時(shí)發(fā)布的還有用于生成報(bào)告的測(cè)試性能的代碼。然而，作者 Drori 教授在最近的一次提交中已經(jīng)將其刪除。

經(jīng)過(guò)檢查、對(duì)比，三人確信這個(gè)被刪掉的文件代表了論文中分析的測(cè)試集，因?yàn)樵u(píng)估代碼中的所有數(shù)據(jù)的文件路徑都指向它，沒(méi)有提供任何修改其內(nèi)容的代碼，而且它在最初發(fā)布的 GitHub 倉(cāng)庫(kù)中是可用的。此外，該文件滿(mǎn)足了論文中規(guī)定的所有模式要求（行數(shù)等）。這些證據(jù)似乎非常有力地支持了下面的所有主張，

「但我們要承認(rèn)，這個(gè)文件有可能被換成了一個(gè)用于測(cè)試的不同文件。如果是這樣的話(huà)，我們認(rèn)為證明的責(zé)任在于作者公開(kāi)發(fā)布這個(gè)數(shù)據(jù)和用它做的所有分析�！�

那么，被掩蓋的問(wèn)題究竟是什么呢？三人給出了自己的分析。

無(wú)法解決的問(wèn)題（約占測(cè)試集的 4%）

鑒于原論文表示，任何形式的 GPT-4 都能在測(cè)試集上產(chǎn)生一個(gè)完美的分?jǐn)?shù)，三人開(kāi)始檢查個(gè)別數(shù)據(jù)點(diǎn)。他們很快就發(fā)現(xiàn)，根本不可能有滿(mǎn)分，因?yàn)閿?shù)據(jù)集中至少有 10 個(gè)問(wèn)題是無(wú)法用所提供的信息解決的，另外幾個(gè)問(wèn)題在這種情況下根本就不是有效的問(wèn)題。

像這種「有問(wèn)題的問(wèn)題」，至少占據(jù)了測(cè)試集的 4%。

在一個(gè)擴(kuò)展的 excel 文檔里，三人對(duì)已經(jīng)發(fā)現(xiàn)有問(wèn)題的數(shù)據(jù)集例子進(jìn)行了注釋。「紅色」代表用提供的信息無(wú)法解決的問(wèn)題，「黃色」代表一部分不太合理的問(wèn)題。

頁(yè)面地址：https://docs.google.com/spreadsheets/d/1FZ58hu-lZR-e70WP3ZPNjp9EK_4RgrQvQfsvjthQh_Y/edit?usp=sharing

重復(fù)的問(wèn)題（約占測(cè)試集的 5%)

使用文本相似性檢測(cè)，三人發(fā)現(xiàn)有 14 個(gè)問(wèn)題（7 對(duì)）在 288 個(gè)問(wèn)題的測(cè)試集中是重復(fù)的，在這些情況下，問(wèn)題串之間的唯一區(qū)別是極小的字符級(jí)噪音，甚至完全相同。

鑒于這些無(wú)法解決的問(wèn)題，GPT-4 能夠通過(guò)任何方式獲得 100% 的準(zhǔn)確率，也是難以置信。要么是在某個(gè)階段出現(xiàn)了答案泄漏到 prompt 中，要么是問(wèn)題沒(méi)有被正確打分。

這些初步的發(fā)現(xiàn)促使他們從少樣本示例開(kāi)始進(jìn)一步調(diào)查（如果模型在零樣本正確率方面失敗的話(huà)），最終發(fā)現(xiàn)，既有解題信息的泄露，也有用于對(duì)模型輸出進(jìn)行分級(jí)的方法問(wèn)題。具體情況如下：

少樣本示例中的信息泄露

值得注意的是，原論文中還提到了「少樣本示例」這個(gè)事。

簡(jiǎn)而言之，論文對(duì) OpenAI 嵌入的數(shù)據(jù)集內(nèi)的類(lèi)似問(wèn)題進(jìn)行余弦相似度搜索，并將這些問(wèn)題和解決方案作為額外的上下文納入模型的 prompt，幫助模型解決問(wèn)題。

這個(gè)方法本身是沒(méi)問(wèn)題的，只要這些示例與有關(guān)問(wèn)題有足夠的差異，且避免暴露不公平的信息。

只是隨機(jī)掃描已發(fā)布的測(cè)試數(shù)據(jù)集時(shí)，三人注意到一些奇怪的事情：許多提供給模型的「少樣本示例」與問(wèn)題本身幾乎一字不差。

為了進(jìn)一步了解這一點(diǎn)，他們寫(xiě)了一個(gè)簡(jiǎn)單的腳本，查看了所提供的幾個(gè)示例的問(wèn)題陳述和所列出的問(wèn)題之間的重疊情況，并繪出了直方圖：

許多提供的少樣本與問(wèn)題本身幾乎相同，這意味著模型得到的是問(wèn)題的答案或與問(wèn)題非常相似的問(wèn)題。通常情況下，這來(lái)自于大量的共享背景的多環(huán)節(jié)問(wèn)題的重復(fù)。

他們認(rèn)為，為了正確評(píng)估 GPT 的解題能力，多環(huán)節(jié)問(wèn)題的其他部分應(yīng)該被完全排除在某一問(wèn)題的少樣本示例之外。事實(shí)上，他們發(fā)現(xiàn)這些多環(huán)節(jié)問(wèn)題的解決方案，往往直接提到或給出了模型被要求解決的另一部分問(wèn)題的答案。

不僅如此，在對(duì)這些數(shù)據(jù)的挖掘中，他們還發(fā)現(xiàn)了整個(gè)問(wèn)題被重復(fù)的樣本。比如：

在這兩種情況下，答案是完全相同的。很難說(shuō)不算信息泄漏了。

GPT-4 自動(dòng)打分，有問(wèn)題

此外，三人還在原論文開(kāi)源的打分機(jī)制中發(fā)現(xiàn)了問(wèn)題：

在代碼中，能看出流程上處理分級(jí)存在嚴(yán)重的問(wèn)題：論文是用 GPT-4 去評(píng)估檢查的，包括 a）原始問(wèn)題，b）解決方案，c）GPT 自己的答案，作為分級(jí) prompt 中的參數(shù)。

在更多的技術(shù)領(lǐng)域，GPT 更有可能出現(xiàn)隱性誤解，這種自動(dòng)評(píng)分更有可能出現(xiàn)「自我欺騙」的結(jié)果。

此外，雖然 prompt 級(jí)聯(lián)是最近許多 GPT 論文中常見(jiàn)的技術(shù)，但這里有大量數(shù)據(jù)泄漏的可能性。每一級(jí)不僅提供基于 ground truth 的二元信息，而且還在繼續(xù) prompt，直到達(dá)到正確答案。

盡管這些創(chuàng)建的 prompt 并沒(méi)有看到實(shí)際的答案，但重新 prompt 直到達(dá)到正確答案的形式已經(jīng)足夠了，尤其是在占測(cè)試集 16% 的多選題中，無(wú)限次的嘗試（幾乎）保證了正確答案一定會(huì)出現(xiàn)。

這就好比有人拿著答題紙，告訴正在考試的學(xué)生答得對(duì)不對(duì)，一直提示到學(xué)生得到正確答案。

總結(jié)

在博客的最后，三位這樣寫(xiě)道：

這篇論文道出了最近人工智能領(lǐng)域研究的一個(gè)更大趨勢(shì)。隨著該領(lǐng)域的進(jìn)展越來(lái)越快，新發(fā)現(xiàn)的時(shí)間節(jié)奏似乎在縮短，這往往伴隨著捷徑。一個(gè)特別令人擔(dān)憂(yōu)的趨勢(shì)是使用像 GPT-4 這樣基于語(yǔ)言的模型來(lái)評(píng)估一個(gè)模型的準(zhǔn)確性的技術(shù)。

雖然是一個(gè)有用的工具，但它的結(jié)論絕不應(yīng)該被夸大，也不應(yīng)該被當(dāng)作 ground truth。最近的工作表明，如果沒(méi)有準(zhǔn)確的 ground truth 信息，GPT-4 評(píng)估器就不能可靠地用于驗(yàn)證。至少，應(yīng)該選擇一個(gè)隨機(jī)的數(shù)據(jù)集子集，將 GPT-4 的性能與人類(lèi)的評(píng)估進(jìn)行比較。語(yǔ)言模型還不能被當(dāng)作產(chǎn)生 ground truth 的神諭。

此外，在使用數(shù)據(jù)之前，無(wú)論是用于訓(xùn)練、推理、基準(zhǔn)測(cè)試還是其他方面，重新評(píng)估每一個(gè)數(shù)據(jù)點(diǎn)并進(jìn)行基本的檢查是極其重要的。鑒于有關(guān)數(shù)據(jù)集的規(guī)模較小，簡(jiǎn)單的人工驗(yàn)證很容易在工作范圍內(nèi)完成。

我們的批評(píng)主要是針對(duì)這項(xiàng)研究的方法和嚴(yán)謹(jǐn)性，而不是針對(duì)其內(nèi)容。我們對(duì)大型語(yǔ)言模型實(shí)際解決麻省理工學(xué)院課程的能力沒(méi)有任何意見(jiàn)，只是認(rèn)為本文未能以科學(xué)嚴(yán)謹(jǐn)?shù)姆绞阶C明這一點(diǎn)。