當(dāng)前位置：人工智能實驗室> 搜索引擎 > GPT-4只是個超級搜索引擎？哲學(xué)家們表示不服

GPT-4只是個超級搜索引擎？哲學(xué)家們表示不服
來源：互聯(lián)網(wǎng) 發(fā)布日期：2024-02-06 18:35:19 瀏覽：4200次

導(dǎo)讀：圖片來源@視覺中國文｜追問nextquestion 對于多年來一直在思考人工智能的哲學(xué)家來說， GPT-4就像是一個已經(jīng)實現(xiàn)了的思維實驗。早在1981年，Ned Block就構(gòu)建了一個Blockhead假說假定科學(xué)家們通過編程，在Blockhead內(nèi)預(yù)先設(shè)定好了近乎所有問題的答案[1]，那...

圖片來源@視覺中國

文｜追問nextquestion

對于多年來一直在思考人工智能的哲學(xué)家來說，GPT-4就像是一個已經(jīng)實現(xiàn)了的思維實驗。

早在1981年，Ned Block就構(gòu)建了一個“Blockhead”假說假定科學(xué)家們通過編程，在Blockhead內(nèi)預(yù)先設(shè)定好了近乎所有問題的答案[1]，那么，在它回答問題的時候，人們就根本無法區(qū)分Blockhead和人類。顯然，這里的Blockhead并不被認(rèn)為是智能的，因為它回答問題的方式僅僅是從其龐大的記憶知識庫中檢索并復(fù)述答案，并非通過理解問題之后給出答案。哲學(xué)家們一致認(rèn)為，這樣的系統(tǒng)不符合智能的標(biāo)準(zhǔn)。

實際上，GPT-4的許多成就可能就是通過類似的內(nèi)存檢索操作產(chǎn)生的。GPT-4的訓(xùn)練集包括數(shù)億個人類個體生成的對話和數(shù)以千計的學(xué)術(shù)出版物，涵蓋了潛在的問答對。研究發(fā)現(xiàn)，深度神經(jīng)網(wǎng)絡(luò)（DNNs）多層結(jié)構(gòu)的設(shè)計使其能夠有效地從訓(xùn)練數(shù)據(jù)中檢索到正確答案[2]。這表明，GPT-4的回答其實是通過近似甚至是精確復(fù)制訓(xùn)練集中的樣本生成的。

如果GPT-4真的是以這種方式運行，那么它就只是Blockhead的現(xiàn)實版本。由此，人們在評估大語言模型時，也就存在一個關(guān)鍵問題：它的訓(xùn)練集中可能包含了評估時使用的測試問題，這被稱為“數(shù)據(jù)污染”，是得在評估前必須排除的問題。

原始論文：Millière, Raphal, and Cameron Buckner. "A Philosophical Introduction to Language Models--Part I: Continuity With Classic Debates." arXiv preprint arXiv:2401.03910 (2024)[3].

有趣的是，最近有一篇論文對“LLMs不過只是Blockhead”的觀點提出了挑戰(zhàn)。

研究者指出，LLMs不僅可以簡單地復(fù)述其提示的或訓(xùn)練集的大部分內(nèi)容，它們還能夠靈活地融合來自訓(xùn)練集的內(nèi)容，產(chǎn)生新的輸出。而許多經(jīng)驗主義哲學(xué)家提出，能夠靈活復(fù)制先前經(jīng)驗中的抽象模式，可能不僅是智能的基礎(chǔ)，還是創(chuàng)造力和理性決策的基矗

要論證這個觀點，研究者將“LLMs僅僅是愚蠢、低效的Blockheads”的擔(dān)憂設(shè)為零假設(shè)，并通過經(jīng)典哲學(xué)理論來反駁這一觀點。同時，在此過程中，研究者介紹了最先進(jìn)的LLMs（如GPT-4）的結(jié)構(gòu)體系、成就和圍繞其展開的哲學(xué)問題。

大語言模型簡史

對這個領(lǐng)域還不甚了解的讀者，可以先花個5分鐘來看LLMs是如何從多個基礎(chǔ)學(xué)派假說中一路發(fā)展而來的（你也可以選擇直接跳過本章節(jié)）。

歷史基礎(chǔ)

LLMs的起源可以追溯到人工智能研究的開始。早期的自然語言處理（natural language processing, NLP）主要有兩大流派：符號派和隨機(jī)學(xué)派。Noam Chomsky的轉(zhuǎn)換生成語法對符號派影響重大[4]。該理論認(rèn)為自然語言的結(jié)構(gòu)可以被一組形式化規(guī)則概括，利用這些規(guī)則可以產(chǎn)生形式正確的句子。

與此同時，受香農(nóng)信息論的影響，數(shù)學(xué)家Warren Weaver首創(chuàng)了隨機(jī)學(xué)派。1949年，Weaver提出了使用統(tǒng)計技術(shù)在計算機(jī)上進(jìn)行機(jī)器翻譯的構(gòu)想。這一思路為統(tǒng)計語言模型的發(fā)展鋪平了道路，例如n-gram模型，該模型根據(jù)語料庫中單詞組合的頻率估計單詞序列的可能性[5]。

現(xiàn)代語言模型的另一個重要基石是分布假設(shè)（distributional hypothesis）。該假設(shè)最早由語言學(xué)家Zellig Harris在1950年代提出[6]。這一假設(shè)認(rèn)為，語言單元通過與系統(tǒng)中其他單元的共現(xiàn)模式來獲得特定意義。Harris提出，通過了解一個詞在不同語境中的分布特性，可以推斷出這個詞的含義。

隨著分布假設(shè)研究的不斷深入，人們開發(fā)出了在高維向量空間中表示文檔和詞匯的自動化技術(shù)[7]。之后的詞嵌入模型（word embedding model）通過訓(xùn)練神經(jīng)網(wǎng)絡(luò)來預(yù)測給定詞的上下文（或者根據(jù)上下文填詞）學(xué)習(xí)單詞的分布屬性。與先前的統(tǒng)計方法（如n-gram模型）不同，詞嵌入模型將單詞編碼為密集的、低維的向量表示（圖1）。由此產(chǎn)生的向量空間在保留有關(guān)詞義的語言關(guān)系的同時，大幅降低了語言數(shù)據(jù)的維度。同時，詞嵌入模型的向量空間中存在許多語義和句法關(guān)系。

圖1. 多維向量空間中詞嵌入的一個例子。A. 一個在自然語言語料庫上訓(xùn)練的詞嵌入模型學(xué)會將單詞編碼成多維空間中的數(shù)值向量，為了視覺上的清晰性而簡化為兩維。在訓(xùn)練過程中，上下文相關(guān)的單詞（例如“age”和“epoch”）的向量變得更加相似，而上下文無關(guān)的單詞（例如“age”和“coffee”）的向量變得不那么相似。B. 在經(jīng)過訓(xùn)練的模型的二維向量空間中的詞嵌入。具有相似含義的單詞（如“age”和“epoch”）被放置在更靠近的位置，這由它們的余弦相似度得分高度表示；而具有不同含義的單詞（如“coffee”和“epoch”）則相對較遠(yuǎn)，反映在余弦相似度得分較低上。余弦相似度是一種用于確定兩個非零向量夾角余弦的度量，反映它們之間的相似程度。余弦相似度得分越接近1，表示夾角越小，向量之間的相似度越高。（圖片引自[3]）

詞嵌入模型的發(fā)展是NLP歷史上的一個轉(zhuǎn)折點，為基于在大型語料庫中的統(tǒng)計分布在連續(xù)向量空間中表示語言單元提供了強大而高效的手段。然而，這些模型也存在一些顯著的局限性。首先，它們無法捕捉一詞多義和同音異義，因為它們?yōu)槊總€單詞類型分配了單一的嵌入，無法考慮基于上下文的意義變化。

隨后的“深度”語言模型引入了類似記憶的機(jī)制，使其能夠記住并處理隨時間變化的輸入序列，而不是個別的孤立單詞。這些模型雖然在某些方面優(yōu)于詞嵌入模型，但它們的訓(xùn)練速度較慢，處理長文本序列時表現(xiàn)也欠佳。這些問題在Vaswani等人于2017年引入的Transformer架構(gòu)中得到解決，Transformer架構(gòu)為現(xiàn)代LLMs奠定了基矗

Transformer-based LLMs

Transformer架構(gòu)的一個關(guān)鍵優(yōu)勢在于，輸入序列中的所有單詞都是并行處理，而不是像RNN、LSTM和GRU那樣順序處理。這種架構(gòu)不僅極大地提高了訓(xùn)練效率，還提高了模型處理長文本序列的能力，從而增加了可以執(zhí)行的語言任務(wù)的規(guī)模和復(fù)雜性。

Transformer模型的核心是一種被稱為自注意力（self-attention）的機(jī)制（圖2）。簡而言之，自注意力允許模型在處理序列中的每個單詞時，衡量該序列不同部分的重要性。這一機(jī)制幫助LLMs通過考慮序列中所有單詞之間的相互關(guān)系，構(gòu)建對長文本序列的復(fù)雜表示。在句子層面之上，它使LLMs能夠結(jié)合段落或整個文檔的主題來進(jìn)行表達(dá)。

圖2. A. LLM的自回歸模型變體的結(jié)構(gòu)體系。來自輸入序列的tokens首先被嵌入為向量，這涉及將每個token轉(zhuǎn)換為一個高維空間，其中在語義上相似的token具有相應(yīng)相似的向量。位置編碼將關(guān)于每個tokens在輸入序列中位置的信息添加到向量中。然后，這些豐富的向量通過連續(xù)的Transformer塊進(jìn)行處理。每個塊包含多個attention heads，可以并行處理所有向量，以及一個全連接的前饋層，也稱為多層感知機(jī)（multilayer perceptron, MLP）層。最后，在取消嵌入階段，向量經(jīng)歷線性變換，將它們投影到一個與詞匯大小相同的空間中，生成一組Logits。這些Logits表示詞匯中每個潛在下一個token的未歸一化分?jǐn)?shù)。然后應(yīng)用柔性最大值傳輸函數(shù)層，將這些邏輯轉(zhuǎn)換為對詞匯的概率分布，指示每個token成為序列中下一個token的相對可能性。在訓(xùn)練過程中，已知正確的下一個token并用于反向傳播，而在推理過程中，模型在沒有此信息的情況下預(yù)測下一個token。可以迭代地以自回歸方式重復(fù)此過程，以生成多個token的預(yù)測。B. 自注意機(jī)制的可視化。每個attention head為序列中的每個標(biāo)記??分配權(quán)重或注意力分?jǐn)?shù)，該分?jǐn)?shù)適用于包括??在內(nèi)的序列中的每個標(biāo)記?0?。在這里，每條紅線表示‘of’與輸入序列中的每個其他標(biāo)記之間的注意力分?jǐn)?shù)，包括自身。在此示例中，注意力分?jǐn)?shù)量化了每個標(biāo)記相對于標(biāo)記‘of’的相關(guān)性或重要性，較粗的線表示較高的分?jǐn)?shù)。這個模式說明了注意力機(jī)制允許模型動態(tài)關(guān)注輸入序列的不同部分，以得出每個標(biāo)記的具有上下文細(xì)微差別的表征。每個attention head的注意力模式都不同，因為在訓(xùn)練過程中，每個頭專門關(guān)注于選擇性地關(guān)注標(biāo)記之間的特定依賴關(guān)系。（圖片引自[3]）

值得一提的是，Transformer模型并非直接操作單詞，而是操作稱為tokens的語言單位。tokens可以映射到整個單詞，也可以映射到更小的單詞片段。在將每個單詞序列提供給模型之前，首先進(jìn)行標(biāo)記化，將其分塊成相應(yīng)的tokens。標(biāo)記化的目的是盡可能多地表示來自不同語言的單詞，包括罕見和復(fù)雜的單詞。

基于Transformer模型的最常見變體被稱為“自回歸”（autoregressive）模型（圖2），包括GPT-3、GPT-4和ChatGPT。自回歸模型以準(zhǔn)確預(yù)測下一個token為學(xué)習(xí)目標(biāo)。在每次訓(xùn)練時，模型的目標(biāo)是根據(jù)先前的tokens預(yù)測語料庫中抽樣序列的下一個token。在第一次預(yù)測時，模型使用隨機(jī)參數(shù)初始化，預(yù)測結(jié)果并不準(zhǔn)確。隨著每次預(yù)測的進(jìn)行，模型的參數(shù)逐漸調(diào)整，直至預(yù)測出的token和訓(xùn)練集中實際的token的差異最校這個過程重復(fù)數(shù)十億次，直到模型能夠準(zhǔn)確預(yù)測從訓(xùn)練集中隨機(jī)抽取的內(nèi)容的下一個token。Transformer模型的訓(xùn)練集包括百科全書、學(xué)術(shù)文章、書籍、網(wǎng)站，甚至大量計算機(jī)代碼等多樣化來源的大型語料庫，旨在概括自然語言和人工語言的廣度和深度，使Transformer模型能夠準(zhǔn)確進(jìn)行下一個tokens的預(yù)測。

盡管這種方式訓(xùn)練的LLMs在生成文本段落方面表現(xiàn)出色，但它們對真實的、有用的或無冒犯性的語言沒有固定偏好。為了讓生成的文本更符合人類語言使用規(guī)范，近期的LLMs，如ChatGPT，使用了“從人類反饋中進(jìn)行強化學(xué)習(xí)（RLHF）”的微調(diào)技術(shù)來調(diào)整模型的輸出[8]。RLHF允許開發(fā)人員更具體和可控地引導(dǎo)模型的輸出。這一微調(diào)過程在調(diào)整這些模型以更好地滿足人類語言使用規(guī)范方面發(fā)揮著至關(guān)重要的作用。

LLMs具有出色的能力，能夠利用文本提示中的文本信息來引導(dǎo)它們的輸出。已部署的語言模型經(jīng)過預(yù)訓(xùn)練，其參數(shù)在訓(xùn)練后保持固定。盡管大部分架構(gòu)缺乏可編輯的長期記憶資源，但它們能夠根據(jù)所提供的內(nèi)容靈活調(diào)整輸出，包括它們未經(jīng)明確訓(xùn)練的任務(wù)。這種能力可被視為一種即時學(xué)習(xí)或適應(yīng)的形式，通常被稱為“情境學(xué)習(xí)”（in-context learning）[9]。情境學(xué)習(xí)可被解釋為一種模式完成的形式，如果序列構(gòu)造為一個熟悉的問題或任務(wù)，模型將嘗試以與其訓(xùn)練一致的方式完成它�？上蚰Ｐ桶l(fā)出具體的指令。

在所謂的“少樣本學(xué)習(xí)”中，提示的結(jié)構(gòu)包括要執(zhí)行的任務(wù)的幾個示例，后面跟著需要響應(yīng)的新實例。在“零樣本學(xué)習(xí)”中，模型不會得到任何示例，任務(wù)直接在提示中進(jìn)行概述或暗示。少樣本學(xué)習(xí)長期以來被認(rèn)為是人類智能的重要方面。而老式機(jī)器學(xué)習(xí)則在少樣本學(xué)習(xí)任務(wù)中表現(xiàn)較差。然而，經(jīng)過訓(xùn)練后的LLMs在少樣本學(xué)習(xí)上表現(xiàn)出色。在較大的模型（如GPT-3）中觀察到，少樣本學(xué)習(xí)能力似乎與模型大小高度相關(guān)[9]。通過RLHF精調(diào)后，LLMs的零樣本學(xué)習(xí)能力得到增強。

LLMs已經(jīng)在NLP領(lǐng)域內(nèi)外的許多任務(wù)中得到應(yīng)用，且有不錯的表現(xiàn)。除了傳統(tǒng)的自然語言處理任務(wù)，LLMs還具有執(zhí)行包括生成代碼、玩基于文本的游戲和提供數(shù)學(xué)問題答案等。由于LLMs出色的信息檢索能力，它們甚至已被提議作為教育、研究、法律和醫(yī)學(xué)的工具。

LLMs中的經(jīng)典哲學(xué)問題

人工神經(jīng)網(wǎng)絡(luò)（Artificial neural networks, ANNs），包括早期的NLP結(jié)構(gòu)，一直是哲學(xué)討論的焦點。圍繞這些系統(tǒng)的哲學(xué)討論主要集中在它們作為建模人類認(rèn)知的適用性上。具體而言，爭論的焦點在于，相比于比經(jīng)典的、符號的、基于規(guī)則的對應(yīng)物模型，它們是否構(gòu)成了更好的人類認(rèn)知模型。

本節(jié)總結(jié)了部分關(guān)于人工神經(jīng)網(wǎng)絡(luò)能力的長期爭論，這些爭論因深度學(xué)習(xí)的發(fā)展和LLMs的成功而復(fù)蘇和轉(zhuǎn)變。

組成性

長期以來，研究者們批評ANNs無法解釋認(rèn)知的核心結(jié)構(gòu)，在模擬人類思維方面存在局限。批評者認(rèn)為，ANNs要么無法捕捉經(jīng)典符號架構(gòu)中可以輕松解釋的認(rèn)知特征，要么實際上只是實現(xiàn)了這種符號處理的架構(gòu)，而但在真正理解思維過程方面并沒有提供新的見解[10-12]。

近年來，LLMs的迅速發(fā)展挑戰(zhàn)了這種關(guān)于聯(lián)結(jié)主義模型局限性的傳統(tǒng)觀點。大量實證研究調(diào)查了大語言模型在需要組合處理的任務(wù)上是否能表現(xiàn)出類似人類水平的性能。這些研究主要評估模型在組合泛化方面的能力，即它們是否能夠系統(tǒng)地重新組合先前學(xué)到的元素，并將這些元素組成的新輸入映射到正確的輸出上[13]。這對于LLMs來說，是一項困難的任務(wù)，因為它們通常是用龐大的自然語言語料庫訓(xùn)練而成的，而這些數(shù)據(jù)可能包含了很多特定的句子模式。但研究者通過精心設(shè)計的訓(xùn)練-測試劃分合成數(shù)據(jù)集，克服了這一問題。

在組合泛化的合成數(shù)據(jù)集（如SCAN[14]、CFQ[15]和COGS[16]）上，DNN未能正確地在句法分布轉(zhuǎn)變中進(jìn)行泛化。然而，許多基于Transformer的模型在這些測試上取得了不錯的表現(xiàn)。

元學(xué)習(xí)，即通過從許多相關(guān)的學(xué)習(xí)任務(wù)中進(jìn)行泛化以更好地學(xué)習(xí)[17, 18]，也表現(xiàn)出無需進(jìn)一步進(jìn)行架構(gòu)調(diào)整即可進(jìn)行泛化的潛力。相比之下，標(biāo)準(zhǔn)的監(jiān)督學(xué)習(xí)假設(shè)訓(xùn)練和測試數(shù)據(jù)來自同一分布，但這可能導(dǎo)致模型在訓(xùn)練數(shù)據(jù)上過擬合。元學(xué)習(xí)讓模型接觸到多個相關(guān)任務(wù)的分布，從而幫助它們獲取通用知識。

通過元學(xué)習(xí)，在一系列不同人工任務(wù)上訓(xùn)練的標(biāo)準(zhǔn)的Transformer模型實現(xiàn)了系統(tǒng)性泛化，展現(xiàn)出與人類相似的準(zhǔn)確性和錯誤模式，而且這些模型不需要明確的組合規(guī)則。這表明，要模仿人類大腦的認(rèn)知結(jié)構(gòu)，可能不需要嚴(yán)格的內(nèi)置規(guī)則。

根據(jù)哲學(xué)家和認(rèn)知科學(xué)家Fodor的心智模塊化主張*，心理過程應(yīng)該基于離散符號，而ANNs使用的卻是連續(xù)向量，這引發(fā)了ANNs是否滿足經(jīng)典成分結(jié)構(gòu)要求的質(zhì)疑。對于主張聯(lián)結(jié)主義的人們來說，他們認(rèn)為ANN可能建立在一種非經(jīng)典的建模認(rèn)知結(jié)構(gòu)之上。

*Jerry Fodor認(rèn)為，思維和認(rèn)知過程中涉及的信息以一種類似語言的形式存在，這種“心靈的語言”包含可以組合并且具有明確意義的符號。在Fodor的框架下，心理過程涉及對這些離散符號的操作，這些符號不僅在語義上可以被評估，還在認(rèn)知處理中發(fā)揮直接的因果作用。相比之下，在ANNs中，信息通常被表示為連續(xù)的向量，而這些向量被認(rèn)為缺乏離散的、語義上可評估的成分，這些成分在算法層面參與處理。在這種觀點下，ANNs處理的是較低層級的激活值，而不是直接操作語義上明確的符號。

連續(xù)性原則認(rèn)為，信息編碼和處理機(jī)制應(yīng)使用可以連續(xù)變化的實數(shù)表示，而不是離散符號表示的實數(shù)進(jìn)行形式化。首先，這使得對自然語言等領(lǐng)域進(jìn)行更靈活的建模成為可能。其次，利用連續(xù)性的統(tǒng)計推理方法，如神經(jīng)網(wǎng)絡(luò)，能夠提供可處理的近似解決方案。最后，連續(xù)性允許使用深度學(xué)習(xí)技術(shù)，這些技術(shù)可以同時優(yōu)化信息編碼和模型參數(shù)，以發(fā)現(xiàn)最大化性能的任務(wù)特定表示空間。

總體而言，通過利用連續(xù)性的這些優(yōu)勢，可以解決離散符號方法在靈活性、可處理性和編碼方面長期面臨的挑戰(zhàn)。因此，基于Transformer的ANN為“神經(jīng)組合計算”提供了有希望的見解：它們表明ANN可以滿足認(rèn)知建模的核心約束，特別是連續(xù)和組合結(jié)構(gòu)以及處理的要求。

天賦論與語言習(xí)得

另一個傳統(tǒng)爭議在于，人工神經(jīng)網(wǎng)絡(luò)語言模型是否挑戰(zhàn)了語言發(fā)展中天賦論的論點？

這場爭論集中在兩個主張上：一種是較強的原則性主張（in-principle claim），另一種是較弱的發(fā)展性主張（developmental claim）。

較強的原則性主張認(rèn)為，即使接觸再多的語言資料，也不足以使兒童迅速掌握句法知識。也就是說，如果沒有內(nèi)在的先驗語法知識，人類就無法學(xué)習(xí)語言規(guī)則。較弱的發(fā)展性主張則基于“貧乏刺激”理論，認(rèn)為兒童在發(fā)展過程中實際接觸的語言輸入的性質(zhì)和數(shù)量不足以誘導(dǎo)出底層句法結(jié)構(gòu)的正確概念，除非他們擁有先天知識。Chomskyan派的語言學(xué)家認(rèn)為兒童天生具有“通用語法”（Universal Grammar），這使得兒童能夠通過少量的經(jīng)驗，高效適應(yīng)特定語言中的特定語法。

LLMs在學(xué)習(xí)語法結(jié)構(gòu)上的成功，成為了天賦論的反例。LLMs僅通過訓(xùn)練數(shù)據(jù)集，就能夠獲得復(fù)雜的句法知識。這對天賦論的原則性主張施加了相當(dāng)大的壓力[19]。從這個意義上說，LLMs提供了一種經(jīng)驗主義的證據(jù)，即統(tǒng)計學(xué)習(xí)者可以在沒有先天語法的幫助下歸納出語法知識。

然而，這并不直接與發(fā)展性主張相矛盾，因為LLMs通常接收的語言輸入量比人類兒童要多上幾個數(shù)量級。而且，人類兒童面對的語言輸入和學(xué)習(xí)環(huán)境與LLMs有很大不同。人類學(xué)習(xí)更具有互動性、迭代性、基礎(chǔ)性和體驗性。研究者逐漸通過在更接近真實學(xué)習(xí)環(huán)境中訓(xùn)練較小的語言模型，提供證據(jù)來支持這種發(fā)展性主張[20]。

但這些初步結(jié)果仍然是不確定的。目前尚不清楚，沒有內(nèi)置解析器的統(tǒng)計學(xué)習(xí)模型是否能像兒童一樣有效地學(xué)習(xí)語法。一種可能的策略是盡可能模仿兒童的學(xué)習(xí)環(huán)境，例如，直接在符合發(fā)展階段的口語文本數(shù)據(jù)集上訓(xùn)練模型[21]，甚至可以使用安裝在兒童頭上的攝像頭記錄兒童以自我為中心的視聽輸入進(jìn)行訓(xùn)練[22, 23]。如果未來在這些或類似數(shù)據(jù)集上訓(xùn)練的模型被證實能夠展現(xiàn)出類似于兒童觀察到的句法概括，這將對發(fā)展性可學(xué)性主張?zhí)岢鱿喈?dāng)大的質(zhì)疑，暗示即使是相對“貧乏”的語言刺激，對于具有廣泛歸納偏好的學(xué)習(xí)者來說，可能也足夠誘導(dǎo)出句法結(jié)構(gòu)。

語言理解與基礎(chǔ)

即便LLMs能夠通過分析語言序列掌握句法結(jié)構(gòu)，但這并不意味著它們是真的理解了語義。對這一點，學(xué)界存在很多批評。如Bender和Kolle認(rèn)為，由于語言模型僅在語言的形式方面接受訓(xùn)練，它們無法從語言形式中直接學(xué)習(xí)到語義，因此LLMs本質(zhì)上無法理解語言的含義[24]。

相關(guān)批評與Harnad在1990年所述的“基礎(chǔ)問題”（grounding problem）[25]不謀而合。這個問題指出，NLP中的語言tokens與它們在現(xiàn)實世界中所指代的對象之間存在明顯脫節(jié)。在傳統(tǒng)的NLP中，單詞由任意符號表示，這些符號與現(xiàn)實世界中的指代物沒有直接聯(lián)系，它們的語義通常由外部編程者賦予。從系統(tǒng)的角度來看，它們只是嵌入語法規(guī)則中的毫無意義的tokens。Harnad認(rèn)為，要使NLP系統(tǒng)中的符號具有內(nèi)在意義，需要這些內(nèi)部符號表示與符號所指代的外部世界中的對象、事件和屬性存在某種基礎(chǔ)聯(lián)系。如果沒有這種聯(lián)系，系統(tǒng)的表示將與現(xiàn)實脫節(jié)，只能從外部解釋者的角度獲得意義。

盡管這一問題最初是針對經(jīng)典符號系統(tǒng)提出的，但對僅在文本上進(jìn)行訓(xùn)練的現(xiàn)代LLMs來說，也存在類似的問題[26]。LLMs將語言tokens處理為向量，而不是離散符號，這些向量表示同樣可能與現(xiàn)實世界脫節(jié)。盡管它們能生成對熟練的語言使用者有意義的句子，但這些句子在沒有外部解釋的情況下可能就沒有獨立的意義。

第三則批評涉及LLMs是否具有交際意圖的能力。這涉及到Grice傳統(tǒng)中兩種意義的區(qū)別*：一種是與語言表達(dá)相關(guān)的、固定的、與上下文無關(guān)的意義（通常稱為語言意義），另一種是說話者通過話語傳達(dá)的意圖（通常稱為說話者意義）。LLMs的輸出包含按照實際語言使用的統(tǒng)計模式組織和組合的單詞，因此具有語言意義。然而，為了實現(xiàn)有效的交流，LLMs需要具有相應(yīng)的交際意圖。批評的觀點認(rèn)為，LLMs缺乏交際意圖的基本構(gòu)建塊，如內(nèi)在目標(biāo)和心智理論。

語義能力通常指的是人們使用和理解一種語言中所表達(dá)的含義的能力和知識。有人提出，即使在其局限性之外，LLMs也可能展現(xiàn)出一定程度的語義能力。Piantadosi和Hill認(rèn)為，LLMs中詞匯項的含義，與人類一樣，不取決于外部引用，而是取決于相應(yīng)表示之間的內(nèi)部關(guān)系[27]。這些表示可以在高維語義空間中，以向量的形式進(jìn)行描述。這個向量空間的“內(nèi)在幾何”指的是不同向量之間的空間關(guān)系，例如向量之間的距離、向量組之間形成的角度，以及向量在響應(yīng)上下文內(nèi)容時的變化方式。

Piantadosi和Hill認(rèn)為，LLMs展示的令人印象深刻的語言能力表明，它們的內(nèi)部表示空間具有大致反映人類概念空間的基本特性的幾何結(jié)構(gòu)[31]。因此，評估LLMs的語義能力不能僅通過檢查它們的架構(gòu)、學(xué)習(xí)目標(biāo)或訓(xùn)練數(shù)據(jù)來確定；相反，至少應(yīng)該部分地基于系統(tǒng)向量空間的內(nèi)在幾何結(jié)構(gòu)。雖然關(guān)于LLMs是否獲得指稱語義能力存在爭議，但一些觀點認(rèn)為，通過在語料庫上進(jìn)行訓(xùn)練，LLMs可能在一定程度上實現(xiàn)真正的語言指稱。

雖然LLMs通過它們的訓(xùn)練數(shù)據(jù)與世界之間存在間接的因果關(guān)系，但這并不能保證它們的輸出是基于真實世界的實際指代。Mollo和Millière認(rèn)為，僅在文本上進(jìn)行訓(xùn)練的LLMs實際上可能通過與RLHF的微調(diào)，獲得涉及世界的功能[28]。雖然經(jīng)過精細(xì)調(diào)整的LLMs仍然無法直接訪問世界，但RLHF的反饋信號可以將它們的輸出與實際情況聯(lián)系起來。

還有重要的一點是LLM不具有溝通意圖。LLM輸出的句子可能沒有明確的含義，句子的含義是由外部解答產(chǎn)生的。當(dāng)人類給定一個外部目標(biāo)時，LLMs可能表現(xiàn)出類似溝通意圖的東西。但是這個“意圖”完全是由人類設(shè)定的目標(biāo)確定的，LLMs在本質(zhì)上無法形成溝通意圖。

世界模型

另一個核心的問題是，設(shè)計用于預(yù)測下一個token的LLMs是否能構(gòu)建出一個“世界模型”。在機(jī)器學(xué)習(xí)中，世界模型通常指的是模擬外部世界某些方面的內(nèi)部表征，使系統(tǒng)能夠以反映現(xiàn)實世界動態(tài)的方式理解、解釋和預(yù)測現(xiàn)象，包括因果關(guān)系和直觀的物理現(xiàn)象。

與通過和環(huán)境互動并接收反饋來學(xué)習(xí)的強化學(xué)習(xí)代理不同，LLMs并不是通過這種方式進(jìn)行學(xué)習(xí)的。它們能否構(gòu)建出世界模型的問題，實際上是在探討它們是否能夠內(nèi)部構(gòu)建出對世界的理解，并生成與現(xiàn)實世界知識和動態(tài)相一致的語言。這種能力對于反駁LLMs僅僅是“Blockheads”的觀點至關(guān)重要[1]。

評估LLMs是否具有世界模型并沒有統(tǒng)一的方法，部分原因在于這個概念通常定義模糊，部分原因在于難以設(shè)計實驗來區(qū)分LLMs是依賴淺層啟發(fā)式回答問題，還是使用了環(huán)境核心動態(tài)的內(nèi)部表征這一假設(shè)。盡管如此，我們還可以向LLMs提出一些不能依據(jù)記憶來完成的任務(wù)，來提供新的證據(jù)解決這一問題。

有研究發(fā)現(xiàn)，GPT-4可以為新任務(wù)生成可運行的文本游戲，這可能意味著它對游戲環(huán)境中物體互動方式有一定理解[29]。然而，要驗證這一假設(shè)，需要深入分析模型內(nèi)部編碼，這對于非常龐大的模型來說相當(dāng)極具挑戰(zhàn)，而對于像GPT-4這樣不公開權(quán)重的封閉模型來說，更是不可能實現(xiàn)。

有理論支持LLMs可能學(xué)會了模擬世界的一部分，而不僅僅是進(jìn)行序列概率估計。更具體地說，互聯(lián)網(wǎng)規(guī)模的訓(xùn)練數(shù)據(jù)集由大量單獨的文檔組成。對這些文本的最有效壓縮可能涉及對生成它們的隱藏變量值進(jìn)行編碼：即文本的人類作者的句法知識、語義信念和交際意圖。

文化知識傳遞和語言支持

另一個有趣的問題是，LLMs是否可能參與文化習(xí)得并在知識傳遞中發(fā)揮作用。一些理論家提出，人類智能的一個關(guān)鍵特征在于其獨特的文化學(xué)習(xí)能力。盡管其他靈長類動物也有類似的能力，但人類在這方面顯得更為突出。人類能夠相互合作，將知識從上一代傳到下一代，人類能夠從上一代結(jié)束的地方繼續(xù)，并在語言學(xué)、科學(xué)和社會學(xué)知識方面取得新的進(jìn)展。這種方式使人類的知識積累和發(fā)現(xiàn)保持穩(wěn)步發(fā)展，與黑猩猩等其他動物相對停滯的文化演變形成鮮明對比。

鑒于深度學(xué)習(xí)系統(tǒng)已經(jīng)在多個任務(wù)領(lǐng)域超過了人類表現(xiàn)。那么問題就變成了，LLMs是否能夠模擬文化學(xué)習(xí)的許多組成部分，將它們的發(fā)現(xiàn)傳遞給人類理論家。目前研究發(fā)現(xiàn)，現(xiàn)在主要是人類通過解釋模型來得到可傳播的知識。

但是，LLMs是否能夠以理論介導(dǎo)的方式向人類解釋它們的策略，從而參與和增強人類文化學(xué)習(xí)呢？有證據(jù)表明，基于Transformer的模型可能在某些訓(xùn)練-測試分布轉(zhuǎn)變下實現(xiàn)組合泛化。但目前的問題涉及到一種不同類型的泛化解決真正新穎任務(wù)的能力。從現(xiàn)有證據(jù)來看，LLMs似乎能夠在已知任務(wù)范圍內(nèi)處理新數(shù)據(jù)，實現(xiàn)局部任務(wù)泛化。

此外，文化的累積進(jìn)步（棘輪效應(yīng)）不僅涉及創(chuàng)新，還包括穩(wěn)定的文化傳播。LLMs是否能夠像人類一樣，不僅能夠生成新穎的解決方案，還能夠通過認(rèn)識和表達(dá)它們?nèi)绾纬较惹暗慕鉀Q方案，從而“鎖定”這些創(chuàng)新？這種能力不僅涉及生成新穎的響應(yīng)，還需要對解決方案的新穎性及其影響有深刻理解，類似于人類科學(xué)家不僅發(fā)現(xiàn)新事物，還能理論化、情境化和傳達(dá)他們的發(fā)現(xiàn)。

因此，對LLMs的挑戰(zhàn)不僅僅在于生成問題的新穎解決方案，還在于培養(yǎng)一種能夠反思和傳達(dá)其創(chuàng)新性質(zhì)的能力，從而促進(jìn)文化學(xué)習(xí)的累積過程。這種能力可能需要更先進(jìn)的交際意圖理解和世界模型構(gòu)建。雖然LLMs在各種形式的任務(wù)泛化方面表現(xiàn)出有希望的跡象，但它們參與文化學(xué)習(xí)的程度似乎取決于這些領(lǐng)域的進(jìn)一步發(fā)展，這可能超出了當(dāng)前體系結(jié)構(gòu)的能力范圍。

總結(jié)

作者在這篇綜述文章中首先考慮了一種懷疑論，即LLMs只是復(fù)雜的模仿者，它們僅僅是從訓(xùn)練數(shù)據(jù)中記憶和復(fù)述語言模式，類似于Blockhead思想實驗。將這種觀點作為零假設(shè)，批判性地審視了可以用來否定這一觀點的證據(jù)。在許多情況下，LLMs遠(yuǎn)遠(yuǎn)超出了非經(jīng)典系統(tǒng)性能上限的預(yù)測。

與此同時，作者發(fā)現(xiàn)超越Blockhead的類比仍然取決于對LLMs學(xué)習(xí)過程和內(nèi)部機(jī)制的仔細(xì)研究，而我們對它們的理解才剛剛開始。

特別是，我們需要了解LLMs對其生成的句子以及這些句子所描述的世界的表征。這些理解需要未來進(jìn)一步實證調(diào)查。