當(dāng)前位置：人工智能實(shí)驗(yàn)室> 人工智能應(yīng)用 > 谷歌蘋果曝LLM驚人內(nèi)幕，自主識(shí)錯(cuò)卻裝糊涂！AI幻覺(jué)背后藏著大秘密

谷歌蘋果曝LLM驚人內(nèi)幕，自主識(shí)錯(cuò)卻裝糊涂！AI幻覺(jué)背后藏著大秘密
來(lái)源：互聯(lián)網(wǎng) 發(fā)布日期：2024-11-10 18:46:02 瀏覽：0次

導(dǎo)讀：劃重點(diǎn)01谷歌、蘋果等機(jī)構(gòu)研究人員發(fā)現(xiàn)，大模型知道的遠(yuǎn)比表現(xiàn)的要多，內(nèi)部表征可以用來(lái)預(yù)測(cè)LLM可能會(huì)犯錯(cuò)的錯(cuò)誤類型。02研究團(tuán)隊(duì)分析了LLM內(nèi)部狀態(tài)，發(fā)現(xiàn)真實(shí)性信息集中在特定的token，而且并不均勻分布。03然而，現(xiàn)有的錯(cuò)誤檢測(cè)方法往往關(guān)注最后生成的token或取平均值，可能會(huì)錯(cuò)過(guò)關(guān)鍵細(xì)節(jié)。04通過(guò)比較使用、不使用精確答案token的性能，研究人員發(fā)現(xiàn)精確答案token的性能優(yōu)于 ......

劃重點(diǎn)

01谷歌、蘋果等機(jī)構(gòu)研究人員發(fā)現(xiàn)，大模型知道的遠(yuǎn)比表現(xiàn)的要多，內(nèi)部表征可以用來(lái)預(yù)測(cè)LLM可能會(huì)犯錯(cuò)的錯(cuò)誤類型。

02研究團(tuán)隊(duì)分析了LLM內(nèi)部狀態(tài)，發(fā)現(xiàn)真實(shí)性信息集中在特定的token，而且并不均勻分布。

03然而，現(xiàn)有的錯(cuò)誤檢測(cè)方法往往關(guān)注最后生成的token或取平均值，可能會(huì)錯(cuò)過(guò)關(guān)鍵細(xì)節(jié)。

04通過(guò)比較使用、不使用精確答案token的性能，研究人員發(fā)現(xiàn)精確答案token的性能優(yōu)于其他位置。

05最后，研究結(jié)果表明，使用探測(cè)器選擇答案可以提高大模型在所有檢查任務(wù)中的準(zhǔn)確性。

以上內(nèi)容由大模型生成，僅供參考

谷歌蘋果曝LLM驚人內(nèi)幕，自主識(shí)錯(cuò)卻裝糊涂！AI幻覺(jué)背后藏著大秘密

新智元報(bào)道編輯：桃子

【新智元導(dǎo)讀】大模型幻覺(jué)，究竟是怎么來(lái)的？谷歌、蘋果等機(jī)構(gòu)研究人員發(fā)現(xiàn)，大模型知道的遠(yuǎn)比表現(xiàn)的要多。它們能夠在內(nèi)部編碼正確答案，卻依舊輸出了錯(cuò)誤內(nèi)容。

到現(xiàn)在為止，我們?nèi)耘f對(duì)大模型「幻覺(jué)」如何、為何產(chǎn)生，知之甚少。

谷歌蘋果曝LLM驚人內(nèi)幕，自主識(shí)錯(cuò)卻裝糊涂！AI幻覺(jué)背后藏著大秘密

最近，來(lái)自Technion、谷歌和蘋果的研究人員發(fā)現(xiàn)，LLM「真實(shí)性」的信息集中在特定的token，而且并不均勻分布。

正如論文標(biāo)題所示，「LLM知道的往往要比表現(xiàn)出來(lái)的更多」。

谷歌蘋果曝LLM驚人內(nèi)幕，自主識(shí)錯(cuò)卻裝糊涂！AI幻覺(jué)背后藏著大秘密

論文地址：https://arxiv.org/pdf/2410.02707

不僅如此，他們還發(fā)現(xiàn)，內(nèi)部表征可以用來(lái)預(yù)測(cè)LLM可能會(huì)犯錯(cuò)的錯(cuò)誤類型。

它的優(yōu)勢(shì)在于，未來(lái)有助于開(kāi)發(fā)出針對(duì)性的解決方案。

最后，研究團(tuán)隊(duì)還解釋了，大模型內(nèi)部編碼和外部行為之間存在的差異：

它們可能在內(nèi)部編碼了正確答案，卻持續(xù)生成錯(cuò)誤答案。

幻覺(jué)，如何定義？

事實(shí)錯(cuò)誤、偏見(jiàn)，以及推理失誤，這些統(tǒng)稱為「幻覺(jué)」。

以往，大多數(shù)關(guān)于幻覺(jué)的研究，都集中在分析大模型的外部行為，并檢查用戶如何感知這些錯(cuò)誤。

然而，這些方法對(duì)模型本身如何編碼、處理錯(cuò)誤提供了有限的見(jiàn)解。

谷歌蘋果曝LLM驚人內(nèi)幕，自主識(shí)錯(cuò)卻裝糊涂！AI幻覺(jué)背后藏著大秘密

近期另有一些研究表明，LLM內(nèi)部狀態(tài)其實(shí)「知道」那些輸出可能是錯(cuò)誤的，而且這種「知識(shí)」被編碼在模型內(nèi)部狀態(tài)中。

這一發(fā)現(xiàn)可以幫助提高錯(cuò)誤檢測(cè)的性能，并進(jìn)一步緩解這些問(wèn)題。

不過(guò)其中一個(gè)缺陷是，這些研究主要集中在檢驗(yàn)?zāi)Ｐ蜕勺詈笠粋€(gè)token、或提示符中最后一個(gè)token。

由于LLM通常會(huì)生成長(zhǎng)篇的響應(yīng)，因此這一做法可能會(huì)錯(cuò)過(guò)關(guān)鍵細(xì)節(jié)。

在最新研究中，研究團(tuán)隊(duì)采取了不同的方法：

不只是看最終的輸出，而是分析「確切的答案token」，如若修改，將會(huì)改變答案的正確性的相應(yīng)token。

最終證明了，LLM內(nèi)部表征所包含的真實(shí)性信息，比以往要多得多。

但這種錯(cuò)誤檢測(cè)器難以在不同數(shù)據(jù)集之間泛化，這說(shuō)明真實(shí)性編碼并非統(tǒng)一的，而是多方面的。

更好的錯(cuò)誤檢測(cè)

給定一個(gè)大模型M，輸入提示p、模型生成的響應(yīng)，任務(wù)預(yù)測(cè)是正確還是錯(cuò)誤的。

假設(shè)可以訪問(wèn)LLM內(nèi)部狀態(tài)（即白盒設(shè)置），但不能訪問(wèn)任何外部資源（如搜索引擎或其他LLM）。

數(shù)據(jù)集使用的是谷歌蘋果曝LLM驚人內(nèi)幕，自主識(shí)錯(cuò)卻裝糊涂！AI幻覺(jué)背后藏著大秘密

，包含N個(gè)問(wèn)題-標(biāo)簽對(duì)，谷歌蘋果曝LLM驚人內(nèi)幕，自主識(shí)錯(cuò)卻裝糊涂！AI幻覺(jué)背后藏著大秘密

代表著一系列問(wèn)題，谷歌蘋果曝LLM驚人內(nèi)幕，自主識(shí)錯(cuò)卻裝糊涂！AI幻覺(jué)背后藏著大秘密

代表著對(duì)應(yīng)的真實(shí)答案。

對(duì)于每個(gè)問(wèn)題q_i，作者讓模型M生成響應(yīng)y_i，得到預(yù)測(cè)答案集谷歌蘋果曝LLM驚人內(nèi)幕，自主識(shí)錯(cuò)卻裝糊涂！AI幻覺(jué)背后藏著大秘密

。

接下來(lái)，研究人員構(gòu)建了錯(cuò)誤檢測(cè)數(shù)據(jù)集，通過(guò)將每個(gè)生成的響應(yīng)_i與真實(shí)標(biāo)簽y_i比較，以評(píng)估其正確性。

比較結(jié)果會(huì)產(chǎn)生出一個(gè)正確的標(biāo)簽z_i ∈ {0, 1}（1表示正確，0表示錯(cuò)誤）。

這種比較可以通過(guò)自動(dòng)啟發(fā)式方法，在指令型LLM的協(xié)助下完成。

最終的錯(cuò)誤檢測(cè)數(shù)據(jù)集為谷歌蘋果曝LLM驚人內(nèi)幕，自主識(shí)錯(cuò)卻裝糊涂！AI幻覺(jué)背后藏著大秘密

。其排除了LLM拒絕回答的情況，因?yàn)檫@些可以輕易地被分類為錯(cuò)誤。

接下來(lái)，研究人員在Mistral 7B和Llama 2模型的四個(gè)變體上進(jìn)行了實(shí)驗(yàn)。

這些模型跨越了十個(gè)數(shù)據(jù)集，涵蓋了各種任務(wù)。

其中包括問(wèn)答、自然語(yǔ)言推理、數(shù)學(xué)問(wèn)題解決、情感分析。

他們?cè)试S模型生成不受限制的響應(yīng)，來(lái)模擬真實(shí)世界的使用情況。

這里，一共用到了三種錯(cuò)誤檢測(cè)方法：Aggregated probabilities / logits、P(True)、Probing。

精確答案token

現(xiàn)有的方法經(jīng)常忽略一個(gè)關(guān)鍵的細(xì)微差別：用于錯(cuò)誤檢測(cè)的token選擇，通常關(guān)注最后生成的token或取平均值。

然而，由于大模型通常會(huì)生成長(zhǎng)篇回復(fù)，這種做法可能會(huì)錯(cuò)過(guò)關(guān)鍵細(xì)節(jié)。

還有一些方法使用提示最后的一個(gè)token，但本質(zhì)上是不正確的，因?yàn)榇竽Ｐ偷膯蜗蛐�，未能考慮生成響應(yīng)和丟失的情況，其中同一模型的不同采樣答案在不同情況下，有所不同正確性。

對(duì)此，研究人員檢查了以往未經(jīng)檢查的token位置：確切的答案token，代表生成響應(yīng)中最有意義的部分。

他們將精確答案token定義為那些修改會(huì)改變答案的正確性token，而忽略了后續(xù)生成的內(nèi)容。

如下圖圖1，說(shuō)明了不同的token位置。

谷歌蘋果曝LLM驚人內(nèi)幕，自主識(shí)錯(cuò)卻裝糊涂！AI幻覺(jué)背后藏著大秘密

實(shí)驗(yàn)結(jié)果

真實(shí)性編碼模式

研究人員首先專注于探索分類器，以了解LLM的內(nèi)部表征。

具體來(lái)說(shuō)，廣泛分析了層和token選擇對(duì)這些分類器激活提取的影響。這是通過(guò)系統(tǒng)地探測(cè)模型的所有層來(lái)完成的，從最后一個(gè)問(wèn)題token開(kāi)始，一直到最終生成的token。

下圖2顯示了Mistral-7b-Instruct各個(gè)層和token中經(jīng)過(guò)訓(xùn)練的探測(cè)器的AUC指標(biāo)。

雖然，某些數(shù)據(jù)似乎更容易進(jìn)行錯(cuò)誤預(yù)測(cè)，但所有數(shù)據(jù)集都表現(xiàn)出一致的真實(shí)性編碼模式。

谷歌蘋果曝LLM驚人內(nèi)幕，自主識(shí)錯(cuò)卻裝糊涂！AI幻覺(jué)背后藏著大秘密

對(duì)于token來(lái)說(shuō)，提示后立即出現(xiàn)了強(qiáng)烈的真實(shí)性信號(hào)，表明這種表征編碼了有關(guān)模型正確回答問(wèn)題的一般能力的信息。

對(duì)著文本生成的進(jìn)行，該信號(hào)會(huì)減弱，但在確切的答案token處，再次達(dá)到峰值。

在生成過(guò)程即將結(jié)束時(shí)，信號(hào)強(qiáng)度再次上升，表明了該表征編碼了整個(gè)生成過(guò)程的特征，盡管它仍弱于確切答案token。

錯(cuò)誤檢測(cè)結(jié)果

接下來(lái)，研究人員通過(guò)比較使用、不使用精確答案token的性能，來(lái)評(píng)估各種錯(cuò)誤檢測(cè)方法。

表1比較了三個(gè)代表性數(shù)據(jù)集的AUC。

在這里，他們展示了最后一個(gè)精確答案token的結(jié)果，它的性能優(yōu)于第一個(gè)精確答案token及其前面的token，而最后一個(gè)精確答案token之后的token性能類似。

合并精確答案token，有助于改進(jìn)幾乎所有數(shù)據(jù)集中的不同錯(cuò)誤檢測(cè)方法。

谷歌蘋果曝LLM驚人內(nèi)幕，自主識(shí)錯(cuò)卻裝糊涂！AI幻覺(jué)背后藏著大秘密

任務(wù)之間的泛化

以上，探測(cè)分類器在檢測(cè)錯(cuò)誤方面有效性，表明了大模型對(duì)其輸出的真實(shí)性進(jìn)行了編碼。

但目前仍不清楚的是，它們跨任務(wù)的通用性。

然而，理解這一點(diǎn)對(duì)于實(shí)際應(yīng)用至關(guān)重要，因?yàn)殄e(cuò)誤檢測(cè)器可能會(huì)遇到與訓(xùn)練時(shí)完全不同的示例。

因此，研究人員探討在一個(gè)數(shù)據(jù)集上訓(xùn)練的探測(cè)器，是否可以檢測(cè)其他數(shù)據(jù)集的錯(cuò)誤。

如下圖3顯示了Mistral-7b-Instruct的泛化結(jié)果。在這種情況下，高于0.5的值表明泛化成功。

乍一看，結(jié)果似乎與之前的研究一致：大多數(shù)熱圖值超過(guò)0.5，這意味著跨任務(wù)具有一定程度的泛化性。

然而，再仔細(xì)檢查，發(fā)現(xiàn)大部分性能可以通過(guò)基于logit的真實(shí)性檢測(cè)來(lái)實(shí)現(xiàn)，該檢測(cè)僅觀察輸出logits。

谷歌蘋果曝LLM驚人內(nèi)幕，自主識(shí)錯(cuò)卻裝糊涂！AI幻覺(jué)背后藏著大秘密

圖3b顯示了從最強(qiáng)的基于Logit的基線（Logit-min-exact）中減去結(jié)果后的相同熱圖。

這張調(diào)整后的熱圖揭示了探測(cè)器的泛化能力很少超過(guò)單獨(dú)檢查 logits所能達(dá)到的效果。

這意味著明顯的概括并非源于真實(shí)性的普遍內(nèi)部編碼，而是反映了已經(jīng)可以通過(guò)邏輯等外部特征獲取的信息。

調(diào)查錯(cuò)誤類型

在確定了錯(cuò)誤檢測(cè)的局限性后，研究人員轉(zhuǎn)向錯(cuò)誤分析。

錯(cuò)誤分類

圖4說(shuō)明了，三種代表性的錯(cuò)誤類型。

在其中一個(gè)（圖4a）中，模型通常會(huì)給出正確的答案，但偶爾會(huì)出錯(cuò)，這意味著存在正確的信息，但采樣可能會(huì)導(dǎo)致錯(cuò)誤。

在第二種類型中（圖4b），模型經(jīng)常做出錯(cuò)誤的響應(yīng)，盡管它能夠提供正確的答案，這表明盡管不斷犯同樣的錯(cuò)誤，但仍然保留了一些知識(shí)。

在第三種類型中（圖4c），模型生成了大多數(shù)答案都是錯(cuò)誤的，反映出對(duì)任何生成的答案的信心較低。

谷歌蘋果曝LLM驚人內(nèi)幕，自主識(shí)錯(cuò)卻裝糊涂！AI幻覺(jué)背后藏著大秘密

研究人員通過(guò)記錄每個(gè)示例的三個(gè)特定特征來(lái)對(duì)錯(cuò)誤進(jìn)行分類：（a）生成的不同答案的數(shù)量；(b) 正確答案的頻率；(c) 最常見(jiàn)的錯(cuò)誤答案的頻率。

預(yù)測(cè)錯(cuò)誤類型

表2列出了所有模型的測(cè)試集結(jié)果。

谷歌蘋果曝LLM驚人內(nèi)幕，自主識(shí)錯(cuò)卻裝糊涂！AI幻覺(jué)背后藏著大秘密

檢測(cè)正確答案

最后，在確定模型編碼各種與真實(shí)性相關(guān)的信息后，作者又研究了這種內(nèi)部真實(shí)性，如何在響應(yīng)生成過(guò)程中，與外部行為保持一致。

為此，他們使用了探測(cè)器（5個(gè)經(jīng)過(guò)錯(cuò)誤檢測(cè)訓(xùn)練），從針對(duì)同一問(wèn)題生成的30個(gè)響應(yīng)中，選擇一個(gè)答案。

然后，根據(jù)所選答案來(lái)衡量模型的準(zhǔn)確性。

Mistral-7b-instruct的結(jié)果如下圖5所示，總體而言，使用探測(cè)器選擇答案可以提高大模型在所有檢查任務(wù)中的準(zhǔn)確性。

谷歌蘋果曝LLM驚人內(nèi)幕，自主識(shí)錯(cuò)卻裝糊涂！AI幻覺(jué)背后藏著大秘密

總之，這項(xiàng)研究的發(fā)現(xiàn)，可以幫助未來(lái)研究人員去設(shè)計(jì)更好的幻覺(jué)環(huán)節(jié)系統(tǒng)。

遺憾的是，它使用的技術(shù)需要訪問(wèn)內(nèi)部LLM表征，這也主要適用于開(kāi)源模型的使用。

相關(guān)熱詞： google 模型新智元蘋果

上一篇：消息稱著名 AI 學(xué)者、天工智能首席科學(xué)家顏水成離開(kāi)昆侖萬(wàn)維

下一篇：媒體爆料：發(fā)現(xiàn)新一代大模型”沒(méi)有那么大飛躍“，OpenAI已經(jīng)改變策略

谷歌蘋果曝LLM驚人內(nèi)幕，自主識(shí)錯(cuò)卻裝糊涂！AI幻覺(jué)背后藏著大秘密
來(lái)源：互聯(lián)網(wǎng) 發(fā)布日期：2024-11-10 18:46:02 瀏覽：0次

相關(guān)內(nèi)容

AiLab云推薦

最新資訊

本月熱點(diǎn)

熱門排行

推薦內(nèi)容

在線客服

熱門欄目HotCates

關(guān)于我們

版權(quán)聲明

谷歌蘋果曝LLM驚人內(nèi)幕，自主識(shí)錯(cuò)卻裝糊涂！AI幻覺(jué)背后藏著大秘密 來(lái)源：互聯(lián)網(wǎng) 發(fā)布日期：2024-11-10 18:46:02 瀏覽：0次

相關(guān)內(nèi)容

AiLab云推薦

最新資訊

本月熱點(diǎn)

熱門排行

推薦內(nèi)容

在線客服

熱門欄目HotCates

關(guān)于我們

版權(quán)聲明

谷歌蘋果曝LLM驚人內(nèi)幕，自主識(shí)錯(cuò)卻裝糊涂！AI幻覺(jué)背后藏著大秘密
來(lái)源：互聯(lián)網(wǎng) 發(fā)布日期：2024-11-10 18:46:02 瀏覽：0次