劃重點(diǎn)
01谷歌、蘋果等機(jī)構(gòu)研究人員發(fā)現(xiàn),大模型知道的遠(yuǎn)比表現(xiàn)的要多,內(nèi)部表征可以用來(lái)預(yù)測(cè)LLM可能會(huì)犯錯(cuò)的錯(cuò)誤類型。
02研究團(tuán)隊(duì)分析了LLM內(nèi)部狀態(tài),發(fā)現(xiàn)真實(shí)性信息集中在特定的token,而且并不均勻分布。
03然而,現(xiàn)有的錯(cuò)誤檢測(cè)方法往往關(guān)注最后生成的token或取平均值,可能會(huì)錯(cuò)過(guò)關(guān)鍵細(xì)節(jié)。
04通過(guò)比較使用、不使用精確答案token的性能,研究人員發(fā)現(xiàn)精確答案token的性能優(yōu)于其他位置。
05最后,研究結(jié)果表明,使用探測(cè)器選擇答案可以提高大模型在所有檢查任務(wù)中的準(zhǔn)確性。
以上內(nèi)容由大模型生成,僅供參考
新智元報(bào)道編輯:桃子
【新智元導(dǎo)讀】大模型幻覺(jué),究竟是怎么來(lái)的?谷歌、蘋果等機(jī)構(gòu)研究人員發(fā)現(xiàn),大模型知道的遠(yuǎn)比表現(xiàn)的要多。它們能夠在內(nèi)部編碼正確答案,卻依舊輸出了錯(cuò)誤內(nèi)容。
到現(xiàn)在為止,我們?nèi)耘f對(duì)大模型「幻覺(jué)」如何、為何產(chǎn)生,知之甚少。
最近,來(lái)自Technion、谷歌和蘋果的研究人員發(fā)現(xiàn),LLM「真實(shí)性」的信息集中在特定的token,而且并不均勻分布。
正如論文標(biāo)題所示,「LLM知道的往往要比表現(xiàn)出來(lái)的更多」。
論文地址:https://arxiv.org/pdf/2410.02707
不僅如此,他們還發(fā)現(xiàn),內(nèi)部表征可以用來(lái)預(yù)測(cè)LLM可能會(huì)犯錯(cuò)的錯(cuò)誤類型。
它的優(yōu)勢(shì)在于,未來(lái)有助于開(kāi)發(fā)出針對(duì)性的解決方案。
最后,研究團(tuán)隊(duì)還解釋了,大模型內(nèi)部編碼和外部行為之間存在的差異:
它們可能在內(nèi)部編碼了正確答案,卻持續(xù)生成錯(cuò)誤答案。
幻覺(jué),如何定義?
事實(shí)錯(cuò)誤、偏見(jiàn),以及推理失誤,這些統(tǒng)稱為「幻覺(jué)」。
以往,大多數(shù)關(guān)于幻覺(jué)的研究,都集中在分析大模型的外部行為,并檢查用戶如何感知這些錯(cuò)誤。
然而,這些方法對(duì)模型本身如何編碼、處理錯(cuò)誤提供了有限的見(jiàn)解。
近期另有一些研究表明,LLM內(nèi)部狀態(tài)其實(shí)「知道」那些輸出可能是錯(cuò)誤的,而且這種「知識(shí)」被編碼在模型內(nèi)部狀態(tài)中。
這一發(fā)現(xiàn)可以幫助提高錯(cuò)誤檢測(cè)的性能,并進(jìn)一步緩解這些問(wèn)題。
不過(guò)其中一個(gè)缺陷是,這些研究主要集中在檢驗(yàn)?zāi)P蜕勺詈笠粋(gè)token、或提示符中最后一個(gè)token。
由于LLM通常會(huì)生成長(zhǎng)篇的響應(yīng),因此這一做法可能會(huì)錯(cuò)過(guò)關(guān)鍵細(xì)節(jié)。
在最新研究中,研究團(tuán)隊(duì)采取了不同的方法:
不只是看最終的輸出,而是分析「確切的答案token」,如若修改,將會(huì)改變答案的正確性的相應(yīng)token。
最終證明了,LLM內(nèi)部表征所包含的真實(shí)性信息,比以往要多得多。
但這種錯(cuò)誤檢測(cè)器難以在不同數(shù)據(jù)集之間泛化,這說(shuō)明真實(shí)性編碼并非統(tǒng)一的,而是多方面的。
更好的錯(cuò)誤檢測(cè)
給定一個(gè)大模型M,輸入提示p、模型生成的響應(yīng),任務(wù)預(yù)測(cè)是正確還是錯(cuò)誤的。
假設(shè)可以訪問(wèn)LLM內(nèi)部狀態(tài)(即白盒設(shè)置),但不能訪問(wèn)任何外部資源(如搜索引擎或其他LLM)。
數(shù)據(jù)集使用的是
,包含N個(gè)問(wèn)題-標(biāo)簽對(duì),
代表著一系列問(wèn)題,
代表著對(duì)應(yīng)的真實(shí)答案。
對(duì)于每個(gè)問(wèn)題q_i,作者讓模型M生成響應(yīng)y_i,得到預(yù)測(cè)答案集
。
接下來(lái), 研究人員構(gòu)建了錯(cuò)誤檢測(cè)數(shù)據(jù)集,通過(guò)將每個(gè)生成的響應(yīng)_i與真實(shí)標(biāo)簽y_i比較,以評(píng)估其正確性。
比較結(jié)果會(huì)產(chǎn)生出一個(gè)正確的標(biāo)簽z_i ∈ {0, 1}(1表示正確,0表示錯(cuò)誤)。
這種比較可以通過(guò)自動(dòng)啟發(fā)式方法,在指令型LLM的協(xié)助下完成。
最終的錯(cuò)誤檢測(cè)數(shù)據(jù)集為
。其排除了LLM拒絕回答的情況,因?yàn)檫@些可以輕易地被分類為錯(cuò)誤。
接下來(lái),研究人員在Mistral 7B和Llama 2模型的四個(gè)變體上進(jìn)行了實(shí)驗(yàn)。
這些模型跨越了十個(gè)數(shù)據(jù)集,涵蓋了各種任務(wù)。
其中包括問(wèn)答、自然語(yǔ)言推理、數(shù)學(xué)問(wèn)題解決、情感分析。
他們?cè)试S模型生成不受限制的響應(yīng),來(lái)模擬真實(shí)世界的使用情況。
這里,一共用到了三種錯(cuò)誤檢測(cè)方法:Aggregated probabilities / logits、P(True)、Probing。
精確答案token
現(xiàn)有的方法經(jīng)常忽略一個(gè)關(guān)鍵的細(xì)微差別:用于錯(cuò)誤檢測(cè)的token選擇,通常關(guān)注最后生成的token或取平均值。
然而,由于大模型通常會(huì)生成長(zhǎng)篇回復(fù),這種做法可能會(huì)錯(cuò)過(guò)關(guān)鍵細(xì)節(jié)。
還有一些方法使用提示最后的一個(gè)token,但本質(zhì)上是不正確的,因?yàn)榇竽P偷膯蜗蛐,未能考慮生成響應(yīng)和丟失的情況,其中同一模型的不同采樣答案在不同情況下,有所不同正確性。
對(duì)此,研究人員檢查了以往未經(jīng)檢查的token位置:確切的答案token,代表生成響應(yīng)中最有意義的部分。
他們將精確答案token定義為那些修改會(huì)改變答案的正確性token,而忽略了后續(xù)生成的內(nèi)容。
如下圖圖1,說(shuō)明了不同的token位置。
實(shí)驗(yàn)結(jié)果
真實(shí)性編碼模式
研究人員首先專注于探索分類器,以了解LLM的內(nèi)部表征。
具體來(lái)說(shuō),廣泛分析了層和token選擇對(duì)這些分類器激活提取的影響。這是通過(guò)系統(tǒng)地探測(cè)模型的所有層來(lái)完成的,從最后一個(gè)問(wèn)題token開(kāi)始,一直到最終生成的token。
下圖2顯示了Mistral-7b-Instruct各個(gè)層和token中經(jīng)過(guò)訓(xùn)練的探測(cè)器的AUC指標(biāo)。
雖然,某些數(shù)據(jù)似乎更容易進(jìn)行錯(cuò)誤預(yù)測(cè),但所有數(shù)據(jù)集都表現(xiàn)出一致的真實(shí)性編碼模式。
對(duì)于token來(lái)說(shuō),提示后立即出現(xiàn)了強(qiáng)烈的真實(shí)性信號(hào),表明這種表征編碼了有關(guān)模型正確回答問(wèn)題的一般能力的信息。
對(duì)著文本生成的進(jìn)行,該信號(hào)會(huì)減弱,但在確切的答案token處,再次達(dá)到峰值。
在生成過(guò)程即將結(jié)束時(shí),信號(hào)強(qiáng)度再次上升,表明了該表征編碼了整個(gè)生成過(guò)程的特征,盡管它仍弱于確切答案token。
錯(cuò)誤檢測(cè)結(jié)果
接下來(lái),研究人員通過(guò)比較使用、不使用精確答案token的性能,來(lái)評(píng)估各種錯(cuò)誤檢測(cè)方法。
表1比較了三個(gè)代表性數(shù)據(jù)集的AUC。
在這里,他們展示了最后一個(gè)精確答案token的結(jié)果,它的性能優(yōu)于第一個(gè)精確答案token及其前面的token,而最后一個(gè)精確答案token之后的token性能類似。
合并精確答案token,有助于改進(jìn)幾乎所有數(shù)據(jù)集中的不同錯(cuò)誤檢測(cè)方法。
任務(wù)之間的泛化
以上,探測(cè)分類器在檢測(cè)錯(cuò)誤方面有效性,表明了大模型對(duì)其輸出的真實(shí)性進(jìn)行了編碼。
但目前仍不清楚的是,它們跨任務(wù)的通用性。
然而,理解這一點(diǎn)對(duì)于實(shí)際應(yīng)用至關(guān)重要,因?yàn)殄e(cuò)誤檢測(cè)器可能會(huì)遇到與訓(xùn)練時(shí)完全不同的示例。
因此,研究人員探討在一個(gè)數(shù)據(jù)集上訓(xùn)練的探測(cè)器,是否可以檢測(cè)其他數(shù)據(jù)集的錯(cuò)誤。
如下圖3顯示了Mistral-7b-Instruct的泛化結(jié)果。在這種情況下,高于0.5的值表明泛化成功。
乍一看,結(jié)果似乎與之前的研究一致:大多數(shù)熱圖值超過(guò)0.5,這意味著跨任務(wù)具有一定程度的泛化性。
然而,再仔細(xì)檢查,發(fā)現(xiàn)大部分性能可以通過(guò)基于logit的真實(shí)性檢測(cè)來(lái)實(shí)現(xiàn),該檢測(cè)僅觀察輸出logits。
圖3b顯示了從最強(qiáng)的基于Logit的基線(Logit-min-exact)中減去結(jié)果后的相同熱圖。
這張 調(diào)整后的熱圖揭示了探測(cè)器的泛化能力很少超過(guò)單獨(dú)檢查 logits所能達(dá)到的效果。
這意味著明顯的概括并非源于真實(shí)性的普遍內(nèi)部編碼,而是反映了已經(jīng)可以通過(guò)邏 輯等外部特征獲取的信息。
調(diào)查錯(cuò)誤類型
在確定了錯(cuò)誤檢測(cè)的局限性后,研究人員轉(zhuǎn)向錯(cuò)誤分析。
錯(cuò)誤分類
圖4說(shuō)明了,三種代表性的錯(cuò)誤類型。
在其中一個(gè)(圖4a)中,模型通常會(huì)給出正確的答案,但偶爾會(huì)出錯(cuò),這意味著存在正確的信息,但采樣可能會(huì)導(dǎo)致錯(cuò)誤。
在第二種類型中(圖4b),模型經(jīng)常做出錯(cuò)誤的響應(yīng),盡管它能夠提供正確的答案,這表明盡管不斷犯同樣的錯(cuò)誤,但仍然保留了一些知識(shí)。
在第三種類型中(圖4c),模型生成了大多數(shù)答案都是錯(cuò)誤的,反映出對(duì)任何生成的答案的信心較低。
研究人員通過(guò)記錄每個(gè)示例的三個(gè)特定特征來(lái)對(duì)錯(cuò)誤進(jìn)行分類:(a)生成的不同答案的數(shù)量;(b) 正確答案的頻率;(c) 最常見(jiàn)的錯(cuò)誤答案的頻率。
預(yù)測(cè)錯(cuò)誤類型
表2列出了所有模型的測(cè)試集結(jié)果。
檢測(cè)正確答案
最后,在確定模型編碼各種與真實(shí)性相關(guān)的信息后,作者又研究了這種內(nèi)部真實(shí)性,如何在響應(yīng)生成過(guò)程中,與外部行為保持一致。
為此,他們使用了探測(cè)器(5個(gè)經(jīng)過(guò)錯(cuò)誤檢測(cè)訓(xùn)練),從針對(duì)同一問(wèn)題生成的30個(gè)響應(yīng)中,選擇一個(gè)答案。
然后,根據(jù)所選答案來(lái)衡量模型的準(zhǔn)確性。
Mistral-7b-instruct的結(jié)果如下圖5所示,總體而言,使用探測(cè)器選擇答案可以提高大模型在所有檢查任務(wù)中的準(zhǔn)確性。
總之,這項(xiàng)研究的發(fā)現(xiàn),可以幫助未來(lái)研究人員去設(shè)計(jì)更好的幻覺(jué)環(huán)節(jié)系統(tǒng)。
遺憾的是,它使用的技術(shù)需要訪問(wèn)內(nèi)部LLM表征,這也主要適用于開(kāi)源模型的使用。