展會信息港展會大全

免訓(xùn)練大模型知識編輯,吸收新數(shù)據(jù)更高效|EMNLP\'24
來源:互聯(lián)網(wǎng)   發(fā)布日期:2024-10-29 15:26:37   瀏覽:774次  

導(dǎo)讀:劃重點01阿里安全團(tuán)隊與華東師范大學(xué)計算機科學(xué)與技術(shù)學(xué)院、阿里云計算平臺聯(lián)合推出了一項新研究,旨在提高大語言模型的知識編輯和推理效率。02該研究提出了一種檢索增強的連續(xù)提示學(xué)習(xí)新方法,首先將知識描述轉(zhuǎn)換為簡短且信息豐富的連續(xù)提示的token表示。03為此,研究團(tuán)隊設(shè)計了知識哨兵機制,作為計算動態(tài)閾值的媒介,確定檢索庫是否包含相關(guān)知識。04實驗結(jié)果顯示,RECIPE方 ......

劃重點

01阿里安全團(tuán)隊與華東師范大學(xué)計算機科學(xué)與技術(shù)學(xué)院、阿里云計算平臺聯(lián)合推出了一項新研究,旨在提高大語言模型的知識編輯和推理效率。

02該研究提出了一種檢索增強的連續(xù)提示學(xué)習(xí)新方法,首先將知識描述轉(zhuǎn)換為簡短且信息豐富的連續(xù)提示的token表示。

03為此,研究團(tuán)隊設(shè)計了知識哨兵機制,作為計算動態(tài)閾值的媒介,確定檢索庫是否包含相關(guān)知識。

04實驗結(jié)果顯示,RECIPE方法在終身編輯場景中表現(xiàn)出最佳性能,對模型造成的傷害最小。

05此外,RECIPE方法有效地保留了LLM的原始推理速度,提高了編輯效率。

以上內(nèi)容由騰訊混元大模型生成,僅供參考

阿里安全 投稿

量子位 | 公眾號 QbitAI

讓大模型能快速、準(zhǔn)確、高效地吸收新知識!

被EMNLP 2024收錄的一項新研究,提出了一種檢索增強的連續(xù)提示學(xué)習(xí)新方法,可以提高知識終身學(xué)習(xí)的編輯和推理效率。

模型編輯旨在糾正大語言模型中過時或錯誤的知識,同時不需要昂貴的代價進(jìn)行再訓(xùn)練。終身模型編輯是滿足LLM持續(xù)編輯要求的最具挑戰(zhàn)性的任務(wù)。

免訓(xùn)練大模型知識編輯,吸收新數(shù)據(jù)更高效|EMNLP\\\'24

之前的工作主要集中在單次或批量編輯上,由于災(zāi)難性的知識遺忘和模型性能的下降,這些方法在終身編輯場景中表現(xiàn)不佳。盡管基于檢索的方法緩解了這些問題,但它們受到將檢索到的知識集成到模型中的緩慢而繁瑣的過程的阻礙。

而名為RECIPE的最新方法,它首先將知識描述轉(zhuǎn)換為簡短且信息豐富的連續(xù)提示的token表示,作為LLM輸入查詢嵌入的前綴,有效地細(xì)化基于知識的生成過程。

它還集成了知識哨兵機制,作為計算動態(tài)閾值的媒介,確定檢索庫是否包含相關(guān)知識。

檢索器和提示編碼器經(jīng)過聯(lián)合訓(xùn)練,以實現(xiàn)知識編輯屬性,即可靠性、通用性和局部性。

在多個權(quán)威基座模型和編輯數(shù)據(jù)集上進(jìn)行終身編輯對比實驗,結(jié)果證明了RECIPE性能的優(yōu)越性。

這項研究由阿里安全內(nèi)容安全團(tuán)隊與華東師范大學(xué)計算機科學(xué)與技術(shù)學(xué)院、阿里云計算平臺針對大語言模型知識編輯的聯(lián)合推出。

免訓(xùn)練大模型知識編輯,吸收新數(shù)據(jù)更高效|EMNLP\\\'24

研究背景即使有非常強大的語言理解能力,像ChatGPT這樣的大型語言模型(LLM)也并非沒有挑戰(zhàn),特別是在保持事實準(zhǔn)確性和邏輯一致性方面。

一個重要的問題是,是否能夠有效地更新這些LLM以糾正不準(zhǔn)確之處,而無需進(jìn)行全面的繼續(xù)預(yù)訓(xùn)練或持續(xù)訓(xùn)練過程,這些操作帶來的機器資源開銷大且耗時。

編輯LLM模型提供了一種有前景的解決方案,允許在特定感興趣的模型中進(jìn)行修改,同時在各任務(wù)中保持模型整體性能。

免訓(xùn)練大模型知識編輯,吸收新數(shù)據(jù)更高效|EMNLP\\\'24

之前各種知識編輯的模型方法和架構(gòu)包括類似于:修改模型內(nèi)部參數(shù)、增加額外參數(shù)和基于檢索方法都會有冗長的編輯前綴影響推理效率。對模型本身進(jìn)行微調(diào)可能會導(dǎo)致過擬合,從而影響其原始性能。

為了解決上述問題,研究人員期望探索更有效的檢索和即時編輯方式,以及對模型進(jìn)行更小的干預(yù),以避免在編輯數(shù)據(jù)集上過度擬合。

模型方法知識編輯相關(guān)背景在本文中,研究團(tuán)隊首先形式化模型編輯任務(wù)在終身學(xué)習(xí)場景中的任務(wù)定義形式,然后介紹模型編輯中的重要評估屬性。

任務(wù)定義

免訓(xùn)練大模型知識編輯,吸收新數(shù)據(jù)更高效|EMNLP\\\'24

任務(wù)屬性

免訓(xùn)練大模型知識編輯,吸收新數(shù)據(jù)更高效|EMNLP\\\'24

RECIPE終身編輯方法總體模型框架如下:

免訓(xùn)練大模型知識編輯,吸收新數(shù)據(jù)更高效|EMNLP\\\'24

免訓(xùn)練大模型知識編輯,吸收新數(shù)據(jù)更高效|EMNLP\\\'24

構(gòu)造和更新知識檢索倉庫

在第t個時間步,給定一個新的知識描述kt,則新知識表示通過編碼器frm中的MLP層可以獲得:

免訓(xùn)練大模型知識編輯,吸收新數(shù)據(jù)更高效|EMNLP\\\'24

其中frm編碼器將輸出token表示的最大、最小、平均的池化級聯(lián)到一個向量空間中作為新知識表示。然后連續(xù)prompt表示pkt可以被其他初始化的MLP層實現(xiàn):

免訓(xùn)練大模型知識編輯,吸收新數(shù)據(jù)更高效|EMNLP\\\'24

最終知識檢索倉庫被從Kt-1更新到Kt

免訓(xùn)練大模型知識編輯,吸收新數(shù)據(jù)更高效|EMNLP\\\'24

基于知識哨兵的動態(tài)prompt檢索

免訓(xùn)練大模型知識編輯,吸收新數(shù)據(jù)更高效|EMNLP\\\'24

動態(tài)編輯模型的推理

研究人員認(rèn)為LLM將被編輯為:

免訓(xùn)練大模型知識編輯,吸收新數(shù)據(jù)更高效|EMNLP\\\'24

給定輸入查詢q和連續(xù)檢索prompt p(kr) = KS(q), 推理過程可以被重新形式化為:

免訓(xùn)練大模型知識編輯,吸收新數(shù)據(jù)更高效|EMNLP\\\'24

其中表示檢索到的連續(xù)提示矩陣和q的單詞嵌入矩陣的連接。

本文方法的可行性得到了P-Tuning等先前工作的支持,該工作證明了訓(xùn)練連續(xù)提示嵌入可以提高LLM在下游任務(wù)上的性能有效性。

在RECIPE中,研究人員將每個知識陳述的編輯視為一項小任務(wù),沒有為每個小任務(wù)微調(diào)特定的提示編碼器,而是通過訓(xùn)練生成連續(xù)提示的RECIPE模塊來實現(xiàn)這些小任務(wù)的目標(biāo),確保LLM遵守相應(yīng)的知識。

模型訓(xùn)練

制定損失是為了確保對生成的連續(xù)提示進(jìn)行編輯,并有效檢索LLM的查詢相關(guān)知識。給定包含b個編輯樣例的訓(xùn)練數(shù)據(jù):

免訓(xùn)練大模型知識編輯,吸收新數(shù)據(jù)更高效|EMNLP\\\'24

對應(yīng)的泛化性和局部性數(shù)據(jù)為:

免訓(xùn)練大模型知識編輯,吸收新數(shù)據(jù)更高效|EMNLP\\\'24

因此損失形式化如下:

編輯損失訓(xùn)練:編輯損失旨在確保生成的連續(xù)提示引導(dǎo)LLM遵循可靠性、通用性和局部性的特性;谳斎氲木庉嫈(shù)據(jù),對應(yīng)于這三個屬性的樣本損失定義如下:

免訓(xùn)練大模型知識編輯,吸收新數(shù)據(jù)更高效|EMNLP\\\'24

免訓(xùn)練大模型知識編輯,吸收新數(shù)據(jù)更高效|EMNLP\\\'24

模型編輯的批量損失函數(shù)推導(dǎo)如下:

免訓(xùn)練大模型知識編輯,吸收新數(shù)據(jù)更高效|EMNLP\\\'24

prompt損失訓(xùn)練:prompt學(xué)習(xí)的訓(xùn)練損失是基于對比學(xué)習(xí),并與可靠性、通用性和局部性的特性相一致。對于一批樣本,學(xué)習(xí)連續(xù)提示的損失函數(shù)形式化如下:

免訓(xùn)練大模型知識編輯,吸收新數(shù)據(jù)更高效|EMNLP\\\'24

免訓(xùn)練大模型知識編輯,吸收新數(shù)據(jù)更高效|EMNLP\\\'24

免訓(xùn)練大模型知識編輯,吸收新數(shù)據(jù)更高效|EMNLP\\\'24

實驗結(jié)果實驗設(shè)置

測試編輯能力的數(shù)據(jù)集:研究人員使用了三個公共模型編輯數(shù)據(jù)集,包括ZSRE、CounterFact(CF)和Ripple Effect(RIPE)作為實驗數(shù)據(jù)集。

ZSRE是通過BART問答和手動過濾生成的,包括162555個訓(xùn)練和19009個測試樣本。每個樣本包括一個編輯樣本及其改寫和不相關(guān)的對應(yīng)樣本,與可靠性、通用性和局部性編輯屬性相匹配。

CF數(shù)據(jù)集的特點是編輯虛假事實,包括10000個訓(xùn)練樣本和10000個測試樣本。這些虛假事實更有可能與LLM中的原始知識相沖突,使編輯過程更具挑戰(zhàn)性,從而對編輯執(zhí)行的能力進(jìn)行強有力的評估。

RIPE將通用性和局部性屬性分為細(xì)粒度類型,包括3000個訓(xùn)練樣本和1388個測試樣本。每個樣本的一般性包括邏輯泛化、組合I、組合II和主題混疊,而局部數(shù)據(jù)則包括遺忘和關(guān)系特異性。

測試通用能力的數(shù)據(jù)集:為了評估編輯對LLM總體性能的損害,研究人員選擇了四個流行的基準(zhǔn)來評估LLM的總體通用能力。分別是用于評估常識知識的CSQA、用于推理能力的ANLI、用于衡量考試能力的MMLU和用于理解技能的SQuAD-2。PromptBench用作本實驗的評估框架。

模型baseline:除了微調(diào)(FT)作為基本基線外,研究人員還將RECIPE方法與各種強大的編輯基線進(jìn)行了比較。

MEND訓(xùn)練MLP,以轉(zhuǎn)換要編輯的模型相對于編輯樣本的梯度的低秩分解。ROME首先使用因果中介分析來定位對編輯樣本影響最大的層。MEMIT基于ROME將編輯范圍擴展到多層,從而提高了編輯性能并支持批量編輯。T-Patcher(TP)在要編輯的模型最后一層的FFN中附著并訓(xùn)練額外的神經(jīng)元。MALMEN將參數(shù)偏移聚合表述為最小二乘問題,隨后使用正態(tài)方程更新LM參數(shù)。WILKE根據(jù)編輯知識在不同層之間的模式匹配程度來選擇編輯層。

研究人員還利用基于檢索的編輯方法來進(jìn)一步驗證其有效性。

GRACE提出了用于連續(xù)編輯的檢索適配器,它維護(hù)一個類似字典的結(jié)構(gòu),為需要修改的潛在表示構(gòu)建新的映射。RASE利用事實信息來增強編輯泛化,并通過從事實補丁存儲器中檢索相關(guān)事實來指導(dǎo)編輯識別。

在基線設(shè)置中,研究人員使用ROME模型作為RASE的特定基本編輯器來執(zhí)行名為R-ROME的編輯任務(wù)。LTE激發(fā)了LLM遵循知識編輯指令的能力,從而使他們能夠有效地利用更新的知識來回答查詢。

編輯能力的實驗效果下面兩個表格分別表示在LLAMA2和GPT-J模型上的編輯效果對比。

免訓(xùn)練大模型知識編輯,吸收新數(shù)據(jù)更高效|EMNLP\\\'24

免訓(xùn)練大模型知識編輯,吸收新數(shù)據(jù)更高效|EMNLP\\\'24

從單次編輯的角度來看,本文方法在大多數(shù)測試場景中表現(xiàn)出最佳性能。

在終身編輯場景中,研究人員有以下觀察結(jié)果:

修改LLM參數(shù)的方法在單次編輯中顯示出出色的編輯性能。然而,隨著編輯次數(shù)的增加,它們的編輯性能顯著下降。這一趨勢與已有工作強調(diào)的毒性積累問題相一致;

引入額外參數(shù)的方法在終身編輯過程中保持了一定程度的可靠性和通用性。然而,在ZSRE中觀察到的局部性明顯惡化證明,額外參數(shù)的累積添加會損害原始推理過程;

基于檢索的方法對越來越多的編輯表現(xiàn)出魯棒性。其中,本文方法取得了最好的結(jié)果,肯定了檢索的優(yōu)勢,也驗證了策略的有效性。

通用能力的實驗效果雖然這三個編輯指標(biāo)有效地展示了編輯性能,但研究人員進(jìn)一步研究了這些編輯器在多大程度上影響了模型的通用能力。

通過實驗可以看出,非基于檢索的方法會導(dǎo)致通用能力的顯著降低。這可以歸因于編輯的外部干預(yù)造成的模式不匹配的累積。在基于檢索的方法中,LTE也表現(xiàn)出性能下降。

相比之下,RECIPE不涉及對LLM參數(shù)的直接干預(yù),而是依賴于連接一個簡短的提示來指導(dǎo)LLM對知識的遵守。它展示了對通用性能的最佳保護(hù),表明它對模型造成的傷害最小。

免訓(xùn)練大模型知識編輯,吸收新數(shù)據(jù)更高效|EMNLP\\\'24

模型編輯效率對比通過下方表格可以看出,在利用MEND、MALMEN、LTE和RECIPE等編輯特定訓(xùn)練的方法中,與在編輯過程中需要多次迭代反向傳播的技術(shù)相比,編輯時間顯著減少。

對于推理速度,修改模型參數(shù)的方法保持一致的速度,因為它們不會改變原始的推理pipeline。T-Patcher由于神經(jīng)元的積累而減慢了推理速度。

在基于檢索的方法中,GRACE由于其獨特的字典配對機制,降低了模型推理的并行性。R-ROME和LTE需要動態(tài)計算編輯矩陣并分別連接長編輯指令。

相比之下,RECIPE通過連接連續(xù)的短提示進(jìn)行編輯,有效地保留了LLM的原始推理速度。最短的總時間也突顯了RECIPE的效率優(yōu)勢。

免訓(xùn)練大模型知識編輯,吸收新數(shù)據(jù)更高效|EMNLP\\\'24

消融實驗效果對比研究人員使用LLAMA-2對ZSRE、CF和RIPE進(jìn)行消融研究。在沒有CPT的情況下,研究人員求助于使用知識語句的單詞嵌入作為從知識庫中檢索的提示。排除KS涉及應(yīng)用傳統(tǒng)的對比學(xué)習(xí)損失,使可靠性和通用性樣本表示更接近編輯知識,同時與局部樣本的表示保持距離。

在訓(xùn)練完成后,研究人員采用絕對相似性閾值決策策略來過濾無關(guān)知識。盡管局部性很高,但省略CPT會嚴(yán)重?fù)p害RECIPE的可靠性和通用性。

可以觀察到,結(jié)果與完全不使用編輯器獲得的結(jié)果幾乎相同

免訓(xùn)練大模型知識編輯,吸收新數(shù)據(jù)更高效|EMNLP\\\'24

這強調(diào)了僅使用原始連接的知識前綴無法使LLM符合編輯指令。相反,CPT有助于LLM遵守指定的編輯。此外,丟棄KS會導(dǎo)致編輯效率下降,特別是影響普遍性和局部性。原因是絕對相似性閾值無法充分解決不同查詢所需的不同閾值。

贊助本站

相關(guān)內(nèi)容
AiLab云推薦
推薦內(nèi)容
展開

熱門欄目HotCates

Copyright © 2010-2024 AiLab Team. 人工智能實驗室 版權(quán)所有    關(guān)于我們 | 聯(lián)系我們 | 廣告服務(wù) | 公司動態(tài) | 免責(zé)聲明 | 隱私條款 | 工作機會 | 展會港