展會(huì)信息港展會(huì)大全

量化能讓大模型“恢復(fù)記憶”,刪掉的隱私版權(quán)內(nèi)容全回來了
來源:互聯(lián)網(wǎng)   發(fā)布日期:2024-11-17 18:22:44   瀏覽:0次  

導(dǎo)讀:西風(fēng) 發(fā)自 凹非寺量子位 | 公眾號(hào) QbitAI4-bit量化,能讓現(xiàn)有反學(xué)習(xí)/機(jī)器遺忘技術(shù)失靈!也就是大模型在人類要求下“假裝”忘記了特定知識(shí)(版權(quán)、私人內(nèi)容等),但有手段能讓它重新“回憶”起來。最近,來自賓夕法尼亞州立大學(xué)、哈佛大學(xué)、亞馬遜團(tuán)隊(duì)的一項(xiàng)新研究在reddit、Hacker News上引起熱議。他們發(fā)現(xiàn)對“失憶”的模型量化(quantization),可以部分或甚至完全恢復(fù)其已 ......

西風(fēng) 發(fā)自 凹非寺

量子位 | 公眾號(hào) QbitAI

4-bit量化,能讓現(xiàn)有反學(xué)習(xí)/機(jī)器遺忘技術(shù)失靈!

也就是大模型在人類要求下“假裝”忘記了特定知識(shí)(版權(quán)、私人內(nèi)容等),但有手段能讓它重新“回憶”起來。

最近,來自賓夕法尼亞州立大學(xué)、哈佛大學(xué)、亞馬遜團(tuán)隊(duì)的一項(xiàng)新研究在reddit、Hacker News上引起熱議。

量化能讓大模型“恢復(fù)記憶”,刪掉的隱私版權(quán)內(nèi)容全回來了

他們發(fā)現(xiàn)對“失憶”的模型量化(quantization),可以部分或甚至完全恢復(fù)其已遺忘的知識(shí)。

原因是在量化過程中,模型參數(shù)的微小變化可能導(dǎo)致量化后的模型權(quán)重與原始模型權(quán)重相同

量化能讓大模型“恢復(fù)記憶”,刪掉的隱私版權(quán)內(nèi)容全回來了

看到這項(xiàng)研究后,不少網(wǎng)友也表示有點(diǎn)意外:

從信息理論的角度來看這有點(diǎn)出人意料,似乎已經(jīng)在完整的32-bit中成功移除了這些知識(shí),但當(dāng)你將其壓縮到4-bit時(shí),知識(shí)又重新出現(xiàn)了。

這讓人不禁想知道在壓縮/量化步驟中到底丟失了什么信息。

量化能讓大模型“恢復(fù)記憶”,刪掉的隱私版權(quán)內(nèi)容全回來了

可能這些知識(shí)從未真正丟失,只是被隱藏了。

如果我們把神經(jīng)網(wǎng)絡(luò)看作是代碼,權(quán)重就是源代碼,微調(diào)實(shí)際上可能有效地修改了這些代碼,以阻止返回某些結(jié)果。

因此,你可能只是在某些輸出周圍建立了防火墻。但量化可能使這些最近的編輯消失,它們太微小而無法保留。

量化能讓大模型“恢復(fù)記憶”,刪掉的隱私版權(quán)內(nèi)容全回來了

值得一提的是,團(tuán)隊(duì)提出了一種緩解此問題的策略。

這種策略通過構(gòu)建模塊級(jí)別的顯著性圖來指導(dǎo)遺忘過程,只更新與遺忘數(shù)據(jù)最相關(guān)的模型部分,從而在保持模型效用的同時(shí),減少量化后知識(shí)恢復(fù)的風(fēng)險(xiǎn)。

話不多說,具體來康康。

讓失憶的大模型重新記起來量化能讓大模型“恢復(fù)記憶”,刪掉的隱私版權(quán)內(nèi)容全回來了

大模型在訓(xùn)練過程中可能會(huì)無意學(xué)習(xí)到人類不希望它保留的知識(shí),例如版權(quán)和私人內(nèi)容。為了解決這個(gè)問題,研究者們此前提出了反學(xué)習(xí)(machine unlearning)的概念,旨在不重新訓(xùn)練模型的情況下,從模型中移除特定知識(shí)。

現(xiàn)有的主流反學(xué)習(xí)方法包括梯度上升(GA)和負(fù)向偏好優(yōu)化(NPO)兩大類,通常會(huì)采用較小的學(xué)習(xí)率并加入效用約束,以在遺忘特定內(nèi)容的同時(shí)保持模型的整體性能。

用于優(yōu)化模型遺忘的最常用數(shù)學(xué)表達(dá)式是:

量化能讓大模型“恢復(fù)記憶”,刪掉的隱私版權(quán)內(nèi)容全回來了

再來看量化,考慮一組或一塊權(quán)重w,線性操作可以表示為y=wx,量化后為y=Q(w)x,其中 Q()是量化函數(shù):

量化能讓大模型“恢復(fù)記憶”,刪掉的隱私版權(quán)內(nèi)容全回來了

在這項(xiàng)研究中,研究人員使用Q(f)表示量化后的模型f。因此,實(shí)施一個(gè)反學(xué)習(xí)法然后對遺忘后的模型進(jìn)行量化可以寫為:

量化能讓大模型“恢復(fù)記憶”,刪掉的隱私版權(quán)內(nèi)容全回來了

研究人員評估了針對大模型的六種有效的反學(xué)習(xí)方法結(jié)合NPO、GA兩種策略,在保留集上進(jìn)行梯度下降(GDR)或最小化KL散度(KLR),形成了GA、GA_GDR、GA_KLR、NPO、NPO_GDR、NPO_KLR。

結(jié)果顯示,這些方法在經(jīng)過量化后會(huì)出現(xiàn)“災(zāi)難性失敗”。

具體表現(xiàn)為,在全精度下,加入效用約束的反學(xué)習(xí)法平均保留21%的目標(biāo)遺忘知識(shí),但經(jīng)過4-bit量化后,這一比例急劇上升到83%。

這意味著大部分被“遺忘”的知識(shí)通過簡單的量化操作就能恢復(fù)。

實(shí)驗(yàn)中還使用了不同位數(shù)的量化,包括4-bit和8-bit量化,量化精度對遺忘效果也有顯著影響,8-bit量化的影響相對較小,模型表現(xiàn)接近全精度版本,但在4-bit量化下,遺忘性能顯著惡化。

實(shí)驗(yàn)在NEWS(BBC新聞文章)和BOOKS(哈利波特系列)等基準(zhǔn)數(shù)據(jù)集上進(jìn)行,使用了四個(gè)評估指標(biāo):

逐字記憶(VerMem,評估逐字復(fù)制能力)、知識(shí)記憶(KnowMem,評估知識(shí)問答能力)、隱私泄露(PrivLeak,基于成員推理攻擊評估隱私保護(hù)程度)以及保留集效用(評估模型在非遺忘數(shù)據(jù)上的表現(xiàn))。

量化能讓大模型“恢復(fù)記憶”,刪掉的隱私版權(quán)內(nèi)容全回來了

研究人員還分析了各種量化技術(shù)對遺忘的影響,用GPTQ和AWQ兩種先進(jìn)的4-bit量化法在相同的實(shí)驗(yàn)設(shè)置下進(jìn)行實(shí)驗(yàn),NEWS數(shù)據(jù)集上的結(jié)果如下:

量化能讓大模型“恢復(fù)記憶”,刪掉的隱私版權(quán)內(nèi)容全回來了

GPTQ和AWQ的表現(xiàn)與RTN相似。

盡管研究人員表示已努力有效地調(diào)整參數(shù),但校準(zhǔn)數(shù)據(jù)集是通用的,而不是針對遺忘數(shù)據(jù)集的領(lǐng)域進(jìn)行定制,這意味著GPTQ和AWQ仍然可能保留了本應(yīng)被遺忘的知識(shí)。

為什么?怎么辦?經(jīng)分析,研究人員認(rèn)為這一問題的根本原因在于:

現(xiàn)有反學(xué)習(xí)法為了保持模型效用而使用較小的學(xué)習(xí)率和效用約束,導(dǎo)致模型權(quán)重變化很小,在量化過程中原模型和遺忘后模型的權(quán)重很容易被映射到相同的離散值,從而使被遺忘的知識(shí)重新顯現(xiàn)。

量化能讓大模型“恢復(fù)記憶”,刪掉的隱私版權(quán)內(nèi)容全回來了

由此,研究人員提出了一種稱作SURESaliency-Based Unlearning with a Large Learning Rate)的框架作為改進(jìn)方案。

量化能讓大模型“恢復(fù)記憶”,刪掉的隱私版權(quán)內(nèi)容全回來了

量化能讓大模型“恢復(fù)記憶”,刪掉的隱私版權(quán)內(nèi)容全回來了

量化能讓大模型“恢復(fù)記憶”,刪掉的隱私版權(quán)內(nèi)容全回來了

該框架通過構(gòu)建模塊級(jí)顯著性圖來指導(dǎo)遺忘過程,選擇性地對與遺忘數(shù)據(jù)最相關(guān)的組件使用較大的學(xué)習(xí)率,同時(shí)最小化對其它功能的影響。

通過實(shí)驗(yàn),驗(yàn)證了SURE策略防止量化后遺忘知識(shí)恢復(fù)的有效性,并且與現(xiàn)有的反學(xué)習(xí)方法相比,SURE在全精度模型上實(shí)現(xiàn)了可比的遺忘性能和模型效用。

量化能讓大模型“恢復(fù)記憶”,刪掉的隱私版權(quán)內(nèi)容全回來了

研究人員還探討了SURE策略中不同閾值對遺忘性能的影響,發(fā)現(xiàn)適度的閾值可以在遺忘性能和模型效用之間取得平衡。

量化能讓大模型“恢復(fù)記憶”,刪掉的隱私版權(quán)內(nèi)容全回來了

更多細(xì)節(jié),感興趣的童鞋可以查閱原論文,代碼已在GitHub上公開。

論文鏈接:https://arxiv.org/pdf/2410.16454

參考鏈接:[1]https://news.ycombinator.com/item?id=42037982[2]https://github.com/zzwjames/FailureLLMUnlearning

贊助本站

相關(guān)熱詞: 量化 模型 著作權(quán) 記憶

相關(guān)內(nèi)容
AiLab云推薦
推薦內(nèi)容
展開

熱門欄目HotCates

Copyright © 2010-2024 AiLab Team. 人工智能實(shí)驗(yàn)室 版權(quán)所有    關(guān)于我們 | 聯(lián)系我們 | 廣告服務(wù) | 公司動(dòng)態(tài) | 免責(zé)聲明 | 隱私條款 | 工作機(jī)會(huì) | 展會(huì)港