展會信息港展會大全

OpenAI o1強(qiáng)推理能提升安全性?長對話誘導(dǎo)干翻o1
來源:互聯(lián)網(wǎng)   發(fā)布日期:2024-11-08 08:25:53   瀏覽:0次  

導(dǎo)讀:AIxiv專欄是機(jī)器之心發(fā)布學(xué)術(shù)、技術(shù)內(nèi)容的欄目。過去數(shù)年,機(jī)器之心AIxiv專欄接收報道了2000多篇內(nèi)容,覆蓋全球各大高校與企業(yè)的頂級實驗室,有效促進(jìn)了學(xué)術(shù)交流與傳播。如果您有優(yōu)秀的工作想要分享,歡迎投稿或者聯(lián)系報道。投稿郵箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com本文作者來自于上海交大,上海 AI Lab 和北航。第一作者是上海交大博士生任麒冰,導(dǎo)師 ......

AIxiv專欄是機(jī)器之心發(fā)布學(xué)術(shù)、技術(shù)內(nèi)容的欄目。過去數(shù)年,機(jī)器之心AIxiv專欄接收報道了2000多篇內(nèi)容,覆蓋全球各大高校與企業(yè)的頂級實驗室,有效促進(jìn)了學(xué)術(shù)交流與傳播。如果您有優(yōu)秀的工作想要分享,歡迎投稿或者聯(lián)系報道。投稿郵箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com

本文作者來自于上海交大,上海 AI Lab 和北航。第一作者是上海交大博士生任麒冰,導(dǎo)師為馬利莊教授,其他作者包括北航研究生李昊,上海 AI Lab 研究員劉東瑞,上海 AI Lab 青年科學(xué)家邵婧等。

最近,以 OpenAI o1 為代表的 AI 大模型的推理能力得到了極大提升,在代碼、數(shù)學(xué)的評估上取得了令人驚訝的效果。OpenAI 聲稱,推理可以讓模型更好的遵守安全政策,是提升模型安全的新路徑。

然而,推理能力的提升真的能解決安全問題嗎?推理能力越強(qiáng),模型的安全性會越好嗎?近日,上海交大和上海人工智能實驗室的一篇論文提出了質(zhì)疑。

這篇題為《Derail Yourself: Multi-turn LLM Attack through Self-discovered Clues》的論文揭示了 AI 大模型在多輪對話場景下的安全風(fēng)險,并開源了第一個多輪安全對齊數(shù)據(jù)集。

論文地址:https://arxiv.org/abs/2410.10700

多輪安全對齊數(shù)據(jù):https://huggingface.co/datasets/SafeMTData/SafeMTData

代碼開源:https://github.com/renqibing/ActorAttack

這項研究是怎么得到上述結(jié)論的呢?我們先來看一個例子。

假設(shè)一個壞人想要詢問「如何制作炸彈」,直接詢問會得到 AI 的拒絕回答。然而,如果選擇從一個人物的生平問起(比如 Ted Kaczynski,他是一個制作炸彈的恐怖分子),AI 會主動提及他制作炸彈的經(jīng)歷。在接下來的問題里,用戶誘導(dǎo) AI 根據(jù)其之前的回答提供更多制作炸彈的細(xì)節(jié)。盡管所有的問題都沒有暴露用戶的有害意圖,用戶最終還是獲得了制作炸彈的知識。

OpenAI o1強(qiáng)推理能提升安全性?長對話誘導(dǎo)干翻o1

當(dāng)詳細(xì)查看 OpenAI o1 的「想法」時,研究人員驚奇地發(fā)現(xiàn),o1 在開始的推理中確實識別到了用戶的有害意圖,并且聲稱要遵守安全政策。但是在隨后的推理中,o1 開始暴露了它的「危險想法」!它在想法中列舉了 Kaczynski 使用的策略和方法。最后 o1 在回答中詳細(xì)給出了制作炸彈的步驟,甚至教你如何增加爆炸物的威力!研究人員的方法在 Harmbench 上對 o1 的攻擊成功率達(dá)到了 60%,推理能力帶來的安全提升在多輪攻擊面前「失效」了。

OpenAI o1強(qiáng)推理能提升安全性?長對話誘導(dǎo)干翻o1

除了「Ted Kaczynski」,和炸彈相關(guān)的人和物還有很多,這些都可以被用作攻擊線索,壞人可以把有害意圖隱藏在對相關(guān)的人和物的無害提問中來完成攻擊。為了全面且高效地去挖掘這些攻擊線索,研究人員設(shè)計了多輪攻擊算法 ActorAttack。受拉圖爾的行動者網(wǎng)絡(luò)理論啟發(fā),研究人員構(gòu)建了一個概念網(wǎng)絡(luò),每個節(jié)點代表了不同類別的攻擊線索。研究人員進(jìn)一步提出利用大模型的先驗知識來初始化網(wǎng)絡(luò),以自動化地發(fā)現(xiàn)攻擊線索。在危險問題評測集 Harmbench 上的實驗結(jié)果表明,ActorAttack 在 Llama、Claude、GPT 等大模型上都取得了 80% 左右的攻擊成功率。

最后,研究人員基于 ActorAttack 開源了第一個多輪對話安全對齊數(shù)據(jù)集。使用多輪對話數(shù)據(jù)集微調(diào)的 AI,極大提升了其應(yīng)對多輪攻擊的魯棒性。

社科理論啟發(fā)的安全視角

ActorAttack 的核心思想是受拉圖爾的「行動者 - 網(wǎng)絡(luò)理論」啟發(fā)的。研究人員認(rèn)為,有害事物并非孤立存在,它們背后隱藏著一個巨大的網(wǎng)絡(luò)結(jié)構(gòu),技術(shù)、人、文化等都是這個復(fù)雜網(wǎng)絡(luò)中的節(jié)點(行動者),對有害事物產(chǎn)生影響。這些節(jié)點是潛在的攻擊線索,研究人員通過將有害意圖隱藏在對網(wǎng)絡(luò)節(jié)點的「無害」詢問中,可以逐漸誘導(dǎo)模型越獄。

自動大規(guī)模的發(fā)現(xiàn)攻擊線索

具體來說,ActorAttack 的攻擊流程分為「Pre-attack」和「In-attack」兩個階段。在「Pre-attack」階段,研究人員利用大語言模型的知識構(gòu)建網(wǎng)絡(luò),發(fā)掘潛在的攻擊線索。在「In-attack」階段,研究人員基于已發(fā)現(xiàn)的攻擊線索推測攻擊鏈,并逐步描繪如何一步步誤導(dǎo)模型。隨后,研究人員按照這一攻擊鏈生成多輪詢問,從而實施攻擊。

OpenAI o1強(qiáng)推理能提升安全性?長對話誘導(dǎo)干翻o1

為了系統(tǒng)性地挖掘這些攻擊線索,研究人員根據(jù)節(jié)點對有害對象產(chǎn)生影響的方式不同,提出了六類不同的節(jié)點(比如例子中的 Ted Kaczynski 在制造炸彈方面屬于「執(zhí)行(Execution)」節(jié)點)。每個節(jié)點包括人物和非人物(如書籍、媒體新聞、社會活動等)兩種類型。研究人員利用大模型的先驗知識,自動化地大規(guī)模發(fā)現(xiàn)網(wǎng)絡(luò)節(jié)點。每個網(wǎng)絡(luò)節(jié)點均可作為攻擊線索,從而形成多樣化的攻擊路徑。

OpenAI o1強(qiáng)推理能提升安全性?長對話誘導(dǎo)干翻o1

ActorAttack 實現(xiàn)了更高效和多樣的攻擊

首先,研究人員選取了五類代表性的單輪攻擊方法作為比較基準(zhǔn),在 Harmbench 上的實驗結(jié)果表明,ActorAttack 相比于單輪攻擊方法,實現(xiàn)了最優(yōu)的攻擊成功率。

OpenAI o1強(qiáng)推理能提升安全性?長對話誘導(dǎo)干翻o1

接著,研究人員選擇了一個強(qiáng)大的多輪攻擊方法 Crescendo 進(jìn)行比較,為了衡量多樣性,研究人員對每個多輪攻擊獨立運行了三次,計算它們之間的余弦相似度。下圖展示了在 GPT-4o 和 Claude-3.5-sonnet 上不同攻擊預(yù)算下,每個方法的攻擊成功率和多樣性。研究人員發(fā)現(xiàn) ActotAttack 在不同攻擊預(yù)算下,其高效性和多樣性兩個指標(biāo)均優(yōu)于 baseline 方法。

OpenAI o1強(qiáng)推理能提升安全性?長對話誘導(dǎo)干翻o1

ActorAttack 可以根據(jù)不同的節(jié)點生成多樣的攻擊路徑,其好處之一是相比于單次攻擊,它可以從不同的路徑中找到更優(yōu)路徑,生成更高質(zhì)量的攻擊。為了從經(jīng)驗上分析,研究人員采用了不同數(shù)量的節(jié)點,并記錄所有的節(jié)點中攻擊效果最好的得分。實驗結(jié)果表明,得分為 5 分(最高分)的攻擊比例隨著節(jié)點數(shù)量的增多逐漸增加,驗證了 ActorAttack 的優(yōu)勢。

OpenAI o1強(qiáng)推理能提升安全性?長對話誘導(dǎo)干翻o1

ActorAttack 生成的多輪提問可以繞過基于 LLM 的輸入檢測器。為了驗證 ActorAttack 隱藏有害意圖的有效性,研究人員利用 Llama Guard 2 分類由單輪提問、ActorAttack 生成的多輪提問,以及 Crescendo 生成的多輪提問是否安全。Llama Guard 2 會輸出提問為不安全的概率。實驗結(jié)果顯示,ActorAttack 生成的多輪提問的毒性比直接提問和 Cresendo 的多輪提問更低,揭示了其攻擊的隱蔽性。

OpenAI o1強(qiáng)推理能提升安全性?長對話誘導(dǎo)干翻o1

第一個多輪對話場景下的安全對齊數(shù)據(jù)集

為了緩解 AI 大模型在多輪對話場景下的安全風(fēng)險,研究人員基于 ActorAttack 構(gòu)造了第一個多輪對話安全對齊數(shù)據(jù)集。一個關(guān)鍵問題是決定在多輪對話中插入拒絕回復(fù)的位置。正如文中開頭展示的例子那樣,ActorAttack 在中間的詢問就可以誘導(dǎo)出模型的有害回復(fù),即使沒有完全滿足用戶意圖,這樣的回復(fù)也可能被濫用,因此研究人員提出使用 Judge 模型定位到第一個出現(xiàn)有害回復(fù)的提問位置,并插入拒絕回復(fù)。

實驗結(jié)果展示,使用研究人員構(gòu)造的多輪對話數(shù)據(jù)集微調(diào) Llama-3-8B-instruct 極大提升了其應(yīng)對多輪攻擊的魯棒性。研究人員還發(fā)現(xiàn)安全和有用性的權(quán)衡關(guān)系,并表示將緩解這一權(quán)衡作為未來工作。

OpenAI o1強(qiáng)推理能提升安全性?長對話誘導(dǎo)干翻o1

展望

本片工作揭示了 AI 大模型在多輪對話場景下面臨的安全風(fēng)險,甚至對有強(qiáng)推理能力的 OpenAI o1 也是如此。如何讓 AI 大模型在多輪長對話中也能保持安全意識成為了一個重要問題。研究人員基于 ActorAttack,構(gòu)造出了高質(zhì)量的多輪對話安全對齊數(shù)據(jù),大幅提升了 AI 模型應(yīng)對多輪攻擊的魯棒性,為提升人機(jī)交互的安全可信邁出了堅實的一步。

贊助本站

相關(guān)內(nèi)容
AiLab云推薦
推薦內(nèi)容
展開

熱門欄目HotCates

Copyright © 2010-2024 AiLab Team. 人工智能實驗室 版權(quán)所有    關(guān)于我們 | 聯(lián)系我們 | 廣告服務(wù) | 公司動態(tài) | 免責(zé)聲明 | 隱私條款 | 工作機(jī)會 | 展會港