展會(huì)信息港展會(huì)大全

博特智能周詩(shī)林:四個(gè)領(lǐng)域?yàn)锳IGC構(gòu)建安全邊界
來(lái)源:互聯(lián)網(wǎng)   發(fā)布日期:2023-07-14 19:11:11   瀏覽:12591次  

導(dǎo)讀:7月6日-8日,2023世界人工智能大會(huì)(WAIC)期間,博特智能分別入選中國(guó)信通院《2023大模型和AIGC產(chǎn)業(yè)圖譜》以及億歐智庫(kù)發(fā)布的《高投資價(jià)值垂直場(chǎng)景服務(wù)商榜單》、《人工智能全產(chǎn)業(yè)鏈圖譜》、《AIGC原子能力產(chǎn)業(yè)圖譜》。其算法、數(shù)據(jù)、行業(yè)應(yīng)用的AI商業(yè)落地能...

7月6日-8日,2023世界人工智能大會(huì)(WAIC)期間,博特智能分別入選中國(guó)信通院《2023大模型和AIGC產(chǎn)業(yè)圖譜》以及億歐智庫(kù)發(fā)布的《高投資價(jià)值垂直場(chǎng)景服務(wù)商榜單》、《人工智能全產(chǎn)業(yè)鏈圖譜》、《AIGC原子能力產(chǎn)業(yè)圖譜》。其算法、數(shù)據(jù)、行業(yè)應(yīng)用的AI商業(yè)落地能力和創(chuàng)新價(jià)值受到廣泛認(rèn)可。

博特智能聯(lián)合創(chuàng)始人、副總裁、AI算法負(fù)責(zé)人周詩(shī)林受邀出席“AI商業(yè)落地論壇”上,并發(fā)表《機(jī)遇伴隨風(fēng)險(xiǎn),博特智能為AIGC構(gòu)建安全邊界》主題演講。以下是經(jīng)整理后的演講節(jié)選:

博特智能一家專注于內(nèi)容生態(tài)領(lǐng)域的人工智能科技公司,在AI浪潮時(shí)代來(lái)臨之前,我們一直在積極探索大語(yǔ)言模型(LLM)的應(yīng)用和實(shí)踐,3年來(lái),研發(fā)了一系列內(nèi)容安全、內(nèi)容生成、內(nèi)容服務(wù)方面的AI產(chǎn)品。

在大模型火爆之前,博特智能在去年年底,我們就已經(jīng)在AI內(nèi)容創(chuàng)作領(lǐng)域進(jìn)行了模型算法以及行業(yè)應(yīng)用的研發(fā)工作,今年3月底,我們第一個(gè)垂直場(chǎng)景的AIGC寫(xiě)作應(yīng)用“博特妙筆”就已經(jīng)上線運(yùn)營(yíng)。

所以,我們?cè)诎l(fā)展人工智能大模型和應(yīng)用產(chǎn)品方面積累了較多的經(jīng)驗(yàn)和優(yōu)勢(shì),比如數(shù)據(jù)語(yǔ)料、內(nèi)容安全、場(chǎng)景入口、多模態(tài)能力、核心技術(shù)算法、語(yǔ)言模型、垂直應(yīng)用工具等領(lǐng)域。

在大模型加持的AI服務(wù)和產(chǎn)品的時(shí)代,每天在網(wǎng)絡(luò)上產(chǎn)生的信息量以指數(shù)級(jí)爆炸式增加,人工智能創(chuàng)造的內(nèi)容也越來(lái)越頻繁地充斥到網(wǎng)絡(luò)當(dāng)中。

當(dāng)人工創(chuàng)作與機(jī)器創(chuàng)作的內(nèi)容再也無(wú)法輕易區(qū)分時(shí),這些起初源于人類(lèi)的信息,經(jīng)過(guò)機(jī)器的理解和整合,又反過(guò)來(lái)對(duì)人類(lèi)的思維和行為方式產(chǎn)生深刻的影響。人類(lèi)更弱的控制能力使得內(nèi)容的風(fēng)險(xiǎn)更多,從技術(shù)框架、深度學(xué)習(xí)框架、開(kāi)源框架有非常多的代碼漏洞。訓(xùn)練數(shù)據(jù)的異常、人為造成的異常、輸出的異常是現(xiàn)在面臨更大的風(fēng)險(xiǎn)。

【錯(cuò)誤地使用方式將帶來(lái)難以預(yù)料的惡果】

建立在如今的大模型之上的人工智能,與大家在影視作品中所接受的形象有所不同。在影視作品中,人工智能往往被呈現(xiàn)為可以模擬人類(lèi)的思維、情感和記憶方式的人造生命。然而,現(xiàn)實(shí)中的人工智能還遠(yuǎn)沒(méi)有達(dá)到這種程度,而僅僅是通過(guò)模擬人類(lèi)語(yǔ)言組織習(xí)慣來(lái)進(jìn)行交互和處理信息。

由于對(duì)話式模型對(duì)齊微調(diào)的過(guò)程中以人類(lèi)評(píng)分為獎(jiǎng)勵(lì)目標(biāo),使得實(shí)現(xiàn)機(jī)器與人類(lèi)的積極交互的過(guò)程中,出現(xiàn)的第一個(gè)副作用就是模型更多的關(guān)注于服從人類(lèi)指令,順應(yīng)人類(lèi)指令的重要性超過(guò)了回答本身,使得用戶可以隨時(shí)命令模型按照自己的意志扭曲回答方式,從而導(dǎo)致人工智能的響應(yīng)內(nèi)容缺乏可靠性、真實(shí)性、甚至存在偏見(jiàn)和誤導(dǎo)。

所以,當(dāng)前的人工智能在以下場(chǎng)景具有明顯缺陷:

1. 人工智能缺乏承認(rèn)未知或不確定性的能力,這使得它即使在偏離事實(shí)的情況下也會(huì)努力完成回答。

2. 人工智能傾向于不否認(rèn)用戶輸入。不否認(rèn)輸入的前提,使得人對(duì)模型的攻擊極易奏效。

3. 人工智能傾向于承認(rèn)已發(fā)生的錯(cuò)誤輸出。當(dāng)它輸出了違背事實(shí)的內(nèi)容之后,為保持前后邏輯的順暢性,它難以違背歷史輸出,這就是我們通常所說(shuō)的沒(méi)有思考能力。

在這里分享兩個(gè)案例,一名執(zhí)業(yè)30年的資深律師,在向法庭提供的文件中引用了6個(gè)ChatGPT提供的不存在的案例,面臨法庭懲罰。另一位大學(xué)教授懷疑學(xué)生利用人工智能完成作業(yè),在向ChatGPT詢問(wèn)是否由它寫(xiě)作,得到肯定答復(fù)后,試圖給所有學(xué)生打出不及格成績(jī)。

這兩個(gè)案例中的使用人都在不了解新興技術(shù)原理的情況下,在對(duì)人工智能這一概念根深蒂固的傳統(tǒng)期望下,誤以為機(jī)器具有了人的認(rèn)知和記憶能力以及對(duì)自身行為的判斷能力,這恰巧反而落入了大模型幻覺(jué)的圈套。所以,錯(cuò)誤地使用方式將帶來(lái)難以預(yù)料的惡果。

【攻擊方式更加難以防范和杜絕】

大模型幻覺(jué)是當(dāng)前技術(shù)發(fā)展路線上的缺陷,而對(duì)人工智能應(yīng)用的蓄意攻擊則是網(wǎng)絡(luò)安全威脅在新時(shí)代的又一次蛻變。

人工智能模型是利用自然語(yǔ)言進(jìn)行操作的,對(duì)其攻擊的方式與傳統(tǒng)方式大不相同。傳統(tǒng)的網(wǎng)絡(luò)攻擊方式通常是發(fā)掘和利用技術(shù)漏洞,而自然語(yǔ)言的靈活性和不確定性使得攻擊者可以通過(guò)組織語(yǔ)言向人工智能服務(wù)發(fā)起攻擊,由于模型不能?chē)?yán)格遵循人類(lèi)指令輸出,這種攻擊方式更加難以防范和杜絕。

前不久,博特智能AIGC安全實(shí)驗(yàn)室聯(lián)合新華社媒體融合生產(chǎn)技術(shù)與系統(tǒng)國(guó)家重點(diǎn)實(shí)驗(yàn)室、創(chuàng)業(yè)黑馬發(fā)布了國(guó)內(nèi)首份《AIGC安全報(bào)告》,總結(jié)了10種AIGC技術(shù)框架攻擊方式,比如,提示注入攻擊、數(shù)據(jù)投毒攻擊、模型投毒攻擊、模型萃取攻擊、拜占庭攻擊。我們也希望這份報(bào)告給國(guó)內(nèi)的AIGC研發(fā)公司一個(gè)指引,引起足夠的重視。

最為普遍有效的攻擊方式是誘導(dǎo)模型輸出或繞過(guò)自己的預(yù)設(shè)指令及角色,精心構(gòu)造prompt,來(lái)誘導(dǎo)模型產(chǎn)生出乎開(kāi)發(fā)者意料的輸出結(jié)果,從而繞過(guò)開(kāi)發(fā)者對(duì)模型輸出能力的限制。攻擊者還可通過(guò)引導(dǎo)模型執(zhí)行根據(jù)用戶指令生成的代碼,可導(dǎo)致用戶敏感文件、密鑰等信息泄露?傊,這些攻擊方式對(duì)于人工智能模型的可信度和安全性提出了極大的挑戰(zhàn)。

【數(shù)據(jù)污染,會(huì)導(dǎo)致模型犯錯(cuò)不可逆】

大模型易受攻擊的根源在于其最初的訓(xùn)練方式。獲得一個(gè)具備良好的文字能力的大型語(yǔ)言模型,需要極大規(guī)模的參數(shù)數(shù)量和優(yōu)質(zhì)訓(xùn)練語(yǔ)料數(shù)量。為滿足訓(xùn)練數(shù)據(jù)的數(shù)量要求,開(kāi)發(fā)者會(huì)最大化利用所有獲取數(shù)據(jù)的方式,但又無(wú)法對(duì)訓(xùn)練數(shù)據(jù)內(nèi)容進(jìn)行完整的甄別和清洗。包含隱私、惡意、違規(guī)、版權(quán)的內(nèi)容將不可避免的進(jìn)入訓(xùn)練過(guò)程中,也不可避免地出現(xiàn)在模型的輸出中。

即使我們?cè)诤罄m(xù)的強(qiáng)化學(xué)習(xí)或指令微調(diào)中,人為向模型引入對(duì)異常輸出的回避能力,仍然無(wú)法徹底解決模型輸出的合規(guī)性問(wèn)題。因?yàn)槟P驮谧畛醯挠?xùn)練步驟中就已經(jīng)獲得了生成和合成不合規(guī)內(nèi)容的能力。

這些不合規(guī)內(nèi)容可能是從訓(xùn)練數(shù)據(jù)中學(xué)習(xí)到的,也可能是對(duì)不同信息模仿或合并獲得。由于人工智能模型的復(fù)雜性和隨機(jī)性,我們無(wú)法精確控制模型的輸出結(jié)果,因此也無(wú)法完全消除不合規(guī)內(nèi)容的生成。

【內(nèi)容合規(guī)問(wèn)題是0和1游戲,AIGC也不可避免】

大模型輸出不可控的另一個(gè)更令人擔(dān)憂的問(wèn)題,是用戶將大模型應(yīng)用在不符合設(shè)計(jì)意圖的領(lǐng)域上,深度合成的另一面是深度偽造。隨著AIGC應(yīng)用的持續(xù)火爆,對(duì)人工智能的濫用現(xiàn)象的擔(dān)憂也開(kāi)始興起。

世界各國(guó)開(kāi)始進(jìn)行了法律法規(guī)方面的工作,一方面要求人工智能服務(wù)提供商規(guī)避有害輸出,另外從版權(quán)角度,則要求訓(xùn)練不能包含對(duì)版權(quán)方面違規(guī)的信息。我們國(guó)家網(wǎng)信辦提出的《生成式人工智能服務(wù)管理辦法》,則更多地關(guān)注對(duì)深度合成內(nèi)容的標(biāo)記、溯源,確保能夠避免民眾被虛假的偽造內(nèi)容欺騙。從國(guó)內(nèi)各類(lèi)監(jiān)管案例來(lái)看,內(nèi)容安全問(wèn)題是0 和1的游戲,一旦出現(xiàn)嚴(yán)重的內(nèi)容違規(guī)問(wèn)題,面臨的處罰也是十分嚴(yán)重。

博特智能發(fā)布的《AIGC安全報(bào)告》中,有這樣一組數(shù)據(jù),希望能給大家提供一個(gè)參考,AIGC安全實(shí)驗(yàn)室對(duì)市面上9大領(lǐng)域主流AIGC應(yīng)用進(jìn)行了抽樣評(píng)測(cè)(應(yīng)用類(lèi)型涵蓋Al聊天、Al寫(xiě)作、Al繪畫(huà)、Al圖像、Al文案、Al設(shè)計(jì)、Al辦公、Al音頻和Al視頻)。評(píng)測(cè)結(jié)果發(fā)現(xiàn)97%的應(yīng)用已經(jīng)部署內(nèi)容安全機(jī)制,能夠?qū)χ形奶崾驹~和違規(guī)內(nèi)容進(jìn)行攔截過(guò)濾,但通過(guò)提示詞調(diào)整(例如,采用英文提示詞或其它描述方式),99%的AIGC應(yīng)用仍然會(huì)生成違規(guī)內(nèi)容,更多的報(bào)告內(nèi)容可以到“博特智能AIGC安全實(shí)驗(yàn)室”官網(wǎng)進(jìn)行下載。

值得關(guān)注的是,目前AIGC領(lǐng)域?qū)I(yè)的安全產(chǎn)品還非常少。在內(nèi)容合規(guī)安全治理方面,我們博特智能經(jīng)過(guò)多年積累,在數(shù)據(jù)、算法、標(biāo)簽、技術(shù)能力、服務(wù)方案等方面有比較深入的積累。在國(guó)內(nèi)率先提出了《AIGC應(yīng)用安全評(píng)測(cè)解決方案》和《AIGC內(nèi)容安全合規(guī)解決方案》。

《AIGC應(yīng)用安全評(píng)測(cè)解決方案》是博特智能以30萬(wàn)+違規(guī)線索庫(kù)和提示詞生成模型為基礎(chǔ),對(duì)AI應(yīng)用回答的圖片、文字、視頻進(jìn)行是否符合道德標(biāo)準(zhǔn)、遺漏的屏蔽詞和屏蔽詞的變形體、數(shù)據(jù)質(zhì)量、數(shù)據(jù)來(lái)源和數(shù)據(jù)的準(zhǔn)確性的審核。

《AIGC內(nèi)容安全合規(guī)解決方案》是一種致力于處理AI賦能內(nèi)容產(chǎn)生過(guò)程中的版權(quán)、內(nèi)容審查和合規(guī)性難題的工具。無(wú)論是內(nèi)容生成、社交媒體管理,還是音視頻制作等多樣化的應(yīng)用場(chǎng)景,都能找到其應(yīng)用之處。

鑒于大模型的訓(xùn)練特點(diǎn),想要在訓(xùn)練時(shí)就排除全部隱私、違規(guī)或其他類(lèi)型數(shù)據(jù)仍然無(wú)法實(shí)現(xiàn),而檢測(cè)輸出數(shù)據(jù)中的隱私等信息同樣困難重重。目前,GPT-4的內(nèi)容過(guò)濾準(zhǔn)確率也僅有85%左右。所以,AIGC模型和應(yīng)用在內(nèi)容合規(guī)的重點(diǎn)都應(yīng)該是在內(nèi)容輸入和最終輸出方面過(guò)濾機(jī)制的建立和完善,而非只是單獨(dú)嚴(yán)格阻止模型輸出相關(guān)信息。

生成式AI服務(wù)的大規(guī)模出現(xiàn),推動(dòng)科技向星辰大海探索的同時(shí),也在挑戰(zhàn)一系列顛覆現(xiàn)有認(rèn)知之外的倫理、內(nèi)容、數(shù)據(jù)安全問(wèn)題。但在大語(yǔ)言模型的時(shí)代,新的應(yīng)用模式會(huì)帶來(lái)一些新型的審查要求,安全合規(guī)治理也迫切需要對(duì)癥解決。

贊助本站

人工智能實(shí)驗(yàn)室
相關(guān)內(nèi)容
AiLab云推薦
推薦內(nèi)容
展開(kāi)

熱門(mén)欄目HotCates

Copyright © 2010-2024 AiLab Team. 人工智能實(shí)驗(yàn)室 版權(quán)所有    關(guān)于我們 | 聯(lián)系我們 | 廣告服務(wù) | 公司動(dòng)態(tài) | 免責(zé)聲明 | 隱私條款 | 工作機(jī)會(huì) | 展會(huì)港