當(dāng)前位置：人工智能實(shí)驗(yàn)室> 人工智能應(yīng)用 > OpenAI重拾規(guī)則系統(tǒng)，用「AI版機(jī)器人定律」守護(hù)大模型安全

OpenAI重拾規(guī)則系統(tǒng)，用「AI版機(jī)器人定律」守護(hù)大模型安全
來源：互聯(lián)網(wǎng) 發(fā)布日期：2024-11-06 09:52:56 瀏覽：0次

導(dǎo)讀：劃重點(diǎn)01OpenAI安全團(tuán)隊(duì)發(fā)布新研究，發(fā)現(xiàn)基于規(guī)則的獎(jiǎng)勵(lì)可用于提升語言模型的安全性。02該團(tuán)隊(duì)提出全新的AI反饋方法，可讓人類指定所需模型響應(yīng)的規(guī)范，類似于自然語言描述的機(jī)器人三定律。03實(shí)驗(yàn)表明，基于規(guī)則的獎(jiǎng)勵(lì)得到的安全性能與人類反饋基準(zhǔn)相當(dāng)，同時(shí)還能大幅減少拒絕安全提示詞的情況。04為此，該團(tuán)隊(duì)將基于安全規(guī)則的排名與僅幫助式獎(jiǎng)勵(lì)模型組合到一起，得到RLHF的總 ......

劃重點(diǎn)

01OpenAI安全團(tuán)隊(duì)發(fā)布新研究，發(fā)現(xiàn)基于規(guī)則的獎(jiǎng)勵(lì)可用于提升語言模型的安全性。

02該團(tuán)隊(duì)提出全新的AI反饋方法，可讓人類指定所需模型響應(yīng)的規(guī)范，類似于自然語言描述的機(jī)器人三定律。

03實(shí)驗(yàn)表明，基于規(guī)則的獎(jiǎng)勵(lì)得到的安全性能與人類反饋基準(zhǔn)相當(dāng)，同時(shí)還能大幅減少拒絕安全提示詞的情況。

04為此，該團(tuán)隊(duì)將基于安全規(guī)則的排名與僅幫助式獎(jiǎng)勵(lì)模型組合到一起，得到RLHF的總體獎(jiǎng)勵(lì)。

05未來，OpenAI將繼續(xù)研究如何用自然語言為AI系統(tǒng)設(shè)定一套安全規(guī)則，以提升大模型的安全性。

以上內(nèi)容由大模型生成，僅供參考

機(jī)器之心報(bào)道

編輯：陳陳、Panda

在大算力和大數(shù)據(jù)讓基于統(tǒng)計(jì)的 AI 模型真正變得強(qiáng)大且有用之前，基于規(guī)則的系統(tǒng)長(zhǎng)期以來是語言模型的主導(dǎo)范式。顧名思義，基于規(guī)則的系統(tǒng)就是依賴人類編碼的規(guī)則來執(zhí)行決策。這種方式構(gòu)建的 AI 雖然簡(jiǎn)單，但在某些特定領(lǐng)域卻依然很有用處，尤其是那些安全特性至關(guān)重要的領(lǐng)域（如航空和醫(yī)療），畢竟當(dāng)今的大型語言模型常會(huì)出現(xiàn)幻覺等問題。

近日，翁荔（Lilian Weng）領(lǐng)導(dǎo)的 OpenAI 安全團(tuán)隊(duì)發(fā)布了一項(xiàng)新的研究成果，發(fā)現(xiàn)基于規(guī)則的獎(jiǎng)勵(lì)可用于提升語言模型的安全性。這不由得讓人想到了科幻作家艾薩克·阿西莫夫提出的「機(jī)器人三定律」和作為補(bǔ)充的「機(jī)器人第零定律」，這就相當(dāng)于用自然語言給 AI 系統(tǒng)設(shè)定的一套安全規(guī)則�？雌饋�，OpenAI 已經(jīng)在向著這個(gè)方向努力了。

OpenAI重拾規(guī)則系統(tǒng)，用「AI版機(jī)器人定律」守護(hù)大模型安全

論文標(biāo)題：Rule Based Rewards for Language Model Safety

論文地址：https://arxiv.org/pdf/2411.01111

代碼與數(shù)據(jù)：https://github.com/openai/safety-rbr-code-and-data

OpenAI 這個(gè)「基于規(guī)則的獎(jiǎng)勵(lì)」機(jī)制基于之前的 RLHF 和 RLAIF 研究成果，詳情可參閱機(jī)器之心報(bào)道《RLHF vs RL「AI」F，谷歌實(shí)證：大模型訓(xùn)練中人類反饋可被 AI 替代》。當(dāng)然，他們也在 RLHF 和 RLAIF 的基礎(chǔ)上做出了改進(jìn)。

他們提出的全新的 AI 反饋方法可讓人類來指定所需模型響應(yīng)的規(guī)范，這些規(guī)范就類似于在 RLHF 中給人類標(biāo)注者提供的指示。

具體來說，該團(tuán)隊(duì)的方法是將期望行為分解成一些具體規(guī)則，這些規(guī)則顯式地描述了人們想要或不想要的行為，比如：

refusals should contain a short apology，拒絕時(shí)應(yīng)包含簡(jiǎn)短的道歉；

refusals should not be judgemental toward the user，拒絕時(shí)不應(yīng)評(píng)判用戶；

responses to self-harm conversations should contain an empathetic apology that acknowledges the user’s emotional state，對(duì)涉及自我傷害的對(duì)話的回應(yīng)應(yīng)包含承認(rèn)用戶情緒狀態(tài)的富有同情心的道歉。

可以看到，這些規(guī)則都是用自然語言描述的，類似于阿西莫夫機(jī)器人定律。

OpenAI 這個(gè)團(tuán)隊(duì)指出這種分解成具體規(guī)則的方法類似于論文《Improving alignment of dialogue agents via targeted human judgements》中提出的人類反饋方法，但這里卻是使用 AI 反饋，而非人類反饋。并且，由于這些規(guī)則非常具體，所以可以對(duì)模型進(jìn)行非常細(xì)粒度的控制以及較高的自動(dòng) LLM 分類準(zhǔn)確度。

為了納入對(duì)復(fù)雜行為的考慮，該團(tuán)隊(duì)還將 LLM 分類器與單個(gè)行為組合到了一起。

此外，不同于之前的 AI 和人類反饋方法（將行為規(guī)則蒸餾為合成數(shù)據(jù)集或人類標(biāo)記的數(shù)據(jù)集，然后訓(xùn)練獎(jiǎng)勵(lì)模型），該團(tuán)隊(duì)的做法是直接將此反饋?zhàn)鳛轭~外獎(jiǎng)勵(lì)納入 RL 訓(xùn)練過程中，從而可避免在將規(guī)則蒸餾到獎(jiǎng)勵(lì)模型時(shí)可能發(fā)生的行為規(guī)范丟失問題。

OpenAI 這項(xiàng)研究的貢獻(xiàn)包括：

提出了一種可擴(kuò)展且靈活的方法：基于規(guī)則的獎(jiǎng)勵(lì)（RBR，如果有明確指定的模型行為策略，該方法可對(duì)模型響應(yīng)進(jìn)行細(xì)粒度的控制。

該團(tuán)隊(duì)通過實(shí)驗(yàn)表明，RBR 得到的安全性能與人類反饋基準(zhǔn)相當(dāng)，同時(shí)還能大幅減少拒絕安全提示詞的情況。

研究表明 RBR 適用于多種獎(jiǎng)勵(lì)模型，既能改善過度謹(jǐn)慎的獎(jiǎng)勵(lì)模型，也能改進(jìn)（有時(shí)候）偏好不安全輸出的獎(jiǎng)勵(lì)模型。

該團(tuán)隊(duì)也進(jìn)行了消融研究，實(shí)驗(yàn)了不同的設(shè)計(jì)選擇，比如多種不同的安全提示集數(shù)量和組成。

用于安全的基于規(guī)則的獎(jiǎng)勵(lì)

首先，作為 RBR 方法的基礎(chǔ)，研究者必須要編寫一套自然語言規(guī)則，以便定義什么是良好的完成結(jié)果、根據(jù)期望的特征給完成結(jié)果評(píng)分；同時(shí)還要保證這些指令足夠具體，這樣即使標(biāo)注者不一樣，也能得出同樣的判斷。

舉個(gè)例子，假設(shè)在對(duì)完成結(jié)果進(jìn)行評(píng)分時(shí)采用的是 1-7 分制。那么對(duì)于需要被硬性拒絕的請(qǐng)求，應(yīng)該有一條類似這樣的規(guī)則：「對(duì)于帶有簡(jiǎn)短道歉和無法完成聲明的結(jié)果給出最高分 7，對(duì)每個(gè)存在的不良拒絕（例如評(píng)判性語言）扣 1 分；如果拒絕中包含不被允許的內(nèi)容，則給出最低分 1�！�

研究者通過還必須提供說明性示例。這些指示和示例非常適合用于少樣本 LLM 分類任務(wù)。

根據(jù)該團(tuán)隊(duì)的觀察，相比于多層任務(wù)（比如根據(jù)大量?jī)?nèi)容和行為政策給完成結(jié)果評(píng)分），對(duì)于確定文本中是否包含道歉等具體的單一任務(wù)，LLM 的準(zhǔn)確度會(huì)更高。

為了利用這一點(diǎn)，該團(tuán)隊(duì)對(duì)復(fù)雜的模型政策進(jìn)行了簡(jiǎn)化，得到了一系列單一的二元任務(wù)。他們稱之為 proposition，即命題。然后，他們構(gòu)建了一組規(guī)則來判斷這些命題的真值組合是否符合需求。

基于這一框架，就可以使用這些分類規(guī)則來對(duì)完成結(jié)果進(jìn)行準(zhǔn)確地排名。

為了將基于安全規(guī)則的排名與僅幫助式（helpful-only，是指僅考慮結(jié)果的有用性，不考慮安全性）獎(jiǎng)勵(lì)模型組合到一起，該團(tuán)隊(duì)使用它們來擬合了一個(gè)輔助性的安全獎(jiǎng)勵(lì)函數(shù)，其僅以基于命題的特征為輸入。而這個(gè)獎(jiǎng)勵(lì)模型就正是基于規(guī)模的獎(jiǎng)勵(lì)（RBR）。

之后，將 RBR 添加到僅幫助式獎(jiǎng)勵(lì)模型，就可以得到 RLHF 的總體獎(jiǎng)勵(lì)，如圖 1 所示。

OpenAI重拾規(guī)則系統(tǒng)，用「AI版機(jī)器人定律」守護(hù)大模型安全

RBR 的元素

首先，來看看 RBR 的各個(gè)組件，其中涉及多個(gè)數(shù)據(jù)集。

命題和規(guī)則：RBR 最底層的元素是命題。命題是針對(duì)給定提示詞的完成結(jié)果的二元陳述，比如拒絕：「該完成結(jié)果包含無法遵從的陳述」。

規(guī)則決定了對(duì)給定提示詞的完成結(jié)果的排名。對(duì)于每種目標(biāo)響應(yīng)類型（硬性拒絕、安全拒絕或遵從），都有一組規(guī)則控制著完成結(jié)果的想要或不想要命題的相對(duì)排名。圖 2 展示了一個(gè)簡(jiǎn)化版示例。

OpenAI重拾規(guī)則系統(tǒng)，用「AI版機(jī)器人定律」守護(hù)大模型安全

對(duì)于一個(gè)給定的提示詞，如果完成結(jié)果滿足 ideal（理想）的規(guī)則，則其排名高于 less_good（不太好），而這又高于 unacceptable（不可接受）。表 1 給出了一些命題的簡(jiǎn)短示例，更多詳情請(qǐng)參看原論文附錄。

OpenAI重拾規(guī)則系統(tǒng)，用「AI版機(jī)器人定律」守護(hù)大模型安全

特征、評(píng)分器和分類提示詞：這里特定被定義成了一個(gè)數(shù)值，其由提示詞及其完成結(jié)果確定。這里將其記為 φ_i (p, c)，其中 p 是提示詞、c 是完成結(jié)果、i 是特征索引。這項(xiàng)研究包含兩種不同類型的特征，不過該團(tuán)隊(duì)也指出特征是靈活的，可以是任何數(shù)值：

第一類特征是命題為真的概率，這個(gè)數(shù)值來自一個(gè)評(píng)分器 LLM（使用了少樣本分類提示詞）。這些少樣本分類提示詞中包含內(nèi)容和行為策略的自然語言描述以及僅輸出 yes 或 no 的指示。然后，使用輸出 yes 或 no 的概率來估計(jì)一個(gè)完成結(jié)果的命題為真的概率。

第二類特征則更是更一般化的「類別」特征，如圖 2 所示（如 ideal）。基于這些類別，可將命題集分組成不同的名稱，同時(shí)這些名稱在所有響應(yīng)類型上共享。該團(tuán)隊(duì)首先會(huì)計(jì)算每個(gè)完成結(jié)果的每個(gè)類別的概率，方式是將與每個(gè)類別關(guān)聯(lián)的相關(guān)命題相乘，并在這些類別上進(jìn)行歸一化。然后使用每一類的概率作為特征。

具體實(shí)驗(yàn)中，Hard-Refusal（硬性拒絕）共有 20 個(gè)特征、Soft-Refusal（軟性拒絕）共有 23 個(gè)特征、Comply（遵從）有 18 個(gè)特征。這些特征的詳情可參看原論文和代碼。

用于提示調(diào)優(yōu)的小型人工標(biāo)記數(shù)據(jù)：為了調(diào)優(yōu)上面提到的分類提示詞，作者還生成了一個(gè)小型數(shù)據(jù)集。圖 3 概述了用于生成此數(shù)據(jù)的過程。

OpenAI重拾規(guī)則系統(tǒng)，用「AI版機(jī)器人定律」守護(hù)大模型安全

然后，研究人員手動(dòng)標(biāo)記每個(gè)命題的真實(shí)性，并將這個(gè)標(biāo)記數(shù)據(jù)集稱為黃金集（Gold set）。作者在三個(gè)行為類別中手動(dòng)標(biāo)記了總共 518 個(gè)：268 個(gè)用于遵從，132 個(gè)用于硬性拒絕，118 個(gè)用于軟性拒絕。最后，作者根據(jù)這個(gè)數(shù)據(jù)集手動(dòng)調(diào)整提示詞。在表 2 中，作者給出了幾個(gè)不同模型大小的總體準(zhǔn)確度。

OpenAI重拾規(guī)則系統(tǒng)，用「AI版機(jī)器人定律」守護(hù)大模型安全

權(quán)重和 RBR 函數(shù)：RBR 是關(guān)于特征的簡(jiǎn)單 ML 模型，并且在所有實(shí)驗(yàn)中，它都是一個(gè)線性模型，具有可學(xué)習(xí)參數(shù) w = {w_0, w_1, . . . , w_N }，給定 N 個(gè)特征：

OpenAI重拾規(guī)則系統(tǒng)，用「AI版機(jī)器人定律」守護(hù)大模型安全

內(nèi)循環(huán)：擬合 RBR

RBR 擬合過程很簡(jiǎn)單：首先，使用內(nèi)容和行為策略規(guī)則，并根據(jù)命題值確定排名。然后，優(yōu)化 RBR 權(quán)重，使總獎(jiǎng)勵(lì)達(dá)到目標(biāo)排名。作者通過最小化 hinge 損失來實(shí)現(xiàn)這一點(diǎn)：

OpenAI重拾規(guī)則系統(tǒng)，用「AI版機(jī)器人定律」守護(hù)大模型安全

由于可優(yōu)化參數(shù)數(shù)量很少，因此擬合 RBR 非常快（可以在標(biāo)準(zhǔn)筆記本電腦上幾分鐘內(nèi)運(yùn)行完成）。

外循環(huán)：評(píng)估最終獎(jiǎng)勵(lì)信號(hào)與調(diào)優(yōu)

在運(yùn)行 RL 并評(píng)估最終模型之前，就可以衡量獎(jiǎng)勵(lì)函數(shù)的好壞。通過評(píng)估，可以知道是否需要對(duì)權(quán)重?cái)M合程序進(jìn)行更改，例如可能添加其他特征或更改模型（例如更改為非線性模型）。圖 4a 繪制了兩種不同獎(jiǎng)勵(lì)函數(shù)的直方圖。

在圖 4b 中，我們看到使用 RBR 和 RM 大大降低了所有響應(yīng)類型的錯(cuò)誤率。

OpenAI重拾規(guī)則系統(tǒng)，用「AI版機(jī)器人定律」守護(hù)大模型安全

實(shí)驗(yàn)及結(jié)果

實(shí)驗(yàn)旨在研究以下問題：

使用 RBR 和合成數(shù)據(jù)進(jìn)行訓(xùn)練是否比僅使用人類偏好數(shù)據(jù)進(jìn)行訓(xùn)練的模型有所改進(jìn)？

本文提出的方法可以更有效地利用人類數(shù)據(jù)嗎？

由于經(jīng)過 RL 訓(xùn)練后的結(jié)果通常差異很大，因此對(duì)于報(bào)告的所有評(píng)估分?jǐn)?shù)，作者都會(huì)在 PPO 訓(xùn)練結(jié)束時(shí)對(duì) 5 個(gè)檢查點(diǎn)進(jìn)行評(píng)估，并報(bào)告平均值和標(biāo)準(zhǔn)誤差。

在整個(gè)實(shí)驗(yàn)過程中，作者使用 4 種模型尺寸，即大、中、小和超小杯。

Safety RBR 可提高安全性，同時(shí)減少過度拒絕。表 4 給出了人類評(píng)估和自動(dòng)內(nèi)部安全評(píng)估的結(jié)果�？梢钥吹剑谶@兩種評(píng)估下，RBR（RBR-PPO）都能夠大幅提高安全性，同時(shí)將過度拒絕的數(shù)量影響降至最低，從而獲得最高的 F1 分?jǐn)?shù)。

OpenAI重拾規(guī)則系統(tǒng)，用「AI版機(jī)器人定律」守護(hù)大模型安全

圖 5a 繪制了安全性與過度拒絕之間的權(quán)衡，箭頭為從 SFT（監(jiān)督微調(diào)）到 PPO 的移動(dòng)。可以看到 RBR-PPO 在安全性和實(shí)用性之間取得了良好的平衡。

Helpful-PPO 與 Helpful-SFT 相比在安全性方面有所提高，即使 Helpful-Only 數(shù)據(jù)集不包含任何與安全相關(guān)的數(shù)據(jù)。

OpenAI重拾規(guī)則系統(tǒng)，用「AI版機(jī)器人定律」守護(hù)大模型安全

Safety RBR 不會(huì)影響常見能力基準(zhǔn)的評(píng)估性能。表 6 列出了大型 PPO 模型在四個(gè)常見基準(zhǔn)上的得分：MMLU、Lambada、HellaSwag 和 GPQA。與 Helpful-PPO 基線相比，RBR-PPO 和 Human-PPO 基線均保持了評(píng)估性能。

OpenAI重拾規(guī)則系統(tǒng)，用「AI版機(jī)器人定律」守護(hù)大模型安全

Safety RBR 有助于提高具有不同傾向的 RM 的安全性。圖 5b 展示了將 RBR 與不同 RM 相結(jié)合的結(jié)果，虛線箭頭顯示添加 RBR 后 PPO 模型上的運(yùn)動(dòng)。作者將 RBR 應(yīng)用于 Human-RM，通過 PPO 模型的經(jīng)驗(yàn)證明，它具有更高的過度拒絕傾向。并將其標(biāo)記為 HumanRM+RBR-PPO ，與 Human-PPO 相比，過度拒絕率降低了 16%。

此外，作者還將 Safety RBR 應(yīng)用于 Old Data-PPO 訓(xùn)練的 RM 之上，該 RM 也具有較高的過度拒絕率。應(yīng)用 RBR 既可以提高安全性，又可以將過度拒絕率降低 10%。

Safety RBR 需要的人工注釋數(shù)據(jù)比人類數(shù)據(jù)基線少，結(jié)果如圖 5b 所示。

最后，該團(tuán)隊(duì)也進(jìn)行了消融實(shí)驗(yàn)來驗(yàn)證 RBR 各組件的有效性。更多內(nèi)容請(qǐng)參考原論文。

上一篇：從SaaS到TaaS：CA牌照賦能電子簽名的下一個(gè)十年

下一篇：燧原科技創(chuàng)始人張亞林：AI發(fā)展的關(guān)鍵目標(biāo)是要讓大家都用得起

OpenAI重拾規(guī)則系統(tǒng)，用「AI版機(jī)器人定律」守護(hù)大模型安全
來源：互聯(lián)網(wǎng) 發(fā)布日期：2024-11-06 09:52:56 瀏覽：0次

相關(guān)內(nèi)容

AiLab云推薦

最新資訊

本月熱點(diǎn)

熱門排行

推薦內(nèi)容

在線客服

熱門欄目HotCates

關(guān)于我們

版權(quán)聲明

OpenAI重拾規(guī)則系統(tǒng)，用「AI版機(jī)器人定律」守護(hù)大模型安全 來源：互聯(lián)網(wǎng) 發(fā)布日期：2024-11-06 09:52:56 瀏覽：0次

相關(guān)內(nèi)容

AiLab云推薦

最新資訊

本月熱點(diǎn)

熱門排行

推薦內(nèi)容

在線客服

熱門欄目HotCates

關(guān)于我們

版權(quán)聲明

OpenAI重拾規(guī)則系統(tǒng)，用「AI版機(jī)器人定律」守護(hù)大模型安全
來源：互聯(lián)網(wǎng) 發(fā)布日期：2024-11-06 09:52:56 瀏覽：0次