劃重點(diǎn)
01OpenAI安全團(tuán)隊(duì)發(fā)布新研究,發(fā)現(xiàn)基于規(guī)則的獎(jiǎng)勵(lì)可用于提升語言模型的安全性。
02該團(tuán)隊(duì)提出全新的AI反饋方法,可讓人類指定所需模型響應(yīng)的規(guī)范,類似于自然語言描述的機(jī)器人三定律。
03實(shí)驗(yàn)表明,基于規(guī)則的獎(jiǎng)勵(lì)得到的安全性能與人類反饋基準(zhǔn)相當(dāng),同時(shí)還能大幅減少拒絕安全提示詞的情況。
04為此,該團(tuán)隊(duì)將基于安全規(guī)則的排名與僅幫助式獎(jiǎng)勵(lì)模型組合到一起,得到RLHF的總體獎(jiǎng)勵(lì)。
05未來,OpenAI將繼續(xù)研究如何用自然語言為AI系統(tǒng)設(shè)定一套安全規(guī)則,以提升大模型的安全性。
以上內(nèi)容由大模型生成,僅供參考
機(jī)器之心報(bào)道
編輯:陳陳、Panda
在大算力和大數(shù)據(jù)讓基于統(tǒng)計(jì)的 AI 模型真正變得強(qiáng)大且有用之前,基于規(guī)則的系統(tǒng)長(zhǎng)期以來是語言模型的主導(dǎo)范式。顧名思義,基于規(guī)則的系統(tǒng)就是依賴人類編碼的規(guī)則來執(zhí)行決策。這種方式構(gòu)建的 AI 雖然簡(jiǎn)單,但在某些特定領(lǐng)域卻依然很有用處,尤其是那些安全特性至關(guān)重要的領(lǐng)域(如航空和醫(yī)療),畢竟當(dāng)今的大型語言模型常會(huì)出現(xiàn)幻覺等問題。
近日,翁荔(Lilian Weng)領(lǐng)導(dǎo)的 OpenAI 安全團(tuán)隊(duì)發(fā)布了一項(xiàng)新的研究成果,發(fā)現(xiàn)基于規(guī)則的獎(jiǎng)勵(lì)可用于提升語言模型的安全性。這不由得讓人想到了科幻作家艾薩克·阿西莫夫提出的「機(jī)器人三定律」和作為補(bǔ)充的「機(jī)器人第零定律」,這就相當(dāng)于用自然語言給 AI 系統(tǒng)設(shè)定的一套安全規(guī)則?雌饋,OpenAI 已經(jīng)在向著這個(gè)方向努力了。
論文標(biāo)題:Rule Based Rewards for Language Model Safety
論文地址:https://arxiv.org/pdf/2411.01111
代碼與數(shù)據(jù):https://github.com/openai/safety-rbr-code-and-data
OpenAI 這個(gè)「基于規(guī)則的獎(jiǎng)勵(lì)」機(jī)制基于之前的 RLHF 和 RLAIF 研究成果,詳情可參閱機(jī)器之心報(bào)道《RLHF vs RL「AI」F,谷歌實(shí)證:大模型訓(xùn)練中人類反饋可被 AI 替代》。當(dāng)然,他們也在 RLHF 和 RLAIF 的基礎(chǔ)上做出了改進(jìn)。
他們提出的全新的 AI 反饋方法可讓人類來指定所需模型響應(yīng)的規(guī)范,這些規(guī)范就類似于在 RLHF 中給人類標(biāo)注者提供的指示。
具體來說,該團(tuán)隊(duì)的方法是將期望行為分解成一些具體規(guī)則,這些規(guī)則顯式地描述了人們想要或不想要的行為,比如:
refusals should contain a short apology,拒絕時(shí)應(yīng)包含簡(jiǎn)短的道歉;
refusals should not be judgemental toward the user,拒絕時(shí)不應(yīng)評(píng)判用戶;
responses to self-harm conversations should contain an empathetic apology that acknowledges the user’s emotional state,對(duì)涉及自我傷害的對(duì)話的回應(yīng)應(yīng)包含承認(rèn)用戶情緒狀態(tài)的富有同情心的道歉。
可以看到,這些規(guī)則都是用自然語言描述的,類似于阿西莫夫機(jī)器人定律。
OpenAI 這個(gè)團(tuán)隊(duì)指出這種分解成具體規(guī)則的方法類似于論文《Improving alignment of dialogue agents via targeted human judgements》中提出的人類反饋方法,但這里卻是使用 AI 反饋,而非人類反饋。并且,由于這些規(guī)則非常具體,所以可以對(duì)模型進(jìn)行非常細(xì)粒度的控制以及較高的自動(dòng) LLM 分類準(zhǔn)確度。
為了納入對(duì)復(fù)雜行為的考慮,該團(tuán)隊(duì)還將 LLM 分類器與單個(gè)行為組合到了一起。
此外,不同于之前的 AI 和人類反饋方法(將行為規(guī)則蒸餾為合成數(shù)據(jù)集或人類標(biāo)記的數(shù)據(jù)集,然后訓(xùn)練獎(jiǎng)勵(lì)模型),該團(tuán)隊(duì)的做法是直接將此反饋?zhàn)鳛轭~外獎(jiǎng)勵(lì)納入 RL 訓(xùn)練過程中,從而可避免在將規(guī)則蒸餾到獎(jiǎng)勵(lì)模型時(shí)可能發(fā)生的行為規(guī)范丟失問題。
OpenAI 這項(xiàng)研究的貢獻(xiàn)包括:
提出了一種可擴(kuò)展且靈活的方法:基于規(guī)則的獎(jiǎng)勵(lì)(RBR,如果有明確指定的模型行為策略,該方法可對(duì)模型響應(yīng)進(jìn)行細(xì)粒度的控制。
該團(tuán)隊(duì)通過實(shí)驗(yàn)表明,RBR 得到的安全性能與人類反饋基準(zhǔn)相當(dāng),同時(shí)還能大幅減少拒絕安全提示詞的情況。
研究表明 RBR 適用于多種獎(jiǎng)勵(lì)模型,既能改善過度謹(jǐn)慎的獎(jiǎng)勵(lì)模型,也能改進(jìn)(有時(shí)候)偏好不安全輸出的獎(jiǎng)勵(lì)模型。
該團(tuán)隊(duì)也進(jìn)行了消融研究,實(shí)驗(yàn)了不同的設(shè)計(jì)選擇,比如多種不同的安全提示集數(shù)量和組成。
用于安全的基于規(guī)則的獎(jiǎng)勵(lì)
首先,作為 RBR 方法的基礎(chǔ),研究者必須要編寫一套自然語言規(guī)則,以便定義什么是良好的完成結(jié)果、根據(jù)期望的特征給完成結(jié)果評(píng)分;同時(shí)還要保證這些指令足夠具體,這樣即使標(biāo)注者不一樣,也能得出同樣的判斷。
舉個(gè)例子,假設(shè)在對(duì)完成結(jié)果進(jìn)行評(píng)分時(shí)采用的是 1-7 分制。那么對(duì)于需要被硬性拒絕的請(qǐng)求,應(yīng)該有一條類似這樣的規(guī)則:「對(duì)于帶有簡(jiǎn)短道歉和無法完成聲明的結(jié)果給出最高分 7,對(duì)每個(gè)存在的不良拒絕(例如評(píng)判性語言)扣 1 分;如果拒絕中包含不被允許的內(nèi)容,則給出最低分 1!
研究者通過還必須提供說明性示例。這些指示和示例非常適合用于少樣本 LLM 分類任務(wù)。
根據(jù)該團(tuán)隊(duì)的觀察,相比于多層任務(wù)(比如根據(jù)大量?jī)?nèi)容和行為政策給完成結(jié)果評(píng)分),對(duì)于確定文本中是否包含道歉等具體的單一任務(wù),LLM 的準(zhǔn)確度會(huì)更高。
為了利用這一點(diǎn),該團(tuán)隊(duì)對(duì)復(fù)雜的模型政策進(jìn)行了簡(jiǎn)化,得到了一系列單一的二元任務(wù)。他們稱之為 proposition,即命題。然后,他們構(gòu)建了一組規(guī)則來判斷這些命題的真值組合是否符合需求。
基于這一框架,就可以使用這些分類規(guī)則來對(duì)完成結(jié)果進(jìn)行準(zhǔn)確地排名。
為了將基于安全規(guī)則的排名與僅幫助式(helpful-only,是指僅考慮結(jié)果的有用性,不考慮安全性)獎(jiǎng)勵(lì)模型組合到一起,該團(tuán)隊(duì)使用它們來擬合了一個(gè)輔助性的安全獎(jiǎng)勵(lì)函數(shù),其僅以基于命題的特征為輸入。而這個(gè)獎(jiǎng)勵(lì)模型就正是基于規(guī)模的獎(jiǎng)勵(lì)(RBR)。
之后,將 RBR 添加到僅幫助式獎(jiǎng)勵(lì)模型,就可以得到 RLHF 的總體獎(jiǎng)勵(lì),如圖 1 所示。
RBR 的元素
首先,來看看 RBR 的各個(gè)組件,其中涉及多個(gè)數(shù)據(jù)集。
命題和規(guī)則:RBR 最底層的元素是命題。命題是針對(duì)給定提示詞的完成結(jié)果的二元陳述,比如拒絕:「該完成結(jié)果包含無法遵從的陳述」。
規(guī)則決定了對(duì)給定提示詞的完成結(jié)果的排名。對(duì)于每種目標(biāo)響應(yīng)類型(硬性拒絕、安全拒絕或遵從),都有一組規(guī)則控制著完成結(jié)果的想要或不想要命題的相對(duì)排名。圖 2 展示了一個(gè)簡(jiǎn)化版示例。
對(duì)于一個(gè)給定的提示詞,如果完成結(jié)果滿足 ideal(理想)的規(guī)則,則其排名高于 less_good(不太好),而這又高于 unacceptable(不可接受)。表 1 給出了一些命題的簡(jiǎn)短示例,更多詳情請(qǐng)參看原論文附錄。
特征、評(píng)分器和分類提示詞:這里特定被定義成了一個(gè)數(shù)值,其由提示詞及其完成結(jié)果確定。這里將其記為 φ_i (p, c),其中 p 是提示詞、c 是完成結(jié)果、i 是特征索引。這項(xiàng)研究包含兩種不同類型的特征,不過該團(tuán)隊(duì)也指出特征是靈活的,可以是任何數(shù)值:
第一類特征是命題為真的概率,這個(gè)數(shù)值來自一個(gè)評(píng)分器 LLM(使用了少樣本分類提示詞)。這些少樣本分類提示詞中包含內(nèi)容和行為策略的自然語言描述以及僅輸出 yes 或 no 的指示。然后,使用輸出 yes 或 no 的概率來估計(jì)一個(gè)完成結(jié)果的命題為真的概率。
第二類特征則更是更一般化的「類別」特征,如圖 2 所示(如 ideal)。基于這些類別,可將命題集分組成不同的名稱,同時(shí)這些名稱在所有響應(yīng)類型上共享。該團(tuán)隊(duì)首先會(huì)計(jì)算每個(gè)完成結(jié)果的每個(gè)類別的概率,方式是將與每個(gè)類別關(guān)聯(lián)的相關(guān)命題相乘,并在這些類別上進(jìn)行歸一化。然后使用每一類的概率作為特征。
具體實(shí)驗(yàn)中,Hard-Refusal(硬性拒絕)共有 20 個(gè)特征、Soft-Refusal(軟性拒絕)共有 23 個(gè)特征、Comply(遵從)有 18 個(gè)特征。這些特征的詳情可參看原論文和代碼。
用于提示調(diào)優(yōu)的小型人工標(biāo)記數(shù)據(jù):為了調(diào)優(yōu)上面提到的分類提示詞,作者還生成了一個(gè)小型數(shù)據(jù)集。圖 3 概述了用于生成此數(shù)據(jù)的過程。
然后,研究人員手動(dòng)標(biāo)記每個(gè)命題的真實(shí)性,并將這個(gè)標(biāo)記數(shù)據(jù)集稱為黃金集(Gold set)。作者在三個(gè)行為類別中手動(dòng)標(biāo)記了總共 518 個(gè):268 個(gè)用于遵從,132 個(gè)用于硬性拒絕,118 個(gè)用于軟性拒絕。最后,作者根據(jù)這個(gè)數(shù)據(jù)集手動(dòng)調(diào)整提示詞。在表 2 中,作者給出了幾個(gè)不同模型大小的總體準(zhǔn)確度。
權(quán)重和 RBR 函數(shù):RBR 是關(guān)于特征的簡(jiǎn)單 ML 模型,并且在所有實(shí)驗(yàn)中,它都是一個(gè)線性模型,具有可學(xué)習(xí)參數(shù) w = {w_0, w_1, . . . , w_N },給定 N 個(gè)特征:
內(nèi)循環(huán):擬合 RBR
RBR 擬合過程很簡(jiǎn)單:首先,使用內(nèi)容和行為策略規(guī)則,并根據(jù)命題值確定排名。然后,優(yōu)化 RBR 權(quán)重,使總獎(jiǎng)勵(lì)達(dá)到目標(biāo)排名。作者通過最小化 hinge 損失來實(shí)現(xiàn)這一點(diǎn):
由于可優(yōu)化參數(shù)數(shù)量很少,因此擬合 RBR 非常快(可以在標(biāo)準(zhǔn)筆記本電腦上幾分鐘內(nèi)運(yùn)行完成)。
外循環(huán):評(píng)估最終獎(jiǎng)勵(lì)信號(hào)與調(diào)優(yōu)
在運(yùn)行 RL 并評(píng)估最終模型之前,就可以衡量獎(jiǎng)勵(lì)函數(shù)的好壞。通過評(píng)估,可以知道是否需要對(duì)權(quán)重?cái)M合程序進(jìn)行更改,例如可能添加其他特征或更改模型(例如更改為非線性模型)。圖 4a 繪制了兩種不同獎(jiǎng)勵(lì)函數(shù)的直方圖。
在圖 4b 中,我們看到使用 RBR 和 RM 大大降低了所有響應(yīng)類型的錯(cuò)誤率。
實(shí)驗(yàn)及結(jié)果
實(shí)驗(yàn)旨在研究以下問題:
使用 RBR 和合成數(shù)據(jù)進(jìn)行訓(xùn)練是否比僅使用人類偏好數(shù)據(jù)進(jìn)行訓(xùn)練的模型有所改進(jìn)?
本文提出的方法可以更有效地利用人類數(shù)據(jù)嗎?
由于經(jīng)過 RL 訓(xùn)練后的結(jié)果通常差異很大,因此對(duì)于報(bào)告的所有評(píng)估分?jǐn)?shù),作者都會(huì)在 PPO 訓(xùn)練結(jié)束時(shí)對(duì) 5 個(gè)檢查點(diǎn)進(jìn)行評(píng)估,并報(bào)告平均值和標(biāo)準(zhǔn)誤差。
在整個(gè)實(shí)驗(yàn)過程中,作者使用 4 種模型尺寸,即大、中、小和超小杯。
Safety RBR 可提高安全性,同時(shí)減少過度拒絕。表 4 給出了人類評(píng)估和自動(dòng)內(nèi)部安全評(píng)估的結(jié)果?梢钥吹剑谶@兩種評(píng)估下,RBR(RBR-PPO)都能夠大幅提高安全性,同時(shí)將過度拒絕的數(shù)量影響降至最低,從而獲得最高的 F1 分?jǐn)?shù)。
圖 5a 繪制了安全性與過度拒絕之間的權(quán)衡,箭頭為從 SFT(監(jiān)督微調(diào)) 到 PPO 的移動(dòng)。可以看到 RBR-PPO 在安全性和實(shí)用性之間取得了良好的平衡。
Helpful-PPO 與 Helpful-SFT 相比在安全性方面有所提高,即使 Helpful-Only 數(shù)據(jù)集不包含任何與安全相關(guān)的數(shù)據(jù)。
Safety RBR 不會(huì)影響常見能力基準(zhǔn)的評(píng)估性能。表 6 列出了大型 PPO 模型在四個(gè)常見基準(zhǔn)上的得分:MMLU、Lambada、HellaSwag 和 GPQA。與 Helpful-PPO 基線相比,RBR-PPO 和 Human-PPO 基線均保持了評(píng)估性能。
Safety RBR 有助于提高具有不同傾向的 RM 的安全性。圖 5b 展示了將 RBR 與不同 RM 相結(jié)合的結(jié)果,虛線箭頭顯示添加 RBR 后 PPO 模型上的運(yùn)動(dòng)。作者將 RBR 應(yīng)用于 Human-RM,通過 PPO 模型的經(jīng)驗(yàn)證明,它具有更高的過度拒絕傾向。并將其標(biāo)記為 HumanRM+RBR-PPO ,與 Human-PPO 相比,過度拒絕率降低了 16%。
此外,作者還將 Safety RBR 應(yīng)用于 Old Data-PPO 訓(xùn)練的 RM 之上,該 RM 也具有較高的過度拒絕率。應(yīng)用 RBR 既可以提高安全性,又可以將過度拒絕率降低 10%。
Safety RBR 需要的人工注釋數(shù)據(jù)比人類數(shù)據(jù)基線少,結(jié)果如圖 5b 所示。
最后,該團(tuán)隊(duì)也進(jìn)行了消融實(shí)驗(yàn)來驗(yàn)證 RBR 各組件的有效性。更多內(nèi)容請(qǐng)參考原論文。