展會信息港展會大全

將GPT-4安全性提升26%以上,北大團隊提出AI對齊新范式,能充當大模型的“補丁”
來源:互聯(lián)網(wǎng)   發(fā)布日期:2024-03-12 13:47:41   瀏覽:9614次  

導讀:我們提出對齊器這種對齊新范式之后,獲得了許多業(yè)界公司的廣泛關注。發(fā)布僅一個月,多家科技公司已經(jīng)開始使用這款對齊器的訓練范式,來進行多場景的下游應用對齊任務。 對齊器的模型輕量、訓練高效及對大模型參數(shù)無感的特性,使其有望成為大模型對齊領域中的...

“我們提出對齊器這種對齊新范式之后,獲得了許多業(yè)界公司的廣泛關注。發(fā)布僅一個月,多家科技公司已經(jīng)開始使用這款對齊器的訓練范式,來進行多場景的下游應用對齊任務。

對齊器的模型輕量、訓練高效及對大模型參數(shù)無感的特性,使其有望成為大模型對齊領域中的新的替代者。”北京大學人工智能研究院楊耀東研究員表示。

圖 | 楊耀東(來源:資料圖)

對齊器(Aligner),實際是一種全新的大語言模型對齊范式。這種范式基于“將未對齊答案與對齊答案之間的殘差進行修正”這一洞見,具有高效性和可擴展性。

(來源:arXiv)

就應用前景來說:

其一,作為人類反饋的強化學習(RLHF,Reinforcement Learning with Human Feedback)的替代方案,對齊器充當了大語言模型的智能外掛與補叮

在目前的對齊場景中,業(yè)界和學界普遍在對話結束時,來提供人類的標注監(jiān)督信號。

但是,這種稀疏的獎勵機制增加了 RLHF 的不穩(wěn)定性,進而增加了對齊的難度。

而對齊器通過學習修正錯誤的回答,確保大模型穩(wěn)定、高效地輸出與人類意圖價值相相符的內容。

其二,對齊器是 AI 安全與治理的有效手段。輕量且高效的對齊器,能為政府和第三方機構(比如非營利組織、非政府組織)審計和監(jiān)管 AI 提供潛在的可行的解決方法。

無需巨大的算力儲備和和對大模型參數(shù)的訪問需求,監(jiān)管機構就可以實現(xiàn)高效的對齊,發(fā)布符合要求的對齊器。

其三,對齊器是價值對齊的執(zhí)行路徑。如何保持大模型等人工智能系統(tǒng)與人類的價值觀(如公平、正義、善良等)一致,并有效應對倫理和價值問題,構成了價值對齊的主要挑戰(zhàn)。

而對齊器為實現(xiàn)價值對齊提供了一個可行的方案:利用外掛的對齊模塊來承載價值對齊功能,對大模型的決策和輸出進行額外的“價值修正”。

(來源:arXiv)

AI 對齊中的 ResNet 時刻

據(jù)介紹,自 21 世紀以來,大規(guī)模神經(jīng)網(wǎng)絡的發(fā)展開始變得舉步維艱,多層神經(jīng)網(wǎng)絡的疊加也往往以梯度爆炸、或梯度消失收尾。許多研究者傾盡計算力反復地調整架構,但始終沒有取得良好的效果。

此時,ResNet 的出現(xiàn)如同“普羅米修斯的圣火”照亮了深度網(wǎng)絡的訓練。通過依靠殘差學習的思想,在網(wǎng)絡架構中添加殘差恒等映射塊,讓神經(jīng)網(wǎng)絡的層數(shù)得以大規(guī)模擴展,梯度爆炸問題也由此引刃而解。

在通用模型的時代之下,隨著 AI 系統(tǒng)的愈發(fā)強大,如何確保 AI 系統(tǒng)與人類的價值和意圖相一致(即 AI 對齊),成為 AI 研究者的重要關心議題。

然而,當下采用的對齊方法比如 RLHF,往往存在復現(xiàn)難、人類獎勵信號不一致、強化學習調參復雜且無法微調 API-Based 模型(例如 GPT-4/Claude)等困難。

AI 對齊研究者們基于原有的對齊范式做出了許多優(yōu)化調整,包括更改架構、算法優(yōu)化等,但卻往往收效甚微。

在對齊領域深耕的經(jīng)驗,楊耀東課題組做下這樣一個預判:一定存在一種高效、且能節(jié)省參數(shù)的對齊方法。

該團隊認為:已有的對齊范式陷入了一個局部鞍點,即人們通過各種訓練技巧,期望大模型能夠生成和人類對齊的回答,滿足“Helpful Harmless Honest”的 3H 標準,但是這種做法會損失模型原有的性能。

然而,換一個視角來看,讓大模型修正“未對齊的回答”,比直接讓大模型生成“對齊的回答”要更加容易。

不過,隨之而來的問題便是:大模型具備修正回答的能力嗎?

“答案是:不一定,因為現(xiàn)有的基于提示詞的 few-short 方法一方面會對大模型的推理能力提出要求,另一方面會占用大模型寶貴的上下文空間。”

實際上,讓大模型學習“從未對齊回答的分布遷移到已對齊回答的分布”,比讓大模型直接學習“從問題到對已齊回答的映射”要更簡單。

這其中是一種殘差學習的思想,它類似于神經(jīng)網(wǎng)絡中的經(jīng)典工作 ResNet 的思路。

首次將殘差學習概念用于大模型對齊

為此,楊耀東團隊首次將 ResNet 中殘差學習的理念用于大模型對齊,提出了對齊器即一種通過學習未對齊和對齊答案間的殘差,來顯著優(yōu)化對齊效果的高效范式。

對齊器的工作原理在于:在前置模型外掛一個模型,然后讓外掛模型直接學習“未對齊回答和對齊回答”之間的修正殘差。

實驗中,課題組不斷優(yōu)化訓練技巧、調整模型架構,在不同尺寸的數(shù)據(jù)集上訓練了不同規(guī)模的對齊器。

一款 7B 參數(shù)的對齊器,只需經(jīng)歷一次訓練,就能同時將 11 種大模型的幫助性和安全性平均提高 21.9% 和 23.8%。

這些模型涵蓋了閉源模型、開源模型、安全性對齊模型、非安全性對齊模型。其中,這款對齊器能將 GPT-4 的幫助性提升 17.5%、無害性提升 26.9%。

研究中,該團隊還測試了對齊器用于價值對齊的可能性:團隊使用 Empathetic Dialogue 數(shù)據(jù)集微調了 7B 和 13B 模型的對齊器,以提高它們的共情能力。

經(jīng)過微調之后,Aligner-7B 和 Aligner-13B 能將 GPT-4 輸出的共情能力提升 50% 以上。

超級對齊:弱到強泛化的一種新路徑

超級對齊主要解決的問題是如何讓強模型向弱模型對齊。遙想未來當模型能力超過人類以后,人類該如何提供有效的監(jiān)督信號。

在超對齊方面,課題組此前一直在深挖“可擴展監(jiān)督”和“弱至強泛化”的階越性實現(xiàn)。

令人驚喜的是,對于實現(xiàn)“弱到強泛化和可擴展監(jiān)督”這一目標,對齊器也能提供一種更加新穎的方案。

(來源:arXiv)

總的來說,與 OpenAI 這種“直接訓練巨人”的范式相比,本次提出的對齊器,好比一個“站在巨人肩膀上的監(jiān)督者”,它能夠基于強模型的輸出進行修改,從而為強模型的訓練提供更精準的標簽。

日前,相關論文以《對齊器:通過弱至強校正實現(xiàn)有效調整》(Aligner: Achieving Efficient Alignment through Weak-to-Strong Correction)為題發(fā)在 arXiv[1]。

全文由北京大學 AI 安全與治理中心作為唯一單位完成,其中吉嘉銘、陳博遠是第一作者,楊耀東擔任通訊作者。

(來源: https://aligner2024.github.io)

將把對齊器用于 Sora、Pika 等文生視頻大模型

在后續(xù)計劃上,課題組主要有以下打算:

第一,發(fā)布輕量級及多樣化版本的對齊器,例如 0.5B、1.8B、2B 模型,進一步驗證修正范式在小模型上的效果。

此外,將開發(fā)基于 token-level 和 sentence-level 的對齊器,以增強模型的輸出效率和推理能力。

第二,開發(fā)基于混合專家架構和流式化處理的對齊器。通過專項化訓練并高效集成多個對齊器,課題組將開發(fā)流式化和混合專家架構的對齊器。

預計這種方法能夠實現(xiàn)多維度、多價值的高效對齊,為業(yè)界和學界提供實現(xiàn)多重價值和需求融合的可行方案。

第三,將對齊器思想融入到訓練過程中。通過將其融入前置模型架構,并針對相關參數(shù)層進行專項訓練,實現(xiàn)局部微調和全局對齊。這種做法旨在減輕后續(xù)的對齊壓力,并提高預訓練模型的安全性和通用性。

第四,開發(fā) plus 版本對齊器,包括開發(fā)針對代碼、數(shù)學、音樂等領域的對齊器,并將開發(fā)個性化的定制對齊器,以滿足特定用戶的需求。

第五,將對齊器擴展到更多場景。隨著 Pika、Sora 等大模型的流行,文生圖和文生視頻領域受到關注。

當前,這些模型生成的視頻和圖片有時仍存在物理規(guī)律不符和光暗處理不自然的問題。

通過將對齊器應用于此,可以對生成內容進行微調,提高最終輸出的質量,使其更貼近真實場景。

第六,利用對齊器輔助實現(xiàn)可擴展監(jiān)督。即將對齊器作為輔助人類提供獎勵信號的助手,從而為復雜場景提供更精確的獎勵監(jiān)督信號,幫助解決超對齊(Super Alignment)的問題。

課題組 AI 對齊全面性綜述被 NIST 引用

另據(jù)悉,該課題組多年來深挖 AI 安全與治理,致力于 AI 對齊領域的研究。深耕大模型的對齊領域,楊耀東課題組已經(jīng)開源了百萬級安全對齊偏好數(shù)據(jù)集 BeaverTails、大模型的安全對齊算法 SafeRLHF,相關論文分別發(fā)表在 NeurIPS 2023 和 ICLR 2024 (亮點論文),所研發(fā)的技術已被多個開源模型采納。

同時,課題組還撰寫了業(yè)內首個人工智能對齊的綜述論文“AI Alignment: A Comprehensive Survey”[2],并配套了資源網(wǎng)站(www.alignmentsurvey.com)。

在上述論文中,他們將 AI 對齊目標總結為 RICE 原則:魯棒性(Robustness)、 可解釋性(Interpretability)、可控性(Controllability)、道德性(Ethicality),全面地概括了 AI 齊的未來方向和核心板塊。

在該綜述中,該團隊首次提出了對齊循環(huán)的概念,將 AI 對齊分為前向對齊和后向對齊兩個重要組成部分。

前向對齊,關注于從反饋中學習和在分布偏移條件下的學習,目的是通過對齊訓練,初步構建出具有一定對齊性的 AI 系統(tǒng)。

后向對齊,則著重于全周期的對齊保障和治理,旨在對 AI 系統(tǒng)的對齊性進行評估和管理。此外,在后向對齊過程中獲得的經(jīng)驗和對齊需求,也能為更新對齊目標帶來幫助。

在論文“AI Alignment: A Comprehensive Survey”上線以后,美國商務部國家標準技術研究所(National Institute of Standards and Technology, NIST)在其可信賴和負責任的人工智能研究項目中,采納了上述論文中所提出的對齊循環(huán)框架 。

具體地,在 NIST 的論文《對抗性機器學習:攻擊與緩解的分類和術語》(Adversarial Machine Learning: A Taxonomy and Terminology of Attacks and Mitigations)中,引用了該團隊的前向對齊和后向對齊概念,闡述了 AI 對齊的核心步驟與流程。

而在未來,課題組仍將繼續(xù)耕耘 AI 對齊,助力強人工智能與人類意圖價值對齊研究的發(fā)展。

參考資料:

1.https://arxiv.org/abs/2402.02416

2.https://arxiv.org/abs/2310.19852

運營/排版:何晨龍

贊助本站

人工智能實驗室
相關內容
AiLab云推薦
推薦內容
展開

熱門欄目HotCates

Copyright © 2010-2024 AiLab Team. 人工智能實驗室 版權所有    關于我們 | 聯(lián)系我們 | 廣告服務 | 公司動態(tài) | 免責聲明 | 隱私條款 | 工作機會 | 展會港