當前位置：人工智能實驗室> 人工智能應用 > ChatGPT的這項核心技術要被替代？谷歌提出基于AI反饋的強化學習

ChatGPT的這項核心技術要被替代？谷歌提出基于AI反饋的強化學習
來源：互聯(lián)網(wǎng) 發(fā)布日期：2023-09-05 18:55:10 瀏覽：15559次

導讀：與基于人類反饋的強化學習（RLHF）相媲美的技術，出現(xiàn)了。近日， Google Research 的研究人員提出了基于 AI 反饋的強化學習（RLAIF），該技術可以產(chǎn)生人類水平的性能，為解決基于人類反饋的強化學習（RLHF）的可擴展性限制提供了一種潛在的解決方案。相關...

與基于人類反饋的強化學習（RLHF）相媲美的技術，出現(xiàn)了。

近日，Google Research 的研究人員提出了基于 AI 反饋的強化學習（RLAIF），該技術可以產(chǎn)生人類水平的性能，為解決基于人類反饋的強化學習（RLHF）的可擴展性限制提供了一種潛在的解決方案。

相關論文以“RLAIF: Scaling Reinforcement Learning from Human Feedback with AI Feedback”為題，已發(fā)表在預印本網(wǎng)站 arXiv 上。

RLHF：導致不準確或有害行為

RLHF 是一種利用人工指導來微調(diào)預先訓練好的大型語言模型（LLMs）的方法。它由三個相互關聯(lián)的過程組成：反饋收集、獎勵建模和策略優(yōu)化。

其中，反饋收集負責收集人類對 LLMs 輸出的評價。然后利用這些反饋數(shù)據(jù)，通過監(jiān)督學習訓練獎勵模型。獎勵模型旨在模擬人類的偏好。隨后，策略優(yōu)化過程使用強化學習循環(huán)來優(yōu)化 LLMs，從而產(chǎn)生獲得獎勵模型有利評價的輸出。這些步驟可以迭代執(zhí)行，也可以同時執(zhí)行。

與傳統(tǒng)的 RL 方法相比，RLHF 的關鍵優(yōu)勢在于能更好地與人類的意圖保持一致，以及以未來的反饋為條件進行規(guī)劃，從各種類型的反饋中進行流暢的學習，并根據(jù)需要對反饋進行整理，所有這些都是創(chuàng)建真正的智能代理所不可缺少的。

另外，RLHF 還允許機器通過抽象人類的價值來學習，而不是簡單地模仿人類的行為，從而使代理具有更強的適應性，更強的可解釋性，以及更可靠的決策。

目前，RLHF 已經(jīng)在商業(yè)、教育、醫(yī)療和娛樂等領域得到了廣泛的應用，包括 OpenAI 的 ChatGPT、DeepMind 的 Sparrow 和 Anthropic 的 Claude 等。

然而，基于 RLHF 的 AI 模型有可能做出不準確或有害的行為。而且，收集人類偏好數(shù)據(jù)作為反饋的成本很高，人類標注者之間的分歧會給訓練數(shù)據(jù)帶來差異，在基本事實模糊的情況下會造成混亂（如道德困境）。另外，人類在 RLHF 中的反饋往往被限制在提供有限信息的偏好排序的形式中，從而限制了適用性。

RLAIF vs. RLHF

在這項工作中，RLAIF 展現(xiàn)出了解決 RLHF 難題的潛力。

研究人員使用了一個通用的 LLMs 模型來對候選項對之間的偏好進行標注，該模型預先經(jīng)過訓練或根據(jù)通用用途進行過微調(diào)，但并沒有為特定的下游任務進行微調(diào)。

給定一段文本和兩個候選摘要，LLMs 被要求評價哪個摘要更好。其輸入結構如下:

1. 前言介紹和描述當前任務的指示；

2. 少量樣例一個文本示例，一對摘要，思維鏈（CoT）的邏輯依據(jù)，以及一個偏好判斷；

3. 待標注樣本一個文本和一對待標注的摘要；

4. 結尾用于提示 LLMs 的結束字符串；

在 LLMs 接收到輸入后，研究人員獲得生成 token“1” 和“2”的對數(shù)概率，然后計算 softmax 以得出偏好分布。

他們進行了兩種類型的前言實驗。在“Base”實驗中，簡要地詢問了“哪個摘要更好？”，而在“OpenAI”實驗中，他們模仿了 OpenAI TLDR 項目中由人類偏好標注者生成的評分指示，這些 token 包含了關于構建強大摘要所需的詳細信息。

此外，他們還進行了上下文學習實驗，通過添加一些手動選擇的示例來提供更多上下文，這些示例覆蓋了不同的主題。

在 LLMs 標記偏好之后，研究人員訓練一個獎勵模型（RM）來預測偏好。隨后，又使用了三個指標來評估 AI 標簽對齊度、兩兩準確率和勝率。

實驗結果表明，在無需依賴人工標注者的情況下，RLAIF 可作為 RLHF 的一個可行替代選擇。在人類評估中，RLAIF 在基線監(jiān)督微調(diào)策略之上的受歡迎程度達到了 71％，而與之相比，RLHF 在基線監(jiān)督微調(diào)模型策略之上的受歡迎程度為 73％。

此外，研究還直接比較了 RLAIF 和 RLHF 在人類偏好方面的勝率，結果顯示它們在人類評估下具有相同的受歡迎程度。研究還比較了 RLAIF 和 RLHF 的摘要與人工編寫的參考摘要。在 79% 的情況下，RLAIF 摘要優(yōu)于參考摘要，而 RLHF 在 80% 的情況下優(yōu)于參考摘要。

然而，盡管這項工作凸顯了 RLAIF 的潛力，但也存在一些限制。

首先，該研究僅關注了摘要任務，其在其他任務上的泛化性能尚不明確；其次，與人工標注相比，研究未充分評估 LLMs 推理的成本效益；此外，也存在許多未解決的有趣問題，例如將 RLHF 與 RLAIF 相結合能否超越單一方法，直接利用 LLMs 分配獎勵的效果如何，提高 AI 標簽對齊性是否能夠轉化為改進的最終策略，以及使用與策略模型相同大小的 LLMs 標注者能否進一步改進策略。

不可否認的是，本次研究為 RLAIF 領域的深入研究奠定了堅實的基礎，期待未來該領域能夠取得更出色的成果。