展會(huì)信息港展會(huì)大全

RLHF何以成LLM訓(xùn)練關(guān)鍵?AI大牛盤(pán)點(diǎn)五款平替方案,詳解Llama 2反饋機(jī)制升級(jí)
來(lái)源:互聯(lián)網(wǎng)   發(fā)布日期:2023-09-18 19:45:53   瀏覽:9907次  

導(dǎo)讀:新智元報(bào)道 編輯:LRS 【新智元導(dǎo)讀】 AI領(lǐng)域日新月異,RLHF也逐漸成為過(guò)時(shí)的技術(shù),但新路線尚不明朗:應(yīng)該采用無(wú)需人工的反饋,還是繼續(xù)改進(jìn)RLHF機(jī)制? 在ChatGPT引領(lǐng)的大型語(yǔ)言模型時(shí)代,一個(gè)繞不過(guò)去的話題就是「基于人類(lèi)反饋的強(qiáng)化學(xué)習(xí)」(RLHF),不僅...

新智元報(bào)道

編輯:LRS

【新智元導(dǎo)讀】AI領(lǐng)域日新月異,RLHF也逐漸成為過(guò)時(shí)的技術(shù),但新路線尚不明朗:應(yīng)該采用無(wú)需人工的反饋,還是繼續(xù)改進(jìn)RLHF機(jī)制?

在ChatGPT引領(lǐng)的大型語(yǔ)言模型時(shí)代,一個(gè)繞不過(guò)去的話題就是「基于人類(lèi)反饋的強(qiáng)化學(xué)習(xí)」(RLHF),不僅提升了語(yǔ)言模型的性能,也將人類(lèi)社會(huì)的價(jià)值觀注入到模型中,使得語(yǔ)言模型能夠幫助用戶解決問(wèn)題,提高模型的安全性。

不過(guò)在ChatGPT之后,大量模型和相關(guān)技術(shù)不斷發(fā)布,RLHF也早已更新?lián)Q代,并衍生出來(lái)一些無(wú)需人工的微調(diào)方法,效果提升也很明顯。

最近,Lightning AI創(chuàng)始人、AI研究大牛Sebastian Raschka發(fā)表了一篇博客,描述了Llama 2中的RLHF機(jī)制和原版相比做出了哪些改變和提升,還介紹了幾個(gè)RLHF算法的替代方案。

經(jīng)典LLM的訓(xùn)練流程

目前最先進(jìn)的、基于Transformer的大型語(yǔ)言模型,例如ChatGPT或Llama 2,大體都包括三個(gè)訓(xùn)練步驟:預(yù)訓(xùn)練,有監(jiān)督微調(diào)和對(duì)齊。

在預(yù)訓(xùn)練階段,模型會(huì)吸收來(lái)自海量、無(wú)標(biāo)注文本數(shù)據(jù)集的知識(shí),然后使用有監(jiān)督微調(diào)細(xì)化模型以更好地遵守特定指令;最后使用對(duì)齊技術(shù)使LLM可以更有用且更安全地響應(yīng)用戶提示。

1. 預(yù)訓(xùn)練(Pretraining)

預(yù)訓(xùn)練階段通常需要包含數(shù)十億到數(shù)萬(wàn)億個(gè)token的龐大文本語(yǔ)料庫(kù),但訓(xùn)練目標(biāo)只是一個(gè)簡(jiǎn)單的「下一個(gè)單詞預(yù)測(cè)」(next word prediction)任務(wù),模型需要根據(jù)提供的文本來(lái)預(yù)測(cè)后續(xù)單詞或token。

自監(jiān)督預(yù)訓(xùn)練可以讓模型從大規(guī)模的數(shù)據(jù)中學(xué)習(xí),只要能夠在不侵犯版權(quán),或是無(wú)視創(chuàng)造者偏好的情況下收集到數(shù)據(jù),就可以不依賴(lài)人工標(biāo)注完成訓(xùn)練,因?yàn)橛?xùn)練標(biāo)簽實(shí)際上就是文本的后續(xù)單詞,已經(jīng)暗含在數(shù)據(jù)集中了。

2. 有監(jiān)督微調(diào)(Supervised finetuning)

第二階段大體上來(lái)看也是「next token prediction」任務(wù),不過(guò)需要人工標(biāo)注的指令數(shù)據(jù)集,其中模型的輸入是一個(gè)指令(根據(jù)任務(wù)的不同,也可能包含一段文本),輸出為模型的預(yù)期回復(fù)內(nèi)容。

數(shù)據(jù)形式類(lèi)似于:

Instruction: "Write a about a pelican."

使用說(shuō)明:“寫(xiě)一首關(guān)于鵜鶘的打油詩(shī)。“

Output: "There once was a pelican so fine..."

輸出:“從前有一只鵜鶘很好...“

模型會(huì)將指令文本作為輸入,并逐個(gè)token輸出,訓(xùn)練目標(biāo)是與預(yù)期輸出相同。

雖然兩個(gè)階段都采用相似的訓(xùn)練目標(biāo),但有監(jiān)督微調(diào)數(shù)據(jù)集通常比預(yù)訓(xùn)練數(shù)據(jù)小得多,指令數(shù)據(jù)集需要人類(lèi)(或其他高質(zhì)量的LLM)提供標(biāo)注結(jié)果,所以無(wú)法大規(guī)模應(yīng)用。

3. 對(duì)齊(Alignment)

第三階段依然是微調(diào),不過(guò)其主要目標(biāo)在于將語(yǔ)言模型與人類(lèi)的偏好、價(jià)值觀進(jìn)行對(duì)齊,也是RLHF機(jī)制發(fā)揮作用的地方。

RLHF主要包括三步:

Step 1. 預(yù)訓(xùn)練模型的有監(jiān)督微調(diào)

先收集一個(gè)提示詞集合,并要求標(biāo)注人員寫(xiě)出高質(zhì)量的回復(fù),然后使用該數(shù)據(jù)集以監(jiān)督的方式微調(diào)預(yù)訓(xùn)練的基礎(chǔ)模型。

Step 2. 創(chuàng)建獎(jiǎng)勵(lì)模型

對(duì)于每個(gè)提示,要求微調(diào)后的LLM生成四到九個(gè)回復(fù),再由標(biāo)注人員根據(jù)個(gè)人偏好對(duì)所有回復(fù)進(jìn)行排序。

雖然排序過(guò)程很耗時(shí),但工作量還是比第一步的數(shù)據(jù)集構(gòu)建少一些。

在處理排序結(jié)果時(shí),可以設(shè)計(jì)一個(gè)獎(jiǎng)勵(lì)模型RM,將微調(diào)語(yǔ)言模型SFT的輸出通過(guò)一個(gè)回歸層(單個(gè)輸出節(jié)點(diǎn))轉(zhuǎn)換為獎(jiǎng)勵(lì)分?jǐn)?shù),用于后續(xù)優(yōu)化。

Step 3.PPO微調(diào)

使用鄰近策略?xún)?yōu)化(PPO,proximal policy optimization ),根據(jù)獎(jiǎng)勵(lì)模型提供的獎(jiǎng)勵(lì)分?jǐn)?shù)對(duì)SFT模型進(jìn)一步優(yōu)化。

PPO的具體技術(shù)細(xì)節(jié)可以參考InstructGPT或下面的論文列表。

Asynchronous Methods for Deep Reinforcement Learning (2016) ,https://arxiv.org/abs/1602.01783

Proximal Policy Optimization Algorithms (2017),https://arxiv.org/abs/1707.06347

Fine-Tuning Language Models from Human Preferences (2020),https://arxiv.org/abs/1909.08593

Learning to Summarize from Human Feedback (2022) ,https://arxiv.org/abs/2009.01325

Llama 2中的RLHF

Meta AI在創(chuàng)建Llama-2-chat模型時(shí)也使用了RLHF技術(shù),不過(guò)與ChatGPT相比還是有些細(xì)微區(qū)別。

簡(jiǎn)單來(lái)說(shuō),Llama-2-chat在第一步RLHF微調(diào)上使用相同的指令數(shù)據(jù),但在第二步使用了兩個(gè)獎(jiǎng)勵(lì)模型;通過(guò)多個(gè)階段的不斷進(jìn)化,獎(jiǎng)勵(lì)模型也會(huì)根據(jù)Llama-2-chat模型出現(xiàn)的錯(cuò)誤進(jìn)行更新;并且增加了拒絕采樣(rejection sampling)步驟。

Margin Loss

在標(biāo)準(zhǔn)InstructGPT中使用的RLHF PPO方法,研究人員需要收集同一個(gè)提示下的4-9個(gè)模型輸出并進(jìn)行排序,比如四個(gè)回復(fù)的排序結(jié)果為A

Llama 2的數(shù)據(jù)集也采用類(lèi)似的方式,不過(guò)標(biāo)注人員每次只能看到兩個(gè)(而非4-9個(gè))回復(fù)并進(jìn)行對(duì)比,但新增了一個(gè)邊際(margin)標(biāo)簽,對(duì)比結(jié)果可以為「顯著更好」(significantly better)和「好的不明顯」(negligibly better)。

在排序訓(xùn)練時(shí)中,Llama 2相比InstructGPT增加了邊際損失:

其中,rθ(x,y)是提示x和生成的回復(fù)y的標(biāo)量分?jǐn)?shù)輸出; θ為模型權(quán)重; σ是將層輸出轉(zhuǎn)換為范圍從0到1的分?jǐn)?shù)的邏輯S形函數(shù); yc是由標(biāo)注人員選擇的更優(yōu)回復(fù); yr是較差的回復(fù)。

m(r)可以調(diào)節(jié)兩個(gè)回復(fù)之間的差值,如果對(duì)比結(jié)果為「顯著更好」,則會(huì)增加梯度值,加快更新速度。

兩種獎(jiǎng)勵(lì)模式

Llama 2中的兩個(gè)獎(jiǎng)勵(lì)模型分別側(cè)重「有用性」(helpfulness)和「安全性」(safety),用于模型優(yōu)化的最終獎(jiǎng)勵(lì)函數(shù)會(huì)將兩個(gè)分?jǐn)?shù)進(jìn)行線性組合。

拒絕采樣(Rejection sampling)

Llama 2的作者使用了一個(gè)訓(xùn)練流水線,同時(shí)使用PPO和拒絕采樣算法,迭代地產(chǎn)生多個(gè)RLHF模型(從RLHF-V1到RLHF-V5),模型在拒絕采樣時(shí)會(huì)得到K個(gè)輸出,在每次優(yōu)化迭代時(shí)選擇具有最高獎(jiǎng)勵(lì)的輸出用于梯度更新,而PPO每次只基于單樣本進(jìn)行更新。

從實(shí)驗(yàn)結(jié)果來(lái)看,RLHF微調(diào)模型在無(wú)害性和有用性上都得到了改善,并且在最后階段RLHF-v5使用PPO算法的性能最好。

RLHF的替代方案

可以看到,RLHF是一個(gè)相當(dāng)復(fù)雜的過(guò)程,如此精心的設(shè)計(jì)是否值得?

雖然InstructGPT和Llama 2論文實(shí)驗(yàn)結(jié)果中證實(shí)了RLHF帶來(lái)的性能提升,但也有相關(guān)工作在關(guān)注開(kāi)發(fā)更有效的替代品:

1. 憲政AI:人工智能反饋的無(wú)害性

研究人員提出了一種基于人類(lèi)提供的規(guī)則列表的自我訓(xùn)練機(jī)制,也使用了強(qiáng)化學(xué)習(xí)的方法。

論文標(biāo)題:Constitutional AI: Harmlessness from AI Feedback

論文鏈接:https://arxiv.org/abs/2212.08073

發(fā)表日期:2022年12月

上圖中的「紅隊(duì)」(Red Team)指的是測(cè)試目標(biāo)系統(tǒng)的防御能力,即外部或內(nèi)部專(zhuān)家模擬潛在對(duì)手的過(guò)程,通過(guò)模仿現(xiàn)實(shí)世界攻擊者的戰(zhàn)術(shù)、技術(shù)和程序來(lái)挑戰(zhàn)、測(cè)試并最終改進(jìn)系統(tǒng)。

2. 后見(jiàn)之明的智慧

研究人員提出了一種基于重新標(biāo)注的有監(jiān)督方法HIR用于微調(diào),在12個(gè)BigBench任務(wù)上都優(yōu)于RLHF算法。

論文標(biāo)題:The Wisdom of Hindsight Makes Language Models Better Instruction Followers

論文鏈接:https://arxiv.org/abs/2302.05206

發(fā)表時(shí)間:2023年2月

HIR方法包括兩個(gè)步驟,采樣和訓(xùn)練:在采樣時(shí),提示和指令被饋送到LLM以收集回復(fù),并基于對(duì)齊分?jǐn)?shù),在訓(xùn)練階段適當(dāng)?shù)牡胤街匦聵?biāo)注指令;然后使用新指令和原始提示用于微調(diào)LLM。

重新標(biāo)注可以有效地將失敗案例(LLM創(chuàng)建的輸出與原始指令不匹配的情況)轉(zhuǎn)化為有用的訓(xùn)練數(shù)據(jù)以用于監(jiān)督學(xué)習(xí)。

3. 直接偏好優(yōu)化

直接偏好優(yōu)化(DPO)是使用PPO的RLHF的替代方案,實(shí)驗(yàn)結(jié)果顯示,用于擬合RLHF中的獎(jiǎng)勵(lì)模型的交叉熵?fù)p失可以直接用于微調(diào)LLM,并且DPO更有效,在回復(fù)生成質(zhì)量方面通常也優(yōu)于RLHF/PPO

論文標(biāo)題:Direct Preference Optimization: Your Language Model is Secretly a Reward Model

論文鏈接:https://arxiv.org/abs/2305.18290

發(fā)表日期:2023年5月

4. 強(qiáng)化自訓(xùn)練(ReST)

ReST是RLHF的替代方案,可以將LLM與人類(lèi)偏好對(duì)齊,其使用采樣方法來(lái)創(chuàng)建一個(gè)改進(jìn)的數(shù)據(jù)集,在質(zhì)量越來(lái)越高的子集上迭代訓(xùn)練,以完善其獎(jiǎng)勵(lì)函數(shù)。

論文標(biāo)題:Reinforced Self-Training (ReST) for Language Modeling

論文鏈接:https://arxiv.org/abs/2308.08998

發(fā)表日期:2023年8月

根據(jù)作者的說(shuō)法,ReST通過(guò)離線生成其訓(xùn)練數(shù)據(jù)集,與標(biāo)準(zhǔn)在線RLHF方法(PPO)相比,實(shí)現(xiàn)了更高的效率,但缺少與InstructGPT或Llama 2中使用的標(biāo)準(zhǔn)RLHF PPO方法的全面比較。

5. 基于人工智能反饋的強(qiáng)化學(xué)習(xí)

基于人工智能反饋的強(qiáng)化學(xué)習(xí)(RLAIF)的研究表明,RLHF中獎(jiǎng)勵(lì)模型訓(xùn)練的評(píng)級(jí)不一定必須由人類(lèi)提供,也可以由LLM生成(如PaLM 2)。

論文標(biāo)題:RLAIF:Scaling Reinforcement Learning from Human Feedback with AI Feedback

論文鏈接:https://arxiv.org/abs/2309.00267

發(fā)表日期:2023年9月

標(biāo)注人員在一半的案例中更喜歡RLAIF模型,也就意味著兩個(gè)模型的差距并不大,并且RLHF和RLAIF都大大優(yōu)于純粹通過(guò)監(jiān)督指令微調(diào)訓(xùn)練的模型。

這項(xiàng)研究的結(jié)果是非常有用的,基本上意味著我們可以更容易獲得RLHF的訓(xùn)練數(shù)據(jù),不過(guò)RLAIF模型如何在定性研究中表現(xiàn)還有待觀察,這項(xiàng)研究側(cè)重于信息內(nèi)容的安全性和真實(shí)性,只是對(duì)人類(lèi)偏好研究的部分捕獲。

但這些替代方案在實(shí)踐中是否有價(jià)值還有待觀察,因?yàn)槟壳斑沒(méi)有哪個(gè)模型可以不用RLHF的情況下,取得與Llama 2和Code Llama相近的性能。

參考資料:

https://magazine.sebastianraschka.com/p/llm-training-rlhf-and-its-alternatives

贊助本站

人工智能實(shí)驗(yàn)室
相關(guān)內(nèi)容
AiLab云推薦
推薦內(nèi)容
展開(kāi)

熱門(mén)欄目HotCates

Copyright © 2010-2024 AiLab Team. 人工智能實(shí)驗(yàn)室 版權(quán)所有    關(guān)于我們 | 聯(lián)系我們 | 廣告服務(wù) | 公司動(dòng)態(tài) | 免責(zé)聲明 | 隱私條款 | 工作機(jī)會(huì) | 展會(huì)港