展會(huì)信息港展會(huì)大全

擊敗整個(gè)羊駝家族,Meta AI自對(duì)齊新方法只需極少人工標(biāo)注數(shù)據(jù)
來(lái)源:互聯(lián)網(wǎng)   發(fā)布日期:2023-08-20 13:57:31   瀏覽:14844次  

導(dǎo)讀:西風(fēng) 發(fā)自 凹非寺 量子位 | 公眾號(hào) QbitAI 人工標(biāo)注數(shù)據(jù)告急? Mata新方法僅用少量種子數(shù)據(jù),就構(gòu)建了一個(gè)高質(zhì)量的指令遵循( instruction following)語(yǔ)言模型。 換言之,大語(yǔ)言模型需要大量人工標(biāo)注的指令數(shù)據(jù)進(jìn)行微調(diào),而現(xiàn)在模型可自動(dòng)從網(wǎng)絡(luò)語(yǔ)料庫(kù)未標(biāo)...

西風(fēng) 發(fā)自 凹非寺

量子位 | 公眾號(hào) QbitAI

人工標(biāo)注數(shù)據(jù)告急?

Mata新方法僅用少量種子數(shù)據(jù),就構(gòu)建了一個(gè)高質(zhì)量的指令遵循( instruction following)語(yǔ)言模型。

換言之,大語(yǔ)言模型需要大量人工標(biāo)注的指令數(shù)據(jù)進(jìn)行微調(diào),而現(xiàn)在模型可自動(dòng)從網(wǎng)絡(luò)語(yǔ)料庫(kù)未標(biāo)記的文本中推理出指令。

然后用自己生成的指令數(shù)據(jù)進(jìn)行訓(xùn)練,堪比自產(chǎn)自銷。

并且用這種方法訓(xùn)練出的模型在Alpaca基準(zhǔn)測(cè)試上,超越開源羊駝及其一系列衍生模型

LeCun發(fā)推認(rèn)為該研究在模型自對(duì)齊方面具有轟動(dòng)性:

用網(wǎng)友的一句話總結(jié):羊駝開始自我訓(xùn)練了。

兩句話總結(jié)是這樣?jì)饍旱模?/p>

原本需要指令>響應(yīng)數(shù)據(jù)集(需要人工標(biāo)注),現(xiàn)在只需要簡(jiǎn)單訓(xùn)練一個(gè)“反向模型”做響應(yīng)>指令。任何文本可隨意轉(zhuǎn)換為指令數(shù)據(jù)集。

還有網(wǎng)友發(fā)出靈魂拷問(wèn):

是只有我一個(gè)人,覺得這看起來(lái)像是通往超級(jí)智能的道路?如果你不需要額外的高質(zhì)量外部數(shù)據(jù),就能獲得越來(lái)越智能的LLM,那么這就是一個(gè)自我改進(jìn)的封閉系統(tǒng)。

也許只需要一種強(qiáng)化學(xué)習(xí)系統(tǒng)來(lái)提供信號(hào),然后LLM自身的迭代就可以完成其余的工作。

羊駝:我自己搞數(shù)據(jù)訓(xùn)練了一頭鯨

這種可擴(kuò)展的新方法叫做指令回譯,Mata為用這種方法訓(xùn)練出的模型起了個(gè)名字Humpback(座頭鯨,又稱駝背鯨)。

(研究人員表示,之所以起這么個(gè)名字,是因?yàn)樗婉橊劚车年P(guān)系,而且鯨魚體型更大,對(duì)應(yīng)模型規(guī)模更大)

訓(xùn)練一個(gè)Humpback的步驟簡(jiǎn)單來(lái)說(shuō)就是,從少量標(biāo)注數(shù)據(jù)開始,使用語(yǔ)言模型生成未標(biāo)注文本所對(duì)應(yīng)的指令,形成候選訓(xùn)練數(shù)據(jù)。再用模型評(píng)估數(shù)據(jù)質(zhì)量,選擇高質(zhì)量數(shù)據(jù)進(jìn)行再訓(xùn)練。然后重復(fù)該過(guò)程,進(jìn)一步改進(jìn)模型。

如上圖所示,需要準(zhǔn)備的“材料”有:

一個(gè)基礎(chǔ)模型LLaMa

一個(gè)由Open Assistant數(shù)據(jù)集中的3200個(gè)示例構(gòu)成的種子數(shù)據(jù)(Seed Data),每個(gè)示例包括一個(gè)指令和對(duì)應(yīng)的輸出。

從ClueWeb語(yǔ)料中抽取了502K段已去重、過(guò)濾、刪除了潛在低質(zhì)量段落的未標(biāo)注文本(Unlabeled Data)。

標(biāo)注示例和語(yǔ)料來(lái)源都有了,下一步就是自增強(qiáng)(Self-augment)階段。

研究人員用種子數(shù)據(jù)對(duì)基礎(chǔ)模型LLaMa進(jìn)行了微調(diào),獲得指令預(yù)測(cè)模型。然后用這個(gè)指令預(yù)測(cè)模型,為未標(biāo)注文本推理出一個(gè)候選指令。之后組合候選指令與文本(指令-輸出對(duì)),作為候選增強(qiáng)訓(xùn)練數(shù)據(jù),也就是上圖中的Augmented Data A。

但還不能用A的數(shù)據(jù)直接訓(xùn)練,因?yàn)槲礃?biāo)注文本本身質(zhì)量參差不齊,生成的候選指令也存在噪聲。

所以需要關(guān)鍵的自管理(Self-curate)步驟,使用模型預(yù)測(cè)數(shù)據(jù)質(zhì)量,選擇高質(zhì)量樣本進(jìn)行訓(xùn)練。

具體來(lái)說(shuō),研究人員使用僅在種子數(shù)據(jù)上微調(diào)的指令模型對(duì)候選數(shù)據(jù)打分。滿分五分,分?jǐn)?shù)較高的才會(huì)被挑選出來(lái)作為下一輪的候選數(shù)據(jù)。

為了提高模型指令預(yù)測(cè)質(zhì)量,研究人員用候選數(shù)據(jù)迭代訓(xùn)練了模型,在迭代訓(xùn)練中,數(shù)據(jù)質(zhì)量也會(huì)越來(lái)越好。

此外,在組合種子數(shù)據(jù)和增強(qiáng)數(shù)據(jù)微調(diào)模型時(shí),他們還使用不同的系統(tǒng)提示標(biāo)記區(qū)分了這兩個(gè)數(shù)據(jù)源:

種子數(shù)據(jù)使用提示“Answer in the style of an AI Assistant.”

篩選數(shù)據(jù)使用提示“Answer with knowledge from web search.”

進(jìn)行兩輪迭代后,最終模型就新鮮出爐啦。

合并兩種訓(xùn)練數(shù)據(jù):1+1>2

下面再來(lái)看看研究人員的分析結(jié)果:

△種子數(shù)據(jù)和增強(qiáng)數(shù)據(jù)的指令多樣性。內(nèi)圈是常見的根動(dòng)詞,外圈是與其對(duì)應(yīng)的常見名詞。

上圖是用8%種子數(shù)據(jù)和13%的增強(qiáng)數(shù)據(jù)統(tǒng)計(jì)的指令多樣性。

可以很直觀地看到,在長(zhǎng)尾部分增強(qiáng)數(shù)據(jù)多樣性更強(qiáng),且增強(qiáng)數(shù)據(jù)與現(xiàn)有的人工標(biāo)注種子數(shù)據(jù)相輔相成,補(bǔ)充了種子數(shù)據(jù)中未出現(xiàn)的類型。

其次,研究人員比較了三個(gè)增強(qiáng)數(shù)據(jù)集:

實(shí)驗(yàn)觀察到,盡管數(shù)據(jù)集變小,但伴隨著訓(xùn)練數(shù)據(jù)質(zhì)量的提升模型性能也有了很好的提升。

△使用自篩選評(píng)估不同數(shù)據(jù)大小和質(zhì)量的自增強(qiáng)數(shù)據(jù)。y軸表示在使用給定數(shù)據(jù)大小和質(zhì)量微調(diào)LLaMa 7B時(shí)與text-davinci-003的勝率。

(text-davinci-003,一種基于GPT-3的指令遵循模型,使用強(qiáng)化學(xué)習(xí)在人類編寫的指令數(shù)據(jù)、輸出、模型響應(yīng)和人類偏好上進(jìn)行了微調(diào))

最后來(lái)看一下Alpaca排行榜上的結(jié)果。Humpback在不依賴蒸餾數(shù)據(jù)的情況下,表現(xiàn)明顯優(yōu)于其它方法,并且縮小了與專有模型之間的差距。

非蒸餾(Non-distilled),指不依賴于任何外部模型作為任何形式監(jiān)督的訓(xùn)練模型;蒸餾(Distilled),指在訓(xùn)練過(guò)程中引入更強(qiáng)大的外部模型,例如使用從外部模型蒸餾的數(shù)據(jù);專有(Proprietary),指使用專有數(shù)據(jù)和技術(shù)進(jìn)行訓(xùn)練的模型。

△相對(duì)于text-davinci-003的勝率

在與開源模型LIMA 65B、Guanaco 65B、Falcon-Instruct 40B和專有模型davinci-003、Claude的比較中,Humpback的表現(xiàn)也都更符合人類偏好。

此外,研究人員還指出了該方法的局限性:

由于用于訓(xùn)練的文本數(shù)據(jù)來(lái)自網(wǎng)絡(luò)語(yǔ)料庫(kù),微調(diào)后的模型可能會(huì)放大網(wǎng)絡(luò)數(shù)據(jù)的偏差。雖然和基礎(chǔ)模型相比,微調(diào)后的模型提高了檢測(cè)偏差的準(zhǔn)確性。然而,這并不意味著會(huì)完全解決這個(gè)問(wèn)題。

贊助本站

人工智能實(shí)驗(yàn)室
相關(guān)內(nèi)容
AiLab云推薦
推薦內(nèi)容
展開

熱門欄目HotCates

Copyright © 2010-2024 AiLab Team. 人工智能實(shí)驗(yàn)室 版權(quán)所有    關(guān)于我們 | 聯(lián)系我們 | 廣告服務(wù) | 公司動(dòng)態(tài) | 免責(zé)聲明 | 隱私條款 | 工作機(jī)會(huì) | 展會(huì)港