欧美黑人粗大猛烈18P,性欧美一级毛片在线播放

字節(jié)“開盒”O(jiān)penAI所有大模型，揭秘GPT-3到GPT-4進(jìn)化路徑

來源：互聯(lián)網(wǎng) 發(fā)布日期：2023-11-05 09:01:15 瀏覽：7709次

導(dǎo)讀：豐色克雷西發(fā)自凹非寺量子位 | 公眾號(hào) QbitAI GPT-3究竟是如何進(jìn)化到GPT-4的？字節(jié)給OpenAI所有大模型來了個(gè) 開盒操作。結(jié)果還真摸清了GPT-4進(jìn)化路上一些關(guān)鍵技術(shù) 的具體作用和影響。比如： SFT是早期GPT進(jìn)化的推動(dòng)者幫助GPT提升編碼能力的最大功...

豐色克雷西發(fā)自凹非寺

量子位 | 公眾號(hào) QbitAI

GPT-3究竟是如何進(jìn)化到GPT-4的？

字節(jié)給OpenAI所有大模型來了個(gè)“開盒”操作。

結(jié)果還真摸清了GPT-4進(jìn)化路上一些關(guān)鍵技術(shù)的具體作用和影響。

比如：

SFT是早期GPT進(jìn)化的推動(dòng)者

幫助GPT提升編碼能力的最大功臣是SFT和RLHF

在預(yù)訓(xùn)練中加入代碼數(shù)據(jù)則提升了后續(xù)GPT版本的各方面能力，尤其是推理……

創(chuàng)業(yè)后忙得不可開交的AI大牛李沐看完，也久違地出現(xiàn)在公眾視野，并給這項(xiàng)研究點(diǎn)了個(gè)贊。

網(wǎng)友們更是盛贊：

這是迄今為止第一個(gè)充分開盒OpenAI所有模型的工作，respect。

而除了一些新發(fā)現(xiàn)，它還坐實(shí)了一些已有猜想：

比如GPT-4在變笨并非危言聳聽，這項(xiàng)評(píng)測(cè)發(fā)現(xiàn)GPT進(jìn)化路上出現(xiàn)了明顯的“蹺蹺板現(xiàn)象”，即模型進(jìn)化過程中一部分能力提升另一部分下降。

這和網(wǎng)友此前的感受不謀而合。

如作者本人表示：

這項(xiàng)工作可以為GPT-3到GPT-4的演化路徑提供寶貴的見解。

言外之意，通過它我們可以一窺GPT模型的“成功之道”，為接下來的大模型構(gòu)建工作提供有效經(jīng)驗(yàn)。

那么，具體它都“開”出了哪些東西，我們扒開論文來看。

探秘GPT-3到GPT-4進(jìn)化之路

最開頭的進(jìn)化圖由作者們根據(jù)公開信息總結(jié)得出。

可以看到，它標(biāo)注了每一個(gè)中間模型是經(jīng)過哪些技術(shù)（如代碼微調(diào)、SFT/FeedME等）一路從最初的GPT-3進(jìn)化到3.5再到如今的4。

這些技術(shù)具體起到了多大影響，從davinci到gpt-4-0613，字節(jié)對(duì)每代GPT的數(shù)學(xué)、編碼、推理等7大能力全部測(cè)了個(gè)“底朝天”。

1. SFT：早期GPT進(jìn)化的推動(dòng)者

首先，在GPT-3系列中，最初的davinci(GPT-3)通過監(jiān)督微調(diào)SFT和其變體FeedME進(jìn)化為了text-davinci-001。

這讓后者在幾乎全部任務(wù)上都獲得了性能提升：

更直觀的表現(xiàn)如下圖所示（“粉圈”為進(jìn)化后的text-davinci-001）。

接著，GPT開始進(jìn)入3.5系列，在該系列早期階段，先是最基礎(chǔ)的code-davinci002采用同樣的技術(shù)進(jìn)化成text-davinci-002。

然而這一進(jìn)化操作的效果屬實(shí)不大，GPT的各項(xiàng)性能只有少數(shù)幾個(gè)提升，更多是不增反減的。

在此，作者引出他們的第一個(gè)結(jié)論，即：

SFT只在較弱的基礎(chǔ)模型上管用，用在更強(qiáng)的模型上收效甚微。

類似現(xiàn)象在開源模型身上也可見（這個(gè)評(píng)測(cè)還測(cè)了Llama1和2、PaLM2-L、Claude 2等模型）：

在初代Llama-65B之上，SFT成功提升了它在MMLU基準(zhǔn)上的性能，但是，所有使用了SFT改進(jìn)的Llama2-70B在Open LLM Leaderboard榜單上卻只表現(xiàn)出微小的進(jìn)步。

總結(jié)：在GPT3階段，SFT技術(shù)對(duì)模型的進(jìn)化起到了關(guān)鍵作用。

2、RLHF和SFT：編碼能力提升的功臣

順著GPT3.5系列接著看，從text-davinci-002開始，OpenAI開始引入新技術(shù)基于PPO算法的RLHF，得到text-davinci-003。

此時(shí)，它在大部分基準(zhǔn)上的表現(xiàn)和前代模型持平或略變差，說明作用不是特別明顯（在開源模型身上也是如此）。

但有一個(gè)除外：編碼任務(wù)，最高足足增加了近30分。

聯(lián)想到前面code-davinci002采用SFT技進(jìn)化成text-davinci-002造成整體性能下降時(shí)，編碼任務(wù)也沒受影響，反而還漲分了

作者決定驗(yàn)證SFT和RLHF對(duì)大模型編碼能力的影響。

在此，他們測(cè)量了幾代GPT模型的pass@1（采樣1次通過的概率）、pass@100（采樣100次通過的概率）等分?jǐn)?shù)。

結(jié)果是與基礎(chǔ)模型相比，使用了SFT和RLHF技術(shù)的模型在pass@1上出現(xiàn)了大幅提升，而在pass@100上略有下降。

這說明啥呢？

作者解釋：

pass@100刻畫的是模型內(nèi)在coding能力，而pass@1代表的是模型一遍過、bug-free的coding能力。

pass@100小幅下降表明SFT和RLHF在編碼任務(wù)上和其它任務(wù)一樣，仍然有所謂的對(duì)齊稅（alignment tax）。

不過，SFT和RLHF能夠?qū)ass@100的能力學(xué)到pass@1上，即把內(nèi)在能力（但需要很多次嘗試）轉(zhuǎn)化到一遍過、bug-free的coding能力，致使pass@1大幅提升。

而再仔細(xì)看結(jié)果，可以發(fā)現(xiàn)gpt-3.5-turbo-0301通過SFT和RLHF，大幅提升了pass@1，這對(duì)于小模型的性能優(yōu)化是個(gè)好消息。

這還沒完，鑒于作者之前觀察到GPT-4在一些復(fù)雜推理任務(wù)上經(jīng)過多次嘗試才能解決問題。

他們結(jié)合上面的觀察，總結(jié)為：

LLM仍可以通過SFT和RLHF，不斷將內(nèi)在能力（但需要多次嘗試）轉(zhuǎn)化成一次性解決問題的能力，不斷逼近LLM的能力上限。

言外之意，GPT-4還可以更強(qiáng)。

3、代碼加入預(yù)訓(xùn)練，對(duì)推理幫助最大

在GPT4進(jìn)化之路上，還出現(xiàn)了2個(gè)特別的模型：

code-cushman-001(Codex-12B)和code-davinci-002。

前者是OpenAI初次嘗試使用代碼數(shù)據(jù)訓(xùn)練模型，盡管它的規(guī)模較小，但也取得了不錯(cuò)的代碼能力。

后者是GPT3.5的基座模型，它是在GPT3的基礎(chǔ)上使用RLHF+代碼訓(xùn)練的結(jié)果，也就是文本和代碼混合預(yù)訓(xùn)練。

可以看到，它大幅超越GPT-3（不止是編碼能力）、在一些推理任務(wù)上（如BBH）表現(xiàn)甚至可以超過后面的gpt-3.5-turbo-0613。

作者表示：

這表明預(yù)訓(xùn)練加入代碼數(shù)據(jù)可以全面提升LLM的能力，尤其是推理能力。

4、“蹺蹺板”現(xiàn)象

通過比較2023年3月和2023年6月的OpenAI API模型，我們確實(shí)可以發(fā)現(xiàn)這一現(xiàn)象：

與gpt-3.5-turbo-0301相比，升級(jí)后的gpt-3.5-turbo-0613在HumanEval上表現(xiàn)出色（53.9 -> 80.0），但在MATH上卻大幅下降（32.0 -> 15.0）。

gpt-4-0613在DROP上的表現(xiàn)優(yōu)于gpt-4-0314(78.7 -> 87.2)，但在MGSM上也出現(xiàn)了直線下降(82.2 -> 68.7)。

作者認(rèn)為：

“蹺蹺板現(xiàn)象”可能成為L(zhǎng)LM通往AGI之路的絆腳石，因?yàn)锳GI強(qiáng)調(diào)“通用智能”，要在所有task上都有優(yōu)異的性能，要求模型不能“偏科”。

在此，他們也呼吁社區(qū)重視這個(gè)問題，共同推進(jìn)大模型平衡發(fā)展的研究。

幫助大模型從業(yè)者找到方向

以上這些發(fā)現(xiàn)，全部基于GPT-Fathom

字節(jié)最新提出的一個(gè)大模型評(píng)測(cè)工具。

想必大家肯定疑問：

大模型排行榜和評(píng)測(cè)工具已經(jīng)有很多了，為什么還要提出一個(gè)新的方法？

作者介紹，相比已有的測(cè)評(píng)方式，GPT-Fathom尺度更加統(tǒng)一，結(jié)果具有可重現(xiàn)性。

大模型從業(yè)者可以借助它來明確自己與領(lǐng)先模型的差距到底在什么地方，從而有的放矢地完善自己的產(chǎn)品。

具體來看，GPT-Fathom主要是解決了其他大模型評(píng)測(cè)方法的三個(gè)不足：

setting標(biāo)準(zhǔn)不一致：是否使用思維鏈（CoT）、樣本數(shù)量等設(shè)置，以及答案評(píng)價(jià)方法沒有統(tǒng)一標(biāo)準(zhǔn)

模型和任務(wù)收集不完整：測(cè)試關(guān)注的能力不全面，缺乏對(duì)早期模型的關(guān)注

缺乏對(duì)模型敏感性的研究

為了更直觀體現(xiàn)GPT-Fatham的特點(diǎn)，作者對(duì)比了一些具體的現(xiàn)有榜單，可以總結(jié)成下面這個(gè)表格：

其中，對(duì)敏感性的評(píng)測(cè)就發(fā)現(xiàn)了此前的測(cè)試標(biāo)準(zhǔn)沒能找出的問題。

相比于GPT，其他模型對(duì)提示詞的敏感度很高，稍有變化就會(huì)導(dǎo)致輸出截然不同，提示其他模型的魯棒性和GPT之前還存在很大差距。

比如在TriviaQA數(shù)據(jù)集上，提示詞的細(xì)微改變就讓Llama 2-70B的得分下降四分之一，而GPT系列模型則沒有明顯變化。

此外諸如CoT、樣本數(shù)量以及采樣方差等因素也都被包括進(jìn)了敏感性測(cè)試當(dāng)中。

未來，作者計(jì)劃從能力種類、測(cè)試數(shù)據(jù)集和模型三個(gè)維度繼續(xù)擴(kuò)展GPT-Fathom，將支持多輪對(duì)話、多模態(tài)等能力的測(cè)評(píng)，以及增加對(duì)多個(gè)數(shù)據(jù)集和模型的測(cè)試。

GPT-Fatham的兩位共同一作分別是字節(jié)公司應(yīng)用機(jī)器學(xué)習(xí)研究組的研究人員張馭宇（Yuyu Zhang）和實(shí)習(xí)生Shen Zheng。

Shen Zheng是伊利諾伊大學(xué)香檳分校（UIUC）的一名碩士生。

此外，字節(jié)公司的Yijie Zhu等四名研究人員，以及UIUC的Kevin Chen-Chuan Chang教授也參與了這項(xiàng)研究。

論文地址：

https://arxiv.org/abs/2309.16583

參考鏈接：

https://github.com/GPT-Fathom/GPT-Fathom

相關(guān)熱詞： 字節(jié) 開盒 OpenAI 所有大模型揭秘 GPT-3 G

字節(jié)“開盒”O(jiān)penAI所有大模型，揭秘GPT-3到GPT-4進(jìn)化路徑
來源：互聯(lián)網(wǎng) 發(fā)布日期：2023-11-05 09:01:15 瀏覽：7709次

相關(guān)內(nèi)容

AiLab云推薦

最新資訊

本月熱點(diǎn)

熱門排行

推薦內(nèi)容

在線客服

熱門欄目HotCates

關(guān)于我們

版權(quán)聲明

字節(jié)“開盒”O(jiān)penAI所有大模型，揭秘GPT-3到GPT-4進(jìn)化路徑 來源：互聯(lián)網(wǎng) 發(fā)布日期：2023-11-05 09:01:15 瀏覽：7709次