无码精品、日韩专区,无码人妻人妻经典视频,天天综合天天做

7B開源數(shù)學(xué)模型干翻千億GPT-4，中國(guó)團(tuán)隊(duì)出品

來源：互聯(lián)網(wǎng) 發(fā)布日期：2024-02-07 18:14:42 瀏覽：8674次

導(dǎo)讀：克雷西發(fā)自凹非寺量子位 | 公眾號(hào) QbitAI 7B開源模型，數(shù)學(xué)能力超過了千億規(guī)模的GPT-4！它的表現(xiàn)可謂是突破了開源模型的極限，連阿里通義的研究員也感嘆縮放定律是不是失效了。無需借助任何外部工具，它就能在競(jìng)賽水平的MATH數(shù)據(jù)集上達(dá)到51.7%的準(zhǔn)確率...

克雷西發(fā)自凹非寺

量子位 | 公眾號(hào) QbitAI

7B開源模型，數(shù)學(xué)能力超過了千億規(guī)模的GPT-4！

它的表現(xiàn)可謂是突破了開源模型的極限，連阿里通義的研究員也感嘆縮放定律是不是失效了。

無需借助任何外部工具，它就能在競(jìng)賽水平的MATH數(shù)據(jù)集上達(dá)到51.7%的準(zhǔn)確率。

在開源模型中，它第一個(gè)在該數(shù)據(jù)集上達(dá)到一半的準(zhǔn)確率，甚至超過了早期和API版本的GPT-4。

這一表現(xiàn)讓整個(gè)開源社區(qū)為之震撼，Stability AI的創(chuàng)始人Emad Mostaque也表示研發(fā)團(tuán)隊(duì)屬實(shí)讓人印象深刻，而且潛力被低估了。

它，就是深度求索團(tuán)隊(duì)最新開源的7B數(shù)學(xué)大模型DeepSeekMath。

7B模型力壓群雄

為了評(píng)估DeepSeekMath的數(shù)學(xué)能力，研究團(tuán)隊(duì)使用了中（MGSM-zh、CMATH）英（GSM8K、MATH）雙語的數(shù)據(jù)集進(jìn)行了測(cè)試。

在未使用輔助工具、僅靠思維鏈（CoT）提示的情況下，DeepSeekMath的表現(xiàn)均超越了其他開源模型，其中包括70B的數(shù)學(xué)大模型MetaMATH。

和自家推出的67B通用大模型相比，DeepSeekMath的成績(jī)也有大幅提升。

如果考慮閉源模型，DeepSeekMath也是在幾個(gè)數(shù)據(jù)集上都超越了Gemini Pro和GPT-3.5，在中文的CMATH上超越了GPT-4，MATH上的表現(xiàn)也與之接近。

但要注意的是，GPT-4按泄露規(guī)格是一個(gè)千億參數(shù)的龐然大物，而DeepSeekMath參數(shù)量只有7B。

如果允許使用工具（Python）進(jìn)行輔助，DeepSeekMath在競(jìng)賽難度（MATH）數(shù)據(jù)集上的表現(xiàn)還能再提高7個(gè)百分點(diǎn)。

那么，DeepSeekMath優(yōu)異表現(xiàn)的背后，都應(yīng)用了哪些技術(shù)呢？

基于代碼模型打造

為了獲得比從通用模型更好的數(shù)學(xué)能力，研究團(tuán)隊(duì)使用了代碼模型DeepSeek-Coder-v1.5對(duì)其進(jìn)行初始化。

因?yàn)閳F(tuán)隊(duì)發(fā)現(xiàn)，無論是在兩階段訓(xùn)練還是一階段訓(xùn)練設(shè)置下，代碼訓(xùn)練相比于通用數(shù)據(jù)訓(xùn)練都可以提升模型的數(shù)學(xué)能力。

在Coder的基礎(chǔ)上，研究團(tuán)隊(duì)繼續(xù)訓(xùn)練了5000億token，數(shù)據(jù)分布如下圖：

訓(xùn)練數(shù)據(jù)方面，DeepSeekMath使用的是從Common Crawl提取的120B高質(zhì)量數(shù)學(xué)網(wǎng)頁數(shù)據(jù)，得到了DeepSeekMath Corpus，總數(shù)據(jù)量是開源數(shù)據(jù)集OpenWebMath的9倍。

數(shù)據(jù)采集過程是迭代式進(jìn)行的，經(jīng)過四次迭代，研究團(tuán)隊(duì)收集了3500多萬個(gè)數(shù)學(xué)網(wǎng)頁，Token數(shù)量達(dá)到了1200億。

為了確保訓(xùn)練數(shù)據(jù)中不包含測(cè)試集的內(nèi)容（因?yàn)镚SM8K、MATH中的內(nèi)容在互聯(lián)網(wǎng)上大量存在），研究團(tuán)隊(duì)還專門進(jìn)行了過濾。

為了驗(yàn)證DeepSeekMath Corpus的數(shù)據(jù)質(zhì)量，研究團(tuán)隊(duì)分別用MathPile等多個(gè)數(shù)據(jù)集訓(xùn)練了1500億token，結(jié)果Corpus在多個(gè)數(shù)學(xué)基準(zhǔn)上效果明顯領(lǐng)先。

對(duì)齊階段，研究團(tuán)隊(duì)首先構(gòu)建了一個(gè)776K樣本的中英文數(shù)學(xué)指導(dǎo)監(jiān)督微調(diào)（SFT）數(shù)據(jù)集，其中包括CoT、PoT和工具集成推理等三種格式。

而在強(qiáng)化學(xué)習(xí)（RL）階段，研究團(tuán)隊(duì)使用了一種名為“基于組的相對(duì)策略優(yōu)化”（Group Relative Policy Optimization ，GRPO）的高效算法。

GRPO是近端策略優(yōu)化（PPO）的一種變體，過程中傳統(tǒng)的價(jià)值函數(shù)被替換為一個(gè)基于組的相對(duì)獎(jiǎng)勵(lì)估計(jì)，可以減少訓(xùn)練過程中的計(jì)算和內(nèi)存需求。

同時(shí)，GRPO通過迭代過程進(jìn)行訓(xùn)練，獎(jiǎng)勵(lì)模型會(huì)根據(jù)策略模型的輸出不斷更新，以確保策略的持續(xù)改進(jìn)。

曾推出首個(gè)國(guó)產(chǎn)開源MoE模型

推出DeepSeekMath的深度求索團(tuán)隊(duì)，是國(guó)內(nèi)開源模型領(lǐng)域的一名“頭部選手”。

此前，該團(tuán)隊(duì)就曾推出過首個(gè)國(guó)產(chǎn)開源MoE模型DeepSeek MoE，它的7B版本以40%的計(jì)算量擊敗了相同規(guī)模的密集模型Llama 2。

作為通用模型，DeepSeek MoE在代碼和數(shù)學(xué)任務(wù)上的表現(xiàn)就已十分亮眼，而且資源消耗非常低。

代碼方面，該團(tuán)隊(duì)推出的DeepSeek-Coder的編程能力在代碼生成、跨文件代碼補(bǔ)全、以及程序解數(shù)學(xué)題等多個(gè)任務(wù)上均超過了同等規(guī)模的開源標(biāo)桿CodeLllama。

同時(shí)，它也擊敗了GPT-3.5-Turbo，成為最接近GPT-4-Turbo的開源代碼模型。

如前文所說，此次推出的DeepSeekMath，也正是在Coder的基礎(chǔ)之上打造的。

而在X上，已經(jīng)有人開始在期待Coder和Math的MoE版本了。

論文地址：

https://arxiv.org/abs/2402.03300

參考鏈接：

[1]https://twitter.com/deepseek_ai/status/1754701472363958581

[2]https://mp.weixin.qq.com/s/CPyKHnBNzJuCn-wZ1wpPoA

7B開源數(shù)學(xué)模型干翻千億GPT-4，中國(guó)團(tuán)隊(duì)出品
來源：互聯(lián)網(wǎng) 發(fā)布日期：2024-02-07 18:14:42 瀏覽：8674次

相關(guān)內(nèi)容

AiLab云推薦

最新資訊

本月熱點(diǎn)

熱門排行

推薦內(nèi)容

在線客服

熱門欄目HotCates

關(guān)于我們

版權(quán)聲明

7B開源數(shù)學(xué)模型干翻千億GPT-4，中國(guó)團(tuán)隊(duì)出品 來源：互聯(lián)網(wǎng) 發(fā)布日期：2024-02-07 18:14:42 瀏覽：8674次