展會(huì)信息港展會(huì)大全

百川智能上新超千億大模型Baichuan3:若干中文任務(wù)超車GPT-4
來源:互聯(lián)網(wǎng)   發(fā)布日期:2024-01-29 16:05:49   瀏覽:3534次  

導(dǎo)讀:衡宇 發(fā)自 凹非寺 量子位 | 公眾號(hào) QbitAI 走月更路線的百川智能,在年前猛地加速,變成了半月更: 發(fā)布了 超千億參數(shù) 的最新版本大模型 Baichuan 3 ,是百川智能基礎(chǔ)模型第三代就在20天前,這家由王小川創(chuàng)辦的大模型公司,剛剛發(fā)布過角色大模型Baichuan-NPC...

衡宇 發(fā)自 凹非寺

量子位 | 公眾號(hào) QbitAI

走月更路線的百川智能,在年前猛地加速,變成了半月更:

發(fā)布了超千億參數(shù)的最新版本大模型Baichuan 3,是百川智能基礎(chǔ)模型第三代就在20天前,這家由王小川創(chuàng)辦的大模型公司,剛剛發(fā)布過角色大模型Baichuan-NPC。

更具標(biāo)志性的是,百川智能這次模型更新,重點(diǎn)展示了模型在醫(yī)療場(chǎng)景的能力。

這既是商用落地的方向性揭示,還是王小川一直以來的技術(shù)健康理想,更在客觀上表明了領(lǐng)先性,因?yàn)獒t(yī)療領(lǐng)域,也被業(yè)內(nèi)類比為“大語言模型皇冠上的明珠”。

大模型落地醫(yī)療領(lǐng)域,既需要豐富的醫(yī)療知識(shí)、合適的Prompt,還需要模型本身的推理能力過硬。

當(dāng)然,醫(yī)療能力都秀了,更何況文學(xué)創(chuàng)作。Baichuan 3也秀了一把文學(xué)創(chuàng)作的能力,據(jù)說背后是在強(qiáng)化學(xué)習(xí)方面狠狠下了一番功夫。

具體怎么樣?一起前排來康康。

Baichuan 3的能力怎么樣?

Baichuan 3是百川智能發(fā)布的基礎(chǔ)模型第三代版本,對(duì)比9月推出的Baichuan 2,各方面性能有了大幅提升。

話不多說,來看看Baichuan 3的測(cè)試成績(jī)。

首先是對(duì)基礎(chǔ)榜單的一系列刷新。

包括MMLU、CMMLU、GAOKAO、AGI-Eval、ARC等業(yè)內(nèi)榜單,都成了百川智能秀新肌肉的背景板。

在MMLU測(cè)試集上,Baichuan 3最終成績(jī)?yōu)?1.69,達(dá)到GPT-4 94.55%的水平。而在CMMLU和GAOKAO這兩個(gè)中文任務(wù)評(píng)測(cè)中,Baichuan 3甚至超越了GPT-4。

可以看到除ARC-Easy(含3年級(jí)到9年級(jí)科學(xué)考試內(nèi)容的多選題問答數(shù)據(jù)集)以外,Baichuan 3在各個(gè)主流榜單上的能力都大幅超越GPT-3.5,達(dá)到接近GPT-4的水平。

一般來說,千億參數(shù)以上大模型通常還會(huì)“闖關(guān)”數(shù)學(xué)和編程能力,以展現(xiàn)自身的深層次邏輯思考能力和問題解決技能。

Baichuan 3在這方面也表現(xiàn)出眾。

可以看到,評(píng)測(cè)數(shù)學(xué)能力的GSM8K和MATH上,Baichuan 3均達(dá)到了GPT-4九成以上的能力;而HumanEval和MBPP這類鑒別編程能力的評(píng)測(cè)集,Baichuan 3的表現(xiàn)超過了GPT-4。

至于對(duì)齊能力方面,Baichuan 3在MT-Bench和IFEval評(píng)測(cè)中,僅低于GPT-4。

其中,MT-Bench(Multi-turn Benchmark)專門評(píng)估大模型多輪對(duì)話任務(wù)表現(xiàn),由80個(gè)多輪對(duì)話問題組成,涵蓋了寫作、角色扮演、推理、數(shù)學(xué)、編碼、知識(shí)(STEM)和人文社會(huì)科學(xué)等多個(gè)領(lǐng)域。

而IFEval(Instruction-Following Eval)則專注評(píng)估大模型遵循指令的能力,包含關(guān)鍵詞檢測(cè)、標(biāo)點(diǎn)控制、輸出格式要求等25種任務(wù)。

開篇我們提到,百川智能的這一代超千億大模型,開始嘗試挑戰(zhàn)醫(yī)療場(chǎng)景。

看看其在醫(yī)療相關(guān)評(píng)測(cè)任務(wù)中取得的結(jié)果,也確實(shí)拿得出手:中文相關(guān)評(píng)測(cè)任務(wù)超過GPT-4水準(zhǔn),英文相關(guān)評(píng)測(cè)任務(wù)中,也大大縮短了與SOTA的距離。

為了防止官方進(jìn)行“Cherry-Pick”(從大量數(shù)據(jù)集中精選出符合某特定標(biāo)準(zhǔn)的某些部分或個(gè)體),我們?cè)隗w驗(yàn)過程中,隨機(jī)驗(yàn)證了一道醫(yī)療問診題目:

Fine,淺試了一下,專業(yè)度可以。

再來看Baichuan 3頗引以為傲的文學(xué)創(chuàng)作能力,在極高難度的唐詩宋詞創(chuàng)作方面,Baichuan 3對(duì)唐詩宋詞的語義理解和生成能力大幅提升。

那就丟它一個(gè)“命題作文”,試試寫首詞,主題是奧特曼在OpenAI的《甄傳》事件,詞牌名就訊定風(fēng)波》。

笑不活了,Baichuan 3反饋回來的作品居然還是雙語的,句式、對(duì)仗完全OK:

同樣的題目,丟給ChatGPT試試?

它懂了咱要它寫詞,但沒完全懂。大概ChatGPT還沒學(xué)明白“定風(fēng)波”不是整個(gè)事件的定論,是句式、聲韻、對(duì)仗有特別規(guī)律的詞牌名。

后來又試了試別的,發(fā)現(xiàn)不是Baichuan 3運(yùn)氣好,這家伙應(yīng)該是真的懂詞牌名。

來看這首《滿江紅》:

后來的測(cè)試過程,我們又蹭了蹭農(nóng)歷新年的熱度,順便在文學(xué)創(chuàng)作能力的基礎(chǔ)上,加點(diǎn)多輪對(duì)話的能力。

結(jié)果ChatGPT還是出現(xiàn)了“不懂詞為何物”的bug。

至于詞的內(nèi)容怎么樣,要是有愛好文學(xué)的小伙伴,可以在評(píng)論區(qū)分別品鑒一下:

百川智能新模型解析

從各項(xiàng)數(shù)據(jù)和具體效果來看,Baichuan 3已經(jīng)完成了全方位升級(jí),在中文能力有超越GPT的表現(xiàn)。

它是如何做到的?技術(shù)上做了哪些創(chuàng)新和迭代?

關(guān)于Baichuan 3,百川方面并未公布模型具體參數(shù),但明確表示了參數(shù)量超千億。

也就是說,整體來看,百川智能的路線和OpenAI的路線一致,即業(yè)內(nèi)認(rèn)可的暴力美學(xué),參數(shù)出涌現(xiàn)。

然而眾所周知的是,即使有百億甚至幾百億級(jí)別模型的訓(xùn)練基礎(chǔ),對(duì)此前的“小”大模型,千億參數(shù)大模型的訓(xùn)練也會(huì)面臨不少新的問題。

比如數(shù)據(jù)制備、參數(shù)矩陣初始化方法的選擇、優(yōu)化方法選擇,或者是讓人頭疼不已的梯度爆炸、Loss跑飛、模型不收斂等。

百川智能的解決策略,從訓(xùn)練初期就開始切入。

首先,針對(duì)超千億大模訓(xùn)練初期模型不穩(wěn)定性增強(qiáng)的情況,百川智能提出了一個(gè)漸進(jìn)式初始化方法,叫“重要度保持”(Salience-Consistency)。

訓(xùn)練過程中,團(tuán)隊(duì)還通過細(xì)粒度監(jiān)控、“異步CheckPoint存儲(chǔ)”機(jī)制等措施,保證Baichuan 3的穩(wěn)定訓(xùn)練至少在一個(gè)月之上。

如果臨時(shí)出了問題,也能在10分鐘內(nèi)完成故障修復(fù)。

其次,Baichuan 3對(duì)訓(xùn)練框架進(jìn)行了優(yōu)化,實(shí)現(xiàn)了減少同步開銷、減少通信延時(shí)、減少流水并行分段數(shù)量,并且降低了空泡率。

第三,為了提高模型最后的收斂效果,訓(xùn)練過程中,百川智能團(tuán)隊(duì)不僅監(jiān)控梯度、loss等指標(biāo),還引入了參數(shù)“有效秩”,保證盡快發(fā)現(xiàn)訓(xùn)練過程出現(xiàn)的問題。

話到這里就多提兩句,千億模型的訓(xùn)練,動(dòng)輒要幾千卡訓(xùn)練N個(gè)月,因此訓(xùn)練過程的監(jiān)控需要格外重視。

據(jù)團(tuán)隊(duì)介紹,為了確保訓(xùn)練的超大模型遵循“Scaling Law”,百川智能依靠小模型以及訓(xùn)練的不同F(xiàn)LOPS時(shí)期對(duì)大模型的Loss進(jìn)行預(yù)測(cè)。

實(shí)驗(yàn)表明,大模型完美復(fù)刻了團(tuán)隊(duì)預(yù)期的loss。

再者說,百川智能在數(shù)據(jù)的優(yōu)化和采樣方面也有所創(chuàng)新。

團(tuán)隊(duì)提出了一套基于因果采樣的方法在模型訓(xùn)練過程中動(dòng)態(tài)地選擇訓(xùn)練數(shù)據(jù)的方案。

詳細(xì)流程如下圖所示:

也就是說,訓(xùn)練千億模型時(shí)在穩(wěn)定性、收斂性、并行方式等多個(gè)層面可能面臨的問題,Baichuan 3逐個(gè)擊破,進(jìn)行優(yōu)化,這才有了評(píng)測(cè)集上的亮眼成績(jī)。

至于Baichuan 3能在中文醫(yī)療場(chǎng)景的表現(xiàn)能超過GPT,秘方也被我們打聽了個(gè)底朝天。

得到的答案是,大模型在醫(yī)療領(lǐng)域落地,需要具備三方面的能力:

第一點(diǎn),模型需要具備足夠的醫(yī)療領(lǐng)域知識(shí);

第二點(diǎn),模型需要具備很強(qiáng)的邏輯推理能力;

第三點(diǎn),需要精心調(diào)教合適的Prompt,讓模型能夠激發(fā)出相關(guān)的知識(shí)、結(jié)合合適的推理。

用一句話概括,就是需要大模型具備足夠的醫(yī)療知識(shí),然后利用自身邏輯能力進(jìn)行癥狀預(yù)測(cè),并結(jié)合Prompt調(diào)優(yōu),作出適當(dāng)取舍,然后完成問診過程。

Baichuan 3能當(dāng)個(gè)不錯(cuò)的中文醫(yī)生,原因在于模型預(yù)訓(xùn)練階段匯集了達(dá)到千億Token的醫(yī)療相關(guān)數(shù)據(jù),同時(shí)構(gòu)建了一個(gè)含數(shù)十萬條記錄的醫(yī)療微調(diào)數(shù)據(jù)集。

同時(shí),為了讓整體模型相關(guān)能力得到更好地激發(fā),百川智能在模型推理階段針對(duì)Prompt做了系統(tǒng)性的研究和調(diào)優(yōu)。

簡(jiǎn)單來說,百川智能在醫(yī)療領(lǐng)域的秘訣=基礎(chǔ)模型能力+準(zhǔn)確描述任務(wù)+恰當(dāng)?shù)氖纠龢颖尽?/strong>

而Baichuan 3能寫唐詩、能仿宋詞,也是有苦功夫在背后,招式主要有三。

一方面,百川智能團(tuán)隊(duì)自研了訓(xùn)練推理雙引擎融合、多模型并行調(diào)度的PPO訓(xùn)練框架,支持千億模型,效率比業(yè)界主流框架提升400%。

又將傳統(tǒng)強(qiáng)化學(xué)習(xí)中的多種穩(wěn)定訓(xùn)練的方法以及超參數(shù)調(diào)優(yōu)的策略引入,實(shí)現(xiàn)連續(xù)穩(wěn)定的Reward提升的訓(xùn)練過程。

另一方面,團(tuán)隊(duì)結(jié)合RLHF與RLAIF,也就是既要人類反饋,也要大模型自己反饋,然后生成高質(zhì)量?jī)?yōu)質(zhì)偏序數(shù)據(jù),平衡數(shù)據(jù)質(zhì)量和數(shù)據(jù)成本。

做到這兩點(diǎn)后,Baichuan 3實(shí)現(xiàn)了迭代式強(qiáng)化學(xué)習(xí)(Iterative RLHF&RLAIF)。

模型通過多次的強(qiáng)化學(xué)習(xí)版本爬坡,大大緩解原先強(qiáng)化學(xué)習(xí)起點(diǎn)模型(SFT后的模型)無法探索到優(yōu)質(zhì)結(jié)果限制效果的問題。

下一站,多模態(tài)和Agent

王小川曾公開表達(dá)過對(duì)大模型開發(fā)的看法,在他眼中,這個(gè)階段離不開算力、財(cái)力和智力的支持。

縱觀目前國內(nèi)外的大模型創(chuàng)業(yè)賽道,百川智能的確是擁有著這三樣硬實(shí)力的玩家。

在這樣的條件基礎(chǔ)上,百川智能從去年4月公開亮相后,一直實(shí)際地向前推進(jìn)。

并且節(jié)奏風(fēng)格非常鮮明:平均每個(gè)月都有一款新模型對(duì)外面世

對(duì)關(guān)注大模型賽道的人來說,每個(gè)月追更一次百川智能的大模型,變成了和翻一頁新的月歷一樣的平常事。

這次還打破自身常規(guī)地突然卷了一把,在新一年的第一個(gè)月尾緊急加更,甩出了Baichuan 3這一超千億版本,驚喜來得猝不及防。

量子位還打探到,多模態(tài)和Agent,是團(tuán)隊(duì)未來會(huì)有更多探索的兩個(gè)方向。

而這應(yīng)該就直接與明牌“超級(jí)應(yīng)用”有關(guān)了。

從成立到現(xiàn)在9個(gè)月的時(shí)間里,百川智能有技術(shù)、有實(shí)力、有答卷、備受期望,毋庸置疑是技術(shù)性的一年。

而或許從現(xiàn)在開始,百川智能將要展現(xiàn)的另一面,就是有產(chǎn)品、有落地、有商用,實(shí)現(xiàn)技術(shù)模型到商用模型的飛輪閉環(huán)。

這或許也是為什么2024年剛開年,就有如此規(guī)模的基座模型迭代亮相。

百川智能要提速,技術(shù)勢(shì)能和產(chǎn)品動(dòng)能要合體了。

贊助本站

人工智能實(shí)驗(yàn)室
相關(guān)內(nèi)容
AiLab云推薦
推薦內(nèi)容

熱門欄目HotCates

Copyright © 2010-2024 AiLab Team. 人工智能實(shí)驗(yàn)室 版權(quán)所有    關(guān)于我們 | 聯(lián)系我們 | 廣告服務(wù) | 公司動(dòng)態(tài) | 免責(zé)聲明 | 隱私條款 | 工作機(jī)會(huì) | 展會(huì)港