展會(huì)信息港展會(huì)大全

騰訊混元又來(lái)開源,一出手就是最大MoE大模型
來(lái)源:互聯(lián)網(wǎng)   發(fā)布日期:2024-11-06 16:03:31   瀏覽:0次  

導(dǎo)讀:劃重點(diǎn)01騰訊混元團(tuán)隊(duì)發(fā)布最大MoE大模型Hunyuan-Large,擁有389B總參數(shù)和52B激活參數(shù)。02該模型通過(guò)技術(shù)優(yōu)化,適配開源框架的精調(diào)和部署,具有較強(qiáng)的實(shí)用性。03除此之外,騰訊云TI平臺(tái)和高性能應(yīng)用服務(wù)HAI也同步開放接入,為模型的精調(diào)、API調(diào)用及私有化部署提供一站式服務(wù)。04騰訊混元Large在多個(gè)學(xué)科綜合評(píng)測(cè)集以及中英文NLP任務(wù)等方面全面領(lǐng)先,超過(guò)Llama3.1、Mixtral等一流 ......

劃重點(diǎn)

01騰訊混元團(tuán)隊(duì)發(fā)布最大MoE大模型Hunyuan-Large,擁有389B總參數(shù)和52B激活參數(shù)。

02該模型通過(guò)技術(shù)優(yōu)化,適配開源框架的精調(diào)和部署,具有較強(qiáng)的實(shí)用性。

03除此之外,騰訊云TI平臺(tái)和高性能應(yīng)用服務(wù)HAI也同步開放接入,為模型的精調(diào)、API調(diào)用及私有化部署提供一站式服務(wù)。

04騰訊混元Large在多個(gè)學(xué)科綜合評(píng)測(cè)集以及中英文NLP任務(wù)等方面全面領(lǐng)先,超過(guò)Llama3.1、Mixtral等一流的開源大模型。

以上內(nèi)容由大模型生成,僅供參考

AIxiv專欄是機(jī)器之心發(fā)布學(xué)術(shù)、技術(shù)內(nèi)容的欄目。過(guò)去數(shù)年,機(jī)器之心AIxiv專欄接收?qǐng)?bào)道了2000多篇內(nèi)容,覆蓋全球各大高校與企業(yè)的頂級(jí)實(shí)驗(yàn)室,有效促進(jìn)了學(xué)術(shù)交流與傳播。如果您有優(yōu)秀的工作想要分享,歡迎投稿或者聯(lián)系報(bào)道。投稿郵箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com

隨著人工智能技術(shù)的快速發(fā)展,大型語(yǔ)言模型(LLMs)在自然語(yǔ)言處理、計(jì)算機(jī)視覺和科學(xué)任務(wù)等領(lǐng)域取得了顯著進(jìn)展。然而,隨著模型規(guī)模的擴(kuò)大,如何在保持高性能的同時(shí)優(yōu)化資源消耗成為關(guān)鍵挑戰(zhàn)。為了應(yīng)對(duì)這一挑戰(zhàn),騰訊混元團(tuán)隊(duì)率先采用混合專家(MoE)模型架構(gòu),最新發(fā)布的 Hunyuan-Large(Hunyuan-MoE-A52B)模型,是目前業(yè)界已經(jīng)開源的基于 Transformer 的最大 MoE 模型,擁有 389B 總參數(shù)和 52B 激活參數(shù)。

本次騰訊混元 - Large 共計(jì)開源三款模型:Hunyuan-A52B-Pretrain,Hunyuan-A52B-Instruct 和 Hunyuan-A52B-FP8,可支持企業(yè)及開發(fā)者精調(diào)、部署等不同場(chǎng)景的使用需求,可在 HuggingFace、Github 等技術(shù)社區(qū)直接下載,免費(fèi)可商用。通過(guò)技術(shù)優(yōu)化,騰訊混元 Large 適配開源框架的精調(diào)和部署,具有較強(qiáng)的實(shí)用性。騰訊云 TI 平臺(tái)和高性能應(yīng)用服務(wù) HAI 也同步開放接入,為模型的精調(diào)、API 調(diào)用及私有化部署提供一站式服務(wù)。

騰訊混元又來(lái)開源,一出手就是最大MoE大模型

開源官網(wǎng):https://llm.hunyuan.tencent.com/

github(開源模型工具包):https://github.com/Tencent/Hunyuan-Large

huggingface(模型下載):https://huggingface.co/tencent/Hunyuan-Large/tree/main

huggingface demo 地址:https://huggingface.co/spaces/tencent/Hunyuan-Large

技術(shù)報(bào)告:https://arxiv.org/abs/2411.02265

Hunyuan-Large 整體模型效果

公開測(cè)評(píng)結(jié)果顯示,騰訊混元 Large 在 CMMLU、MMLU、CEval、MATH 等多學(xué)科綜合評(píng)測(cè)集以及中英文 NLP 任務(wù)、代碼和數(shù)學(xué)等 9 大維度全面領(lǐng)先,超過(guò) Llama3.1、Mixtral 等一流的開源大模型。

騰訊混元又來(lái)開源,一出手就是最大MoE大模型

技術(shù)創(chuàng)新點(diǎn)

MoE (Mixture of Experts),也即混合專家模型,MoE 模型的每一層都包含多個(gè)并行的同構(gòu)專家,一次 token 的前向計(jì)算只會(huì)激活部分專家。MoE 模型的每一層會(huì)采用路由算法,決定了 token 會(huì)被哪些專家處理。MoE 是一種稀疏的網(wǎng)絡(luò)結(jié)構(gòu),具有比激活總參數(shù)量同等大小稠密模型更優(yōu)越的性能,而推理成本卻遠(yuǎn)低于總參數(shù)量相同的稠密模型。

得益于 MoE (Mixture of Experts) 結(jié)構(gòu)的優(yōu)越性,混元 Large 可以在保證模型推理速度的同時(shí),顯著提升模型的參數(shù)量進(jìn)而提升模型性能。

1、路由和訓(xùn)練策略

共享專家路由策略

騰訊混元 Large 的專家層中,設(shè)置一個(gè)共享專家來(lái)捕獲所有 token 所需的共同知識(shí),還設(shè)置了 16 個(gè)需要路由的專家,模型將每個(gè) token 路由給其激活得分最高的專家來(lái)動(dòng)態(tài)學(xué)習(xí)特定領(lǐng)域的知識(shí),并通過(guò)隨機(jī)補(bǔ)償?shù)穆酚杀U嫌?xùn)練穩(wěn)定性。共享專家負(fù)責(zé)處理共享的通用能力和知識(shí),特殊專家負(fù)責(zé)處理任務(wù)相關(guān)的特殊能力,動(dòng)態(tài)激活的專家,利用稀疏的神經(jīng)網(wǎng)絡(luò)來(lái)高效率的進(jìn)行推理。

回收路由策略

路由策略,即把 token 分發(fā)給 MoE 中各個(gè)專家的策略,是 MoE 模型中至關(guān)重要的部分。好的路由策略可以有效地激活每個(gè)專家的能力,使得每個(gè)專家保持相對(duì)均衡的負(fù)載,同時(shí)提升模型的訓(xùn)練穩(wěn)定性和收斂速度。業(yè)界常用的路由策略是 Top-K 路由,也就是將各個(gè) token 按照其和專家的激活得分路由給各個(gè)專家。但是這種路由方式難以保障 token 在各個(gè)專家間平均分配,而那些超過(guò)專家負(fù)載的 token 則會(huì)被直接扔掉,不參與專家層的計(jì)算。這樣會(huì)導(dǎo)致部分處理 token 較少的專家訓(xùn)練不穩(wěn)定。

針對(duì)這一問題,騰訊混元 Large 在傳統(tǒng) Top-K 路由的基礎(chǔ)上進(jìn)一步提出了隨機(jī)補(bǔ)償?shù)穆酚煞绞健?br/>

騰訊混元又來(lái)開源,一出手就是最大MoE大模型

專家特定學(xué)習(xí)率適配策略

在 Hunyuan-A52B 中,共享專家和路由專家在每個(gè)迭代里面專家處理的 token 數(shù)有很大差異,這將導(dǎo)致每個(gè)專家實(shí)際的 batchsize 并不相同(共享專家的 batchsize 是其他專家的 16 倍),根據(jù)學(xué)習(xí)率與 Batch size 的縮放原則,為不同(共享 / 特殊)專家適配不同的最佳學(xué)習(xí)率,以提高模型的訓(xùn)練效率。

騰訊混元又來(lái)開源,一出手就是最大MoE大模型

高質(zhì)量的合成數(shù)據(jù)

大語(yǔ)言模型的成功與高質(zhì)量的訓(xùn)練數(shù)據(jù)密不可分。公開網(wǎng)頁(yè)數(shù)據(jù)通常質(zhì)量參差不齊,高質(zhì)量通常難以獲。辉谔烊晃谋菊Z(yǔ)料庫(kù)的基礎(chǔ)上,騰訊混元團(tuán)隊(duì)在天然文本語(yǔ)料庫(kù)的基礎(chǔ)上,利用混元內(nèi)部系列大語(yǔ)言模型,構(gòu)建大量的高質(zhì)量、多樣性、高難度合成數(shù)據(jù),并通過(guò)模型驅(qū)動(dòng)的自動(dòng)化方法評(píng)價(jià)、篩選和持續(xù)維護(hù)數(shù)據(jù)質(zhì)量,形成一條完整數(shù)據(jù)獲取、篩選、優(yōu)化、質(zhì)檢和合成的自動(dòng)化數(shù)據(jù)鏈路。

騰訊混元又來(lái)開源,一出手就是最大MoE大模型

在數(shù)學(xué)領(lǐng)域,網(wǎng)頁(yè)數(shù)據(jù)中很難找到大量?jī)?yōu)質(zhì)的思維鏈 (CoT) 數(shù)據(jù)。騰訊混元 Large 從網(wǎng)頁(yè)中挖掘構(gòu)建大規(guī)模題庫(kù),并利用它作為種子來(lái)合成數(shù)學(xué)問答,從而保證了多樣性;同時(shí)我們利用一致性模型和評(píng)價(jià)模型來(lái)維護(hù)數(shù)據(jù)的質(zhì)量,從而得到大量?jī)?yōu)質(zhì)且多樣的數(shù)學(xué)數(shù)據(jù)。通過(guò)加入數(shù)學(xué)合成數(shù)據(jù)顯著提高了模型的數(shù)學(xué)能力。

在代碼領(lǐng)域中,自然代碼很多質(zhì)量較差,而且包含類似代碼解釋的代碼 - 文本映射的數(shù)據(jù)很稀缺。因此,騰訊混元 Large 使用大量天然代碼庫(kù)中的代碼片段作為種子,合成了大量包含豐富的文本 - 代碼映射的高質(zhì)量代碼訓(xùn)練數(shù)據(jù),加入后大幅提升了模型的代碼生成能力。

針對(duì)通用網(wǎng)頁(yè)中低資源、高教育價(jià)值的數(shù)據(jù),騰訊混元 Large 使用合成的方式對(duì)數(shù)據(jù)做變換、增廣,構(gòu)建了大量且多樣的、不同形式、不同風(fēng)格、高質(zhì)量的合成數(shù)據(jù),提升了模型通用領(lǐng)域的效果。

2、長(zhǎng)文能力優(yōu)化

采用高效的超長(zhǎng)文 Attention 訓(xùn)練和退火策略。通過(guò)將長(zhǎng)文和正常文本混合訓(xùn)練,逐步多階段引入自動(dòng)化構(gòu)建的海量長(zhǎng)文合成數(shù)據(jù),每階段僅需少量長(zhǎng)文數(shù)據(jù),即可獲得較好的模型長(zhǎng)文泛化和外推能力。

騰訊混元又來(lái)開源,一出手就是最大MoE大模型

騰訊混元 Large 模型專項(xiàng)提升的長(zhǎng)文能力已經(jīng)應(yīng)用到騰訊 AI 助手騰訊元寶上,最大支持 256K 上下文,相當(dāng)于一本《三國(guó)演義》或英文原版的《哈利·波特》全集的長(zhǎng)度,可以一次性處理上傳最多 10 個(gè)文檔,并能夠一次性解析多個(gè)微信公眾號(hào)鏈接、網(wǎng)址,讓騰訊元寶具備獨(dú)有的深度解析能力。

3、推理加速優(yōu)化

隨著 LLM 處理序列逐漸增長(zhǎng),Key-Value Cache 占用內(nèi)存過(guò)大的問題日益突出,為推理成本和速度帶來(lái)了挑戰(zhàn)。

為了提高推理效率,騰訊混元團(tuán)隊(duì)使用 Grouped-Query Attention(GQA)和 Cross-Layer Attention (CLA) 兩種策略,對(duì) KV Cache 進(jìn)行了壓縮。同時(shí)引入量化技術(shù),進(jìn)一步提升壓縮比。

騰訊混元又來(lái)開源,一出手就是最大MoE大模型

通過(guò) GQA+CLA 的引入,我們將 Hunyuan-A52B 模型的 head 數(shù)從 80 壓縮到 8,并通過(guò) CLA 每?jī)蓪庸灿?KV 激活值,最終將模型的 KV Cache 壓縮為 MHA 的 5%,大幅提升推理性能。下面是不同策略的 KV Cache 對(duì)比。

騰訊混元又來(lái)開源,一出手就是最大MoE大模型

4、Postrain 優(yōu)化

SFT 訓(xùn)練

騰訊混元團(tuán)隊(duì)在預(yù)訓(xùn)練模型的基礎(chǔ)上使用超過(guò)百萬(wàn)量級(jí)的 SFT 數(shù)據(jù)進(jìn)行精調(diào)訓(xùn)練,這些精調(diào)數(shù)據(jù)包含了數(shù)學(xué)、代碼、邏輯、文本創(chuàng)作、文本理解、知識(shí)問答、角色扮演、工具使用等多種類別。為了保證進(jìn)入 SFT 訓(xùn)練的數(shù)據(jù)質(zhì)量,我們構(gòu)建了一套完整的基于規(guī)則和模型判別的數(shù)據(jù)質(zhì)檢 Pipeline,用于發(fā)現(xiàn)數(shù)據(jù)中常見的 markdown 格式錯(cuò)誤、數(shù)據(jù)截?cái)、?shù)據(jù)重復(fù)、數(shù)據(jù)亂碼問題。此外,為了自動(dòng)化地從大規(guī)模指令數(shù)據(jù)中篩選高質(zhì)量的 SFT 數(shù)據(jù),我們基于 Hunyuan-70B 模型訓(xùn)練了一個(gè) Critique 模型,該模型可以對(duì)指令數(shù)據(jù)進(jìn)行 4 檔打分,一方面可以自動(dòng)化過(guò)濾低質(zhì)數(shù)據(jù),另一方面在自進(jìn)化迭代過(guò)程中可以有效提升被選 response 的質(zhì)量。

我們使用 32k 長(zhǎng)度進(jìn)行 SFT 訓(xùn)練,另外在訓(xùn)練過(guò)程中為了防止過(guò)擬合,我們開啟了 0.1 的 attention dropout 和 0.2 的 hidden dropout;我們發(fā)現(xiàn)相比 Dense 模型,MoE 架構(gòu)的模型通過(guò)開啟合理的 dropout,能有效提升下游任務(wù)評(píng)測(cè)的效果。另外為了更高效的利用大規(guī)模指令數(shù)據(jù),我們對(duì)指令數(shù)據(jù)進(jìn)行了質(zhì)量分級(jí),通過(guò)從粗到精的分階段訓(xùn)練,有效提升了模型效果。

RLHF 訓(xùn)練

為了使模型能夠生成與人類偏好接近的回答,我們進(jìn)一步使用直接偏好優(yōu)化(DPO)對(duì)齊算法對(duì) SFT 模型進(jìn)行強(qiáng)化訓(xùn)練。與離線 DPO 算法不同的是,我們?cè)趶?qiáng)化學(xué)習(xí)二階段采用的是在線強(qiáng)化 pipeline,這一框架里集成了使用固定 pair 數(shù)據(jù)的離線 DPO 策略,和使用訓(xùn)練過(guò)程中更新的策略模型迭代式采樣的在線強(qiáng)化策略。具體來(lái)說(shuō),每一輪模型只使用少量數(shù)據(jù)進(jìn)行采樣訓(xùn)練,訓(xùn)練完一輪之后的模型會(huì)對(duì)新的一批數(shù)據(jù)采樣出多個(gè)回答,然后利用獎(jiǎng)勵(lì)模型(RM)打分,排序出最好的回答和最差的回答來(lái)構(gòu)建偏好對(duì)。

為了進(jìn)一步增強(qiáng)強(qiáng)化學(xué)習(xí)階段的訓(xùn)練穩(wěn)定性,我們隨機(jī)篩選了一定比例的SFT數(shù)據(jù)用于計(jì)算 sft loss,由于這部分?jǐn)?shù)據(jù)在 SFT 階段已經(jīng)學(xué)過(guò),DPO 階段加 sft loss 是為了保持模型的語(yǔ)言能力,且系數(shù)較小。此外,為了提升 dpo pair 數(shù)據(jù)里面的好答案的生成概率,防止 DPO 通過(guò)同時(shí)降低好壞答案的概率的方式來(lái)走捷徑,我們也考慮加入好答案的 chosen loss 。通過(guò)以上策略的有效結(jié)合,我們的模型在 RLHF 訓(xùn)練后各項(xiàng)效果得到了明顯的提升。

騰訊混元又來(lái)開源,一出手就是最大MoE大模型

5、訓(xùn)練和精調(diào)

騰訊混元 Large 模型由騰訊全鏈路自研,其訓(xùn)練和推理均基于騰訊 Angel 機(jī)器學(xué)習(xí)平臺(tái)。

針對(duì) MoE 模型 All2all 通信效率問題,Angel 訓(xùn)練加速框架(AngelPTM)實(shí)現(xiàn)了 Expert 計(jì)算和通信層次 overlap 優(yōu)化、MOE 算子融合優(yōu)化以及低精度訓(xùn)練優(yōu)化等,性能是 DeepSpeed 開源框架的 2.6 倍。

騰訊混元 Large 模型配套開源的 Angel 推理加速框架(AngelHCF-vLLM)由騰訊 Angel 機(jī)器學(xué)習(xí)平臺(tái)和騰訊云智能聯(lián)合研發(fā)。在 vLLM 開源框架的基礎(chǔ)上適配了混元 Large 模型,持續(xù)通過(guò)疊加 NF4 和 FP8 的量化以及并行解碼優(yōu)化,在最大限度保障精度的條件下,節(jié)省 50% 以上顯存,相比于 BF16 吞吐提升 1 倍以上。除此之外,Angel 推理加速框架也支持 TensorRT-LLM backend,推理性能在當(dāng)前基礎(chǔ)上進(jìn)一步提升 30%,目前已在騰訊內(nèi)部廣泛使用,也會(huì)在近期推出對(duì)應(yīng)的開源版本。

贊助本站

相關(guān)內(nèi)容
AiLab云推薦
推薦內(nèi)容
展開

熱門欄目HotCates

Copyright © 2010-2024 AiLab Team. 人工智能實(shí)驗(yàn)室 版權(quán)所有    關(guān)于我們 | 聯(lián)系我們 | 廣告服務(wù) | 公司動(dòng)態(tài) | 免責(zé)聲明 | 隱私條款 | 工作機(jī)會(huì) | 展會(huì)港