展會信息港展會大全

英特爾甩出全新AI訓(xùn)練芯片!跑千億大模型速度超H200,罕見披露AI浮點(diǎn)性能
來源:互聯(lián)網(wǎng)   發(fā)布日期:2024-04-11 09:15:20   瀏覽:11234次  

導(dǎo)讀:芯東西4月10日報(bào)道,昨夜,英特爾在年度Intel Vision大會上重磅推出新一代AI訓(xùn)練芯片 Gaudi 3 ,正面向英偉達(dá)旗艦芯片發(fā)起挑戰(zhàn)。 會上,英特爾CEO基辛格揮舞著Gaudi 3,跟隨現(xiàn)場伴奏開心地?fù)u晃起身體,隨后宣布Gaudi 3的戰(zhàn)績: 相比英偉達(dá)上一代旗艦H100 GPU...

芯東西4月10日報(bào)道,昨夜,英特爾在年度Intel Vision大會上重磅推出新一代AI訓(xùn)練芯片Gaudi 3,正面向英偉達(dá)旗艦芯片發(fā)起挑戰(zhàn)。

會上,英特爾CEO基辛格揮舞著Gaudi 3,跟隨現(xiàn)場伴奏開心地?fù)u晃起身體,隨后宣布Gaudi 3的戰(zhàn)績:相比英偉達(dá)上一代旗艦H100 GPU,Gaudi 3的訓(xùn)練性能可提高70%,推理性能提高50%,能效提高40%,同時(shí)價(jià)格低得多。

在跑1800億參數(shù)Falcon模型時(shí),Gaudi 3的推理速度比英偉達(dá)H200快30%。

Gaudi 3采用臺積電5nm制程、128GB HBM2e DRAM內(nèi)存、第五代Tensor Core架構(gòu),內(nèi)存帶寬高達(dá)3.7TB/s,共有24個(gè)200Gb以太網(wǎng)端口。不過英特爾沒有公布這塊芯片的晶體管總數(shù)。

和英偉達(dá)、AMD一樣,英特爾在最新AI芯片中通過“芯片拼裝”設(shè)計(jì)來超越reticle極限。

Gaudi 3基于統(tǒng)一內(nèi)存架構(gòu),將將64個(gè)Tensor Core封裝在兩個(gè)計(jì)算Tile中,共享96MB緩存池,借助高速互連技術(shù),兩個(gè)計(jì)算Tile能宛如一個(gè)完整芯片一樣運(yùn)行。

相比上一代Gaudi 2,Gaudi 3在BF16精度下可提供4倍的AI計(jì)算能力、1.5倍的內(nèi)存帶寬、2倍的網(wǎng)絡(luò)帶寬,支持大規(guī)模系統(tǒng)橫向擴(kuò)展,最多可擴(kuò)展至8192個(gè)芯片的參考架構(gòu)。

基辛格說,Gaudi 3將幫助AI經(jīng)歷三個(gè)階段,從AI Copilot時(shí)代邁向AI Agent時(shí)代,然后抵達(dá)全功能AI時(shí)代,即用于自動化復(fù)雜的、企業(yè)范圍的結(jié)果。

他預(yù)言當(dāng)發(fā)展到第三階段,功能自動化帶來的效率意味著或?qū)⒊霈F(xiàn)“一人擁有10億美元資產(chǎn)的公司”。

英特爾計(jì)劃從第一季度和第二季度分別開始向OEM/ODM合作伙伴提供風(fēng)冷版和液冷版的Gaudi 3芯片樣品,從第三季度開始加大風(fēng)冷部件的出貨量,第四季度加大液冷設(shè)計(jì)的出貨量。英特爾還將在開發(fā)者云中提供Gaudi 3的支持。

Gaudi 3應(yīng)該會是英特爾最后一代對標(biāo)H100的AI訓(xùn)練芯片。畢竟對于今年剛發(fā)布過最新旗艦GPU芯片B200的英偉達(dá)來說,H100/H200已經(jīng)是上一代的事了。英偉達(dá)Blackwell GPU將在今年晚些時(shí)候上市,可以想見Gaudi 3搶占市場份額的機(jī)會多狹窄,面臨的競爭壓力將有多大。

令人稍有困惑的是,根據(jù)英特爾路線圖,Gaudi 3后續(xù)產(chǎn)品將變成IP融入到英特爾的Falcon Shores平臺里,也就是說英特爾GPU Max和專用AI芯片產(chǎn)品線將在2025年融合。

按這個(gè)發(fā)展走向,很難說英特爾什么時(shí)候會推出下一代專用AI芯片,如果英特爾一直基于現(xiàn)有芯片參與市場競爭,或者將研發(fā)重心向GPU傾斜,Gaudi 3可能會成為“時(shí)代的眼淚”。

一、罕見披露FP8浮點(diǎn)性能,訓(xùn)練130億參數(shù)模型比H100快70%

負(fù)責(zé)研發(fā)專用AI芯片的英特爾Habana團(tuán)隊(duì)一向不喜歡用FLOPS來展現(xiàn)AI性能,而是傾向于突出其在實(shí)際應(yīng)用中的性能。

原因之一是,F(xiàn)LOPS限定條件多,比如測量精度、是稀疏型還是稠密型、利用率多高……這些因素會可能導(dǎo)致理論和實(shí)際性能差別很大。

不過這次,他們相當(dāng)罕見地披露了Gaudi 3在FP8精度下的總吞吐量1835TFLOPS,達(dá)到上一代FP8性能的2倍。

在稠密型FP16/BF16精度下,英特爾Gaudi 3的浮點(diǎn)性能可達(dá)到1835TFLOPS,高于英偉達(dá)H100/H200的989TFLOPS、AMD MI300X的1307TFLOPS

但如果比FP8精度,H100/H200和MI300X的浮點(diǎn)算力較FP16翻倍到1979TFLOPS、2614TFLOPS,性能反超不支持稀疏化的Gaudi 3。

不過換個(gè)角度來看,Gaudi 3在FP16/BF16精度下能實(shí)現(xiàn)接近競品FP8精度下的性能,已經(jīng)足見其性能優(yōu)勢。

與英偉達(dá)旗艦GPU相比,英特爾新一代AI訓(xùn)練芯片Gaudi 3的性能提升如下:

1、訓(xùn)練Llama 7B、13B以及GPT-3 175B模型,速度比H100快40%~70%。

看起來,Gaudi 3在訓(xùn)練參數(shù)規(guī)模較小的模型時(shí)更能展現(xiàn)出訓(xùn)練優(yōu)勢,訓(xùn)練1750億參數(shù)GPT-3模型是用了基于1028個(gè)節(jié)點(diǎn)、8192個(gè)Gaudi 3的集群。

2、跑Llama 7B、70B以及Falcon 180B模型,推理速度比H100快50%,推理能效提高40%,在較長輸入和輸出序列上的推理性能優(yōu)勢更大。

3、跑Llama 7B、70B以及Falcon 180B模型,推理速度最多可以比H200快30%。

從圖表中可以看到,在跑Llama 7B、70B時(shí),Gaudi 3與H200 PK得略顯吃力。

雖然英特爾披露的這些數(shù)據(jù)不好驗(yàn)證真實(shí)性,但從過往來看,英特爾一向光明磊落,積極參與權(quán)威基準(zhǔn)測試MLPerf,無懼披露真實(shí)AI性能、與英偉達(dá)旗艦芯片產(chǎn)品同臺較量,很有大將風(fēng)范。

這多少會帶來更可靠的印象,進(jìn)而持續(xù)擴(kuò)大英特爾Gaudi系列在AI訓(xùn)練市場競爭的贏面。

二、雙芯設(shè)計(jì),臺積電5nm,128GB內(nèi)存

英特爾Gaudi 3采用將兩個(gè)計(jì)算Tile、8個(gè)HBM封裝在一起的設(shè)計(jì)方式,共有96MB SRAM、8個(gè)矩陣數(shù)學(xué)引擎和64個(gè)Tensor Core。這種將兩塊芯片當(dāng)一塊芯片用的拼裝思路,與英偉達(dá)上個(gè)月發(fā)布的Blackwell芯片相似。

Gaudi 3采用臺積電5nm、128GB HBM2e,內(nèi)存帶寬達(dá)3.7TB/s。從這些保守的制程和內(nèi)存選擇,很難看出它對最強(qiáng)AI訓(xùn)練芯片的勢在必得。

現(xiàn)在市面上最先進(jìn)的制程已經(jīng)是3nm,其競品英偉達(dá)H100和AMD MI300X都已經(jīng)用上更先進(jìn)的HBM3高帶寬內(nèi)存。

英偉達(dá)H200采用141GB HBM3e,內(nèi)存帶寬達(dá)4.8TB/s;AMD MI300X采用192GB HBM3,內(nèi)存帶寬達(dá)5.3TB/s。無論是內(nèi)存的容量還是帶寬,都比Gaudi 3更有競爭力。

據(jù)外媒報(bào)道,Habana首席運(yùn)營官Eitan Medina解釋說,堅(jiān)持采用HBM2e的原因是風(fēng)險(xiǎn)管理,其方法是只使用在流片前已在硅片中得到驗(yàn)證的IP,Gaudi 3流片時(shí)根本沒有經(jīng)過驗(yàn)證符合其標(biāo)準(zhǔn)的物理層。

相比單芯片性能,英特爾強(qiáng)調(diào)的是大量Gaudi 3芯片互連形成的集群能提供更高的性價(jià)比和TCO。

現(xiàn)在AI計(jì)算競賽的焦點(diǎn)在大模型上,單卡內(nèi)存根本不夠用,需要將多個(gè)AI芯片連接在一起來支撐大模型訓(xùn)練及推理。

性能比拼也不再是看單卡峰值性能,而是比拼大規(guī)模擴(kuò)展后的整體系統(tǒng)性能和TCO,即達(dá)到同等算力,誰能節(jié)省更多的電力和成本。

因此先進(jìn)互連技術(shù)對數(shù)據(jù)中心越來越重要。

H100/H200采用英偉達(dá)專用互連技術(shù)NVLink,總帶寬達(dá)900GB/s;MI300X采用AMD專用互連技術(shù)Infinity Fabric,總帶寬達(dá)896GB/s。

對比之下,Gaudi 3采用的是常規(guī)的ROCe,集成了24個(gè)200Gb以太網(wǎng)端口,總帶寬達(dá)1.2TB/s。其中有3個(gè)端口用于節(jié)點(diǎn)外通信,剩下1Tb/s用于服務(wù)器內(nèi)芯片之間通信。

英特爾稱,通過將以太網(wǎng)網(wǎng)卡集成到其加速器中,使用傳統(tǒng)的主干葉架構(gòu)擴(kuò)展以支持512個(gè)甚至1024個(gè)節(jié)點(diǎn)的集群變得更加容易。

這種以太網(wǎng)設(shè)置的另一種好處是吸引那些不想投資或換用專有互連技術(shù)的客戶。

通過超以太網(wǎng)聯(lián)盟,英特爾正驅(qū)動面向AI高速互連技術(shù)(AI Fabrics)的開放式以太網(wǎng)網(wǎng)絡(luò)創(chuàng)新,并推出一系列面向AI優(yōu)化的以太網(wǎng)解決方案,以大規(guī)模縱向和橫向擴(kuò)展芯片,支持越來越龐大的AI模型的訓(xùn)練與推理。

其產(chǎn)品組合包括英特爾AI網(wǎng)絡(luò)連接卡(AI NIC)、集成到XPU的AI連接芯粒、基于Gaudi加速器的系統(tǒng),以及一系列面向英特爾代工的AI互聯(lián)軟硬件參考設(shè)計(jì)。

除了網(wǎng)絡(luò)外,軟件也是英特爾的重頭戲。英特爾認(rèn)為大多數(shù)程序員都在AI框架級別或者更高級別進(jìn)行編程,使用CUDA進(jìn)行低級編程已經(jīng)不那么普遍,也就是說英偉達(dá)的軟件生態(tài)護(hù)城河已經(jīng)不像原來那樣堅(jiān)不可摧。

目前英特爾正在不斷優(yōu)化遷移工具和牽頭參與行業(yè)標(biāo)準(zhǔn)的制定,向市場提供CUDA替代方案。

三、可擴(kuò)展至8192芯,提供15EFLOPS算力

總結(jié)一下英特爾Gaudi 3的主要亮點(diǎn):

1、AI專用計(jì)算引擎:有獨(dú)特的異構(gòu)計(jì)算引擎,由64個(gè)AI定制和可編程TPC以及8個(gè)MME組成。每個(gè)Gaudi 3 MME能執(zhí)行64000 次并行操作,實(shí)現(xiàn)高計(jì)算效率,使其擅長處理復(fù)雜的矩陣運(yùn)算、加速并行AI操作。該芯片支持多種數(shù)據(jù)類型,包括FP8和BF16。

2、滿足大語言模型要求的內(nèi)存容量:128GB HBMe2、3.7TB/s內(nèi)存帶寬、96MB板載SRAM提供了充足內(nèi)存,可在更少的Gaudi 3芯片上處理大型生成式AI數(shù)據(jù)集。

3、面向企業(yè)生成式AI的高效系統(tǒng)擴(kuò)展:Gaudi 3集成了24個(gè)200Gb以太網(wǎng)端口,提供靈活且開放標(biāo)準(zhǔn)的網(wǎng)絡(luò),支持大型計(jì)算集群,可高效地橫向和縱向擴(kuò)展至數(shù)千個(gè)節(jié)點(diǎn)。

4、開放行業(yè)軟件,提高開發(fā)者效率:Gaudi軟件集成了PyTorch框架,并提供優(yōu)化的Hugging Face社區(qū)模型,使生成式AI開發(fā)人員能夠在高抽象級別上進(jìn)行操作,從而提高易用性和工作效率,并易于跨硬件類型遷移模型。

英特爾已經(jīng)開發(fā)了一個(gè)端到端AI軟件棧,包括從固件、庫、驅(qū)動程序到開各種AI應(yīng)用所需的模型、框架和工具。

5、Gaudi 3 PCIe add-in卡:專為實(shí)現(xiàn)高效率和低功耗而設(shè)計(jì),非常適合微調(diào)、推理和檢索增強(qiáng)生成 (RAG) 等工作負(fù)載,采用全高、雙寬、10.5英寸長設(shè)計(jì),被動冷卻,TDP僅為600W。

除了PCIe add-in卡,Gaudi 3還提供符合OCP標(biāo)準(zhǔn)的OAM模塊、搭載8個(gè)加速器的通用基板。PCIe規(guī)格與OAM版本相同,功耗更低。OAM的TDP在風(fēng)冷版可達(dá)900W,液冷版可達(dá)1200W。

英特爾也為Gaudi 3開發(fā)了參考架構(gòu)。

搭載8個(gè)Gaudi 3的單個(gè)節(jié)點(diǎn),F(xiàn)P8性能可達(dá)14.7PFLOPS,擁有1024GB內(nèi)存和8.4TB/s網(wǎng)絡(luò)帶寬。512個(gè)節(jié)點(diǎn),可提供7.5EFLOPS算力,有524.3TB內(nèi)存容量、614TB/s網(wǎng)絡(luò)帶寬。

Gaudi 3最多可擴(kuò)展到由8192個(gè)芯片組成的1024個(gè)節(jié)點(diǎn)的集群,可提供15EFLOPS算力、1PB內(nèi)存容量、1.229PB/網(wǎng)絡(luò)帶寬。

結(jié)語:大規(guī)模AI計(jì)算已經(jīng)進(jìn)入系統(tǒng)競賽

在Intel Vision大會上,“生成式AI”這一主題可以說是貫穿全程,從數(shù)據(jù)中心的大規(guī)模AI訓(xùn)練與推理,到AI PC改變端側(cè)生產(chǎn)力,英特爾正竭力展示自己作為先進(jìn)芯片技術(shù)領(lǐng)導(dǎo)者的競爭力。

如今談到大模型訓(xùn)練芯片,英偉達(dá)當(dāng)仁不讓是首選供應(yīng)商,但這棵搖錢樹早已被其他芯片大廠和創(chuàng)業(yè)新秀盯上,英特爾便是其中之一。英特爾正通過推出更具性價(jià)比的可擴(kuò)展系統(tǒng)來打破這種一家獨(dú)大的局面,這將為市場帶來另一種選擇。

大規(guī)模AI計(jì)算已經(jīng)進(jìn)入系統(tǒng)競賽,無論是守擂者英偉達(dá),還是英特爾、AMD、Cerebras、Groq等追擊者,都明顯加大對先進(jìn)Chiplet封裝、先進(jìn)存儲、先進(jìn)互連技術(shù)的重視,通過從超越制程和reticle極限的芯片內(nèi)部設(shè)計(jì)優(yōu)化,到擴(kuò)展至大型集群系統(tǒng)的技術(shù)升級,為整個(gè)數(shù)據(jù)中心的AI計(jì)算提供更高性能和能效的加速。

除了Gaudi 3,英特爾還在Intel Vision大會上分享了數(shù)據(jù)中心至強(qiáng)處理器和AI PC的進(jìn)展,并現(xiàn)場連線遠(yuǎn)在英特爾晶圓廠的同事,演示如何在AI PC上用先進(jìn)AI技術(shù)輔助芯片檢測。

英特爾宣布面向數(shù)據(jù)中心、云和邊緣的下一代處理器進(jìn)行品牌煥新,即英特爾至強(qiáng)6。配備能效核的至強(qiáng)6(此前代號為Sierra Forest)將于2024年第二季度推出,配備性能核的至強(qiáng)6(此前代號為Granite Rapids)將緊隨其后推出。

配備性能核的英特爾至強(qiáng)6包含了對MXFP4數(shù)據(jù)格式的軟件支持,與使用FP16的第四代至強(qiáng)處理器相比,可將下一個(gè)token的延遲時(shí)間縮短至原來的15%,能運(yùn)行700億參數(shù)Llama-2模型。

英特爾預(yù)計(jì)將于今年出貨4000萬臺AI PC,以及超過230種的設(shè)計(jì),覆蓋輕薄PC和游戲掌機(jī)設(shè)備。新一代英特爾酷睿Ultra客戶端處理器家族(代號Lunar Lake)將于今年推出,具備超過100 TOPS平臺算力,NPU算力超過46TOPS。

贊助本站

人工智能實(shí)驗(yàn)室
相關(guān)內(nèi)容
AiLab云推薦
推薦內(nèi)容
展開

熱門欄目HotCates

Copyright © 2010-2024 AiLab Team. 人工智能實(shí)驗(yàn)室 版權(quán)所有    關(guān)于我們 | 聯(lián)系我們 | 廣告服務(wù) | 公司動態(tài) | 免責(zé)聲明 | 隱私條款 | 工作機(jī)會 | 展會港