展會(huì)信息港展會(huì)大全

性能暴降92%?英特爾中國(guó)“特供版”AI芯片曝光
來(lái)源:互聯(lián)網(wǎng)   發(fā)布日期:2024-04-18 08:46:12   瀏覽:3437次  

導(dǎo)讀:據(jù)外媒The register報(bào)道,繼不久前英特爾正式發(fā)布了新一代AI加速芯片Gaudi 3 之后,正準(zhǔn)備面向中國(guó)市場(chǎng)推出特供版Gaudi 3,包括名為HL-328的OAM兼容夾層卡(Mezzanine Card)和名為HL-388的PCle加速卡兩種硬件形態(tài)。 英特爾在其Gaudi 3 白皮書中披露了上述信...

據(jù)外媒The register報(bào)道,繼不久前英特爾正式發(fā)布了新一代AI加速芯片Gaudi 3 之后,正準(zhǔn)備面向中國(guó)市場(chǎng)推出“特供版”Gaudi 3,包括名為HL-328的OAM兼容夾層卡(Mezzanine Card)和名為HL-388的PCle加速卡兩種硬件形態(tài)。

英特爾在其Gaudi 3 白皮書中披露了上述信息,其中HL-328將于6月24日推出,HL-388將于9月24日推出。

具體硬件規(guī)格方面,中國(guó)特供版的Gaudi 3 與原版相比,具有相同的96MB SRAM片上內(nèi)存, 128GB HBM2e高帶寬內(nèi)存,帶寬為 3.7TB/s,擁有PCIe 5.0 x16 接口和解碼標(biāo)準(zhǔn)。但是,由于美國(guó)對(duì)于AI芯片的出口管制規(guī)則限制,使得這類高性能AI的綜合運(yùn)算性能(TPP)需要低于4800才能出口到中國(guó), 這意味中國(guó)特供版的Gaudi 3 的16bit性能不能超過(guò)150 TFLOPS。

根據(jù)英特爾公布的數(shù)據(jù)顯示,Gaudi 3 在 FP16/BF16 上可以達(dá)到 1835 TFLOPS,相比英偉達(dá)H100在大模型訓(xùn)練方面快40%、推理能效高50%。

顯然,中國(guó)特供版的Gaudi 3 需要大幅降低AI性能,才能合規(guī)出口到中國(guó)。因此,中國(guó)特供版Gaudi 3 需要大幅削減內(nèi)核數(shù)量(原版擁有 8 個(gè)矩陣數(shù)學(xué)引擎和64 個(gè)張量?jī)?nèi)核)和工作頻率,最終可能需要其AI性能降低約92%才能符合美國(guó)的出口管制要求。

由于中國(guó)特供版Gaudi 3 AI性能的降低,這也將使得其TDP(熱設(shè)計(jì)功耗)大幅降低。根據(jù)曝光的資料顯示,中國(guó)特供版Gaudi 3的OAM卡和PCIe卡的TDP均為450瓦,而原版PCIe卡(HL-338)的TDP高達(dá)600瓦,原版OAM卡(HL-325L、HL-335)的TDP更是高達(dá)900瓦。

可以預(yù)見(jiàn)的是,英特爾專為中國(guó)市場(chǎng)推出的“特供版”Gaudi 3的OAM兼容夾層卡(HL-328)和PCle加速卡(HL-388)的AI性能將會(huì)與英偉達(dá)針對(duì)中國(guó)市場(chǎng)推出的AI加速卡H20相當(dāng),它具有 148 TFLOPS 的 FP16/ BF16 性能,略低于 150 TFLOPS 的限制。但是,在HBM容量及帶寬上,英特爾中國(guó)特供版Gaudi 3將低于英偉達(dá)H20,這也使得其在與英偉達(dá)H20的競(jìng)爭(zhēng)當(dāng)中可能將處于劣勢(shì),當(dāng)然具體也要看定價(jià)是否有優(yōu)勢(shì)。

編輯:芯智訊-浪客劍

贊助本站

人工智能實(shí)驗(yàn)室
相關(guān)內(nèi)容
AiLab云推薦
推薦內(nèi)容
展開

熱門欄目HotCates

Copyright © 2010-2024 AiLab Team. 人工智能實(shí)驗(yàn)室 版權(quán)所有    關(guān)于我們 | 聯(lián)系我們 | 廣告服務(wù) | 公司動(dòng)態(tài) | 免責(zé)聲明 | 隱私條款 | 工作機(jī)會(huì) | 展會(huì)港