展會信息港展會大全

FuriosaAI推出高能效AI芯片:性能與英偉達(dá)L40S接近,功耗低40%!
來源:互聯(lián)網(wǎng)   發(fā)布日期:2024-08-29 09:50:01   瀏覽:3739次  

導(dǎo)讀:8月27日消息,在近日召開的Hot Chips 2024大會上,韓國AI芯片初創(chuàng)公司FuriosaAI 推出了一款面向高性能大型語言模型和多模態(tài)模型推理的高能效數(shù)據(jù)中心AI加速器 RNGD。 需要指出的是,這款芯片并不追求最高的AI性能,對標(biāo)的也不是英偉達(dá)的H100之類的高性能AI芯...

8月27日消息,在近日召開的Hot Chips 2024大會上,韓國AI芯片初創(chuàng)公司FuriosaAI 推出了一款面向高性能大型語言模型和多模態(tài)模型推理的高能效數(shù)據(jù)中心AI加速器 RNGD。

需要指出的是,這款芯片并不追求最高的AI性能,對標(biāo)的也不是英偉達(dá)的H100之類的高性能AI芯片,而是一款追求高能效、低功耗AI數(shù)據(jù)中心解決方案,性能與英偉達(dá)L40S接近,功耗還降低了40%。

具體來說,F(xiàn)uriosaAI RNGD基于臺積電5nm工藝制造,其核心的面積為653mm,晶體管數(shù)量為400億顆,AI計算核心的頻率為1.0GHz,擁有256MB的片上SRAM,外圍還通過CoWoS-S封裝集成了48GB HBM3(2顆12層堆棧的24GB HBM),內(nèi)存帶寬為1.5TB/s。

在性能方面,基于 RNGD芯片的單張卡算力為64TFLOPS(FP8),可以運(yùn)行Llama 3.1 8B等大語言模型,TDP功耗僅150W,相比之下英偉達(dá)H100 TDP則高達(dá)400W。而基于8張RNGD加速卡的系統(tǒng),則可提供最高512TFLOPS(FP8)和1024TOPS(INT4)的計算能力。

根據(jù)FuriosaAI介紹,RNGD在運(yùn)行擁有約100億個參數(shù)的模型時,能夠達(dá)到每秒處理多達(dá)3000個Token的吞吐量。在復(fù)雜的AI算法處理場景中,其能夠有效降低電費(fèi)和冷卻成本,為數(shù)據(jù)中心提供了一種可持續(xù)的發(fā)展解決方案。與當(dāng)前市場上的主流GPU相比,RNGD芯片能耗大幅降低的同時,計算性能卻未受影響,提升了整體的經(jīng)濟(jì)效益。

正如前面所提及的,F(xiàn)uriosaAI并沒有將RNGD的目標(biāo)對準(zhǔn)高性能的英偉達(dá)H100之類的產(chǎn)品,而是瞄準(zhǔn)了英偉達(dá)L40S,目標(biāo)不僅是提供相似的性能,而且是以更低的功耗提供該性能。根據(jù)FuriosaAI提供的數(shù)據(jù)顯示,RNGD在擁有與英偉達(dá)L40S相近的AI性能的情況下,其能耗大約只有L40S的60%(即相當(dāng)于功耗降低了40%),這也反應(yīng)了其出色的能效表現(xiàn)。

FuriosaAI RNGD的高能效主要得益于其獨(dú)特的TCP架構(gòu)。FuriosaAI表示,該架構(gòu)在能效、性能和可編程性之間達(dá)成了良好的平衡,能夠高效管理數(shù)據(jù)和內(nèi)存。這使得RNGD在處理例如Llama3這樣的龐大模型時,比傳統(tǒng)GPU方案具備明顯的優(yōu)勢,尤其是在能效比方面。

當(dāng)然,這也得益于FuriosaAI RNGD來自于硬件、軟件和算法方面的聯(lián)合優(yōu)化。

比如,F(xiàn)uriosaAI一直試圖解決在硬件和軟件之間的抽象層上工作的挑戰(zhàn)。

張量收縮是FuriosaAI的主要操作之一。在BERT方面,占據(jù)了FLOPS算力的99%。

通常,我們把矩陣乘法作為基元,而不是張量收縮。

相反,抽象是在張量收縮級別。

FuriosaAI為其原語添加了一個低級einsum。

這里,矩陣A和B相乘產(chǎn)生C。

然后,F(xiàn)uriosaAI利用這一點(diǎn),在具有內(nèi)存和計算單元的實(shí)際架構(gòu)上對其進(jìn)行調(diào)度。

從這里開始,一個完整的張量收縮可以是一個本原。

通過考慮空間和時間編排,他們可以提高效率和利用率。

Furiosa表示,它具有靈活的可重新配置性,這對于在批量變化時保持高性能非常重要。

下面是RNGD實(shí)現(xiàn)的情況:

以下是互連網(wǎng)絡(luò),包括訪問暫存存儲器。

FuriosaAI正在使用PCIe Gen5 xq6進(jìn)行芯片到芯片的通信。它還通過PCIe交換機(jī)使用P2P進(jìn)行GPU之間的直接通信。

FuriosaAI支持SR-IOV進(jìn)行虛擬化。

FuriosaAI已經(jīng)為可靠性做了信號和電源完整性方面的工作。

下面是Furiosa LLM如何以流程圖的形式工作:

編譯器編譯映射到多個設(shè)備的每個分區(qū)。

編譯器優(yōu)化了模型的性能增益和能效。

服務(wù)框架做類似連續(xù)批處理的事情來獲得更多的利用率。

FuriosaAI公司有一個基于圖表的自動化工具來幫助量化。Furiosa可以支持許多不同的格式,包括FP8和INT4。

編輯:芯智訊-浪客劍 編譯自:servethehome

贊助本站

人工智能實(shí)驗(yàn)室
相關(guān)內(nèi)容
AiLab云推薦
推薦內(nèi)容
展開

熱門欄目HotCates

Copyright © 2010-2024 AiLab Team. 人工智能實(shí)驗(yàn)室 版權(quán)所有    關(guān)于我們 | 聯(lián)系我們 | 廣告服務(wù) | 公司動態(tài) | 免責(zé)聲明 | 隱私條款 | 工作機(jī)會 | 展會港