展會(huì)信息港展會(huì)大全

Groq:最快AI推理芯片,對(duì)產(chǎn)業(yè)影響幾何?
來(lái)源:互聯(lián)網(wǎng)   發(fā)布日期:2024-04-11 09:15:06   瀏覽:7958次  

導(dǎo)讀:一、事件緣起: 近期,AI硬件初創(chuàng)公司Groq引發(fā)關(guān)注,其推出的基于自身LPU架構(gòu)的開(kāi)源大模型推理解決方案,相比現(xiàn)有基于GPU架構(gòu)的方案,吞吐量高4倍且費(fèi)用僅為現(xiàn)有方案的1/3。 隨著AI技術(shù)的快速迭代,如何提升輸出端的響應(yīng)速度愈發(fā)重要,而近期SoraDemo的驚艷...

一、事件緣起:

近期,AI硬件初創(chuàng)公司Groq引發(fā)關(guān)注,其推出的基于自身LPU架構(gòu)的開(kāi)源大模型推理解決方案,相比現(xiàn)有基于GPU架構(gòu)的方案,吞吐量高4倍且費(fèi)用僅為現(xiàn)有方案的1/3。

隨著AI技術(shù)的快速迭代,如何提升輸出端的響應(yīng)速度愈發(fā)重要,而近期SoraDemo的驚艷效果,讓業(yè)內(nèi)看到了應(yīng)用場(chǎng)景爆發(fā)的可能性,但如果延遲過(guò)高,會(huì)顯著影響使用體驗(yàn),因此Groq官網(wǎng)所展示的運(yùn)行速度引起業(yè)內(nèi)廣泛討論。在前段時(shí)間的基準(zhǔn)測(cè)試中,GroqLPU推理引擎上運(yùn)行的Llama270B直接刷榜。

數(shù)據(jù)來(lái)源:Groq公司官網(wǎng)

參考ArtificialAnalysis.ai數(shù)據(jù),Groq推出的Mixtral8x7BInstructAPI,以430token/s的速度,刷新業(yè)界歷史記錄。而且其每百萬(wàn)個(gè)token的價(jià)格僅為0.27美元,擊敗了Mistral、Lepton等。

數(shù)據(jù)來(lái)源:Groq公司官網(wǎng)

二、Groq發(fā)展歷程

Groq成立于2016年,總部位于美國(guó)加州,創(chuàng)始人JonathanRoss是前谷歌高級(jí)工程師,也是谷歌自研AI芯片TPU團(tuán)隊(duì)的核心成員,產(chǎn)品主管JohnBarrus曾在谷歌及亞馬遜團(tuán)隊(duì)擔(dān)任產(chǎn)品高管。公司產(chǎn)品LPU(LanguageProcessingUnits)是一款新型的AI芯片,雖然公司團(tuán)隊(duì)脫胎于谷歌TPU,但在技術(shù)路線的選擇上選擇了LPU這個(gè)全新的系統(tǒng)路線。目前公司芯片采用格羅方德的14nm工藝,而在23年8月,Groq宣布,三星的Taylor工廠將生產(chǎn)其4納米AI加速器芯片。

融資方面,2017年,公司獲得了風(fēng)險(xiǎn)投資家ChamathPalihapitiya投資1030萬(wàn)美金;2021年4月,又從D1Capital、TigerGlobalFund等金融機(jī)構(gòu)獲得了3億美金的融資,估值超過(guò)10億美元。23年還進(jìn)行了一輪5000萬(wàn)美元的安全可轉(zhuǎn)換債務(wù)融資,目前團(tuán)隊(duì)正在進(jìn)行新一輪的籌資活動(dòng)。

三、Groq技術(shù)原理

Groq芯片采用的是14nm工藝,搭載了230MB的SRAM來(lái)保證內(nèi)存帶寬,片上內(nèi)存帶寬可達(dá)80TB/s,不同于GPU和CPU通用芯片架構(gòu),Groq開(kāi)發(fā)的是針對(duì)大語(yǔ)言模型的定制化芯片,其LPU技術(shù)核心解決的是計(jì)算密度和內(nèi)存帶寬兩大瓶頸。如下圖所示,LPU將更多的空間留給了計(jì)算單元,從而展現(xiàn)了更高的計(jì)算能力,這使得單個(gè)數(shù)據(jù)處理時(shí)間顯著減少,從而可以快速地輸出文本序列。它使用時(shí)序指令集計(jì)算機(jī)架構(gòu)(TemporalInstructionSetComputer),因此不必頻繁地在HBM(高帶寬內(nèi)存模組)加載數(shù)據(jù),而是直接利用SRAM來(lái)進(jìn)行數(shù)據(jù)的處理,其速度比GPU中用的存儲(chǔ)模組快20倍。

數(shù)據(jù)來(lái)源:Groq公司官網(wǎng)

四、前景判斷

綜上所述,Groq芯片的特點(diǎn)是大算力小內(nèi)存,速度快但單卡吞吐能力有限,需要更多的卡來(lái)保證同等級(jí)別的吞吐能力,這就意味著更高的成本,目前Groq想要在低延遲領(lǐng)域建立競(jìng)爭(zhēng)優(yōu)勢(shì),就需要拓寬應(yīng)用場(chǎng)景并進(jìn)一步降低總成本。原阿里技術(shù)副總裁賈揚(yáng)清做過(guò)估算:

由于Groq芯片單卡內(nèi)存僅為230MB,在運(yùn)行LLaMa270B大模型時(shí),假設(shè)使用int8量化技術(shù),需要使用572張卡,每張卡的價(jià)格為20000美元,因此購(gòu)卡成本約為1144萬(wàn)美元;同時(shí)每張卡的功耗平均為185W,則總功耗為105.8Kw,目前數(shù)據(jù)中心電費(fèi)為200美元/月,則運(yùn)用過(guò)程中產(chǎn)生的年度電費(fèi)為25.4萬(wàn)美元,因此假設(shè)運(yùn)行三年,Groq的總成本約為1220萬(wàn)美元。

而運(yùn)行同樣參數(shù)體量的模型,英偉達(dá)H100卡僅需8張,購(gòu)置成本約為30萬(wàn)美元,一個(gè)8卡的H100服務(wù)器的功耗約為10kw,則運(yùn)營(yíng)過(guò)程中的年度電費(fèi)為2.4萬(wàn)美元,因此假設(shè)運(yùn)營(yíng)三年,總成本為37.2萬(wàn)美元。

從結(jié)果上看,LPU展現(xiàn)出來(lái)的推理能力,雖然在成本上仍不滿足實(shí)際應(yīng)用的需求,但仍對(duì)AI行業(yè)帶來(lái)了沖擊和新的思路,未來(lái)隨著硬件技術(shù)和生產(chǎn)層面的逐步成熟,成本端有望得到改善,屆時(shí)LPU或?qū)⑻峁┬碌陌l(fā)展路線。

AI行業(yè)日新月異,不存在規(guī)律的產(chǎn)品更新規(guī)劃,這一點(diǎn)從Sora的突然問(wèn)世、DeepmindGenie模型的發(fā)布等事件皆可得到驗(yàn)證。站在投資者角度,AI產(chǎn)業(yè)投資技術(shù)門檻高、技術(shù)發(fā)展快、產(chǎn)品迭代頻率高,且價(jià)格上呈現(xiàn)較大波動(dòng),更適宜用AI相關(guān)指數(shù)指數(shù)進(jìn)行低位定投,降低選股風(fēng)險(xiǎn)和擇時(shí)難度。同時(shí),考慮到AI主權(quán)的影響,盡管人工智能海內(nèi)外發(fā)展存在差異,國(guó)內(nèi)人工智能產(chǎn)業(yè)仍存在較大的軟硬件市場(chǎng),相關(guān)的投資機(jī)會(huì)包括人工智能ETF(159819),場(chǎng)外聯(lián)接(A類:012733;C類:012734)、半導(dǎo)體芯片ETF(516350),場(chǎng)外聯(lián)接(A類:018411;C類:018412)等。

贊助本站

人工智能實(shí)驗(yàn)室
相關(guān)內(nèi)容
AiLab云推薦
推薦內(nèi)容
展開(kāi)

熱門欄目HotCates

Copyright © 2010-2024 AiLab Team. 人工智能實(shí)驗(yàn)室 版權(quán)所有    關(guān)于我們 | 聯(lián)系我們 | 廣告服務(wù) | 公司動(dòng)態(tài) | 免責(zé)聲明 | 隱私條款 | 工作機(jī)會(huì) | 展會(huì)港