劃重點(diǎn)
01隨著企業(yè)重點(diǎn)轉(zhuǎn)向高級AI工作負(fù)載,數(shù)據(jù)中心傳統(tǒng)的以CPU為中心的服務(wù)器正在通過集成新的專用芯片或“協(xié)處理器”而得到增強(qiáng)。
02GPU已成為協(xié)處理器的首選,因?yàn)樗鼈兡軌蛞詿o與倫比的速度處理大量數(shù)據(jù),但總體擁有成本可能非常高。
03芯片制造商、初創(chuàng)公司和云提供商正在構(gòu)建專用AI處理器和加速器,如ASIC、FPGA和NPU,以應(yīng)對不同規(guī)模和類型的AI工作負(fù)載。
04專家建議企業(yè)根據(jù)要處理的工作負(fù)載的規(guī)模和類型、數(shù)據(jù)、持續(xù)迭代/更改的可能性以及成本和可用性需求選擇合適的AI加速器。
05預(yù)計(jì)到2028年,AI硬件總體市場將達(dá)到1380億美元,以每年30%的速度增長。
以上內(nèi)容由騰訊混元大模型生成,僅供參考
本文由半導(dǎo)體產(chǎn)業(yè)縱橫(ID:ICVIEWS)編譯自venturebeat
芯片制造商、初創(chuàng)公司和云提供商正在構(gòu)建專用AI處理器和加速器。
數(shù)據(jù)中心是互聯(lián)網(wǎng)的后端。無論是 Netflix 還是 Google,所有大公司都利用數(shù)據(jù)中心及其托管的計(jì)算機(jī)系統(tǒng)向最終用戶提供數(shù)字服務(wù)。隨著企業(yè)的重點(diǎn)轉(zhuǎn)向高級 AI 工作負(fù)載,數(shù)據(jù)中心傳統(tǒng)的以 CPU 為中心的服務(wù)器正在通過集成新的專用芯片或“協(xié)處理器”而得到增強(qiáng)。
從本質(zhì)上講,這些協(xié)處理器背后的想法是引入某種附加組件來增強(qiáng)服務(wù)器的計(jì)算能力。這使它們能夠處理 AI 訓(xùn)練、推理、數(shù)據(jù)庫加速和網(wǎng)絡(luò)功能等工作負(fù)載的計(jì)算需求。在過去幾年中,以 Nvidia 為首的 GPU 已成為協(xié)處理器的首選,因?yàn)樗鼈兡軌蛞詿o與倫比的速度處理大量數(shù)據(jù)。根據(jù)Futurum Group的一項(xiàng)研究,由于需求增加,去年 GPU 占數(shù)據(jù)中心內(nèi)支持 AI 用例的協(xié)處理器的 74% 。
研究顯示,GPU 的主導(dǎo)地位預(yù)計(jì)只會增長,到 2028 年,該類別的收入將以每年 30% 的速度增長,達(dá)到 1020 億美元。但問題是:雖然 GPU 憑借其并行處理架構(gòu)成為加速各種大規(guī)模 AI 工作負(fù)載(如訓(xùn)練和運(yùn)行大規(guī)模、萬億參數(shù)語言模型或基因組測序)的強(qiáng)大伙伴,但它們的總體擁有成本可能非常高。例如,Nvidia 的旗艦GB200“超級芯片”結(jié)合了 Grace CPU 和兩個(gè) B200 GPU,預(yù)計(jì)成本在 60,000 至 70,000 美元之間。一臺裝有 36 個(gè)這種超級芯片的服務(wù)器估計(jì)成本約為 200 萬美元。
雖然這在某些情況下可能有效,例如大型項(xiàng)目,但并非適用于每家公司。許多企業(yè) IT 經(jīng)理都希望采用新技術(shù)來支持選定的低到中等密集型 AI 工作負(fù)載,并特別關(guān)注總體擁有成本、可擴(kuò)展性和集成度。畢竟,大多數(shù) AI 模型(深度學(xué)習(xí)網(wǎng)絡(luò)、神經(jīng)網(wǎng)絡(luò)、大型語言模型等)都處于成熟階段,需求正在轉(zhuǎn)向 AI 推理和增強(qiáng)特定工作負(fù)載(如圖像識別、推薦系統(tǒng)或?qū)ο笞R別)的性能,同時(shí)保持高效。
這正是芯片制造商、初創(chuàng)公司和云提供商正在構(gòu)建的專用 AI 處理器和加速器的新興領(lǐng)域。
人工智能處理器和加速器到底是什么?
從本質(zhì)上講,AI 處理器和加速器是位于服務(wù)器 CPU 生態(tài)系統(tǒng)中的芯片,專注于特定的 AI 功能。它們通常圍繞三種關(guān)鍵架構(gòu):專用集成電路 (ASIC)、現(xiàn)場可編程門陣列 (FPGA) 和最新創(chuàng)新的神經(jīng)處理單元 (NPU)。
ASIC 和 FPGA 已經(jīng)存在了相當(dāng)長一段時(shí)間,可編程性是兩者之間的唯一區(qū)別。ASIC 是為特定任務(wù)(可能與 AI 相關(guān),也可能不相關(guān))從頭定制的,而 FPGA 可以在后期重新配置以實(shí)現(xiàn)自定義邏輯。NPU 與兩者的區(qū)別在于,NPU 是一種專用硬件,只能加速 AI/ML 工作負(fù)載,如神經(jīng)網(wǎng)絡(luò)推理和訓(xùn)練。
Futurum 集團(tuán)首席執(zhí)行官 Daniel Newman 告訴 Venturebeat:“加速器往往能夠單獨(dú)執(zhí)行任何功能,有時(shí)采用晶圓級或多芯片 ASIC 設(shè)計(jì),它們能夠處理一些不同的應(yīng)用程序。NPU 是專用芯片(通常是系統(tǒng)的一部分)的一個(gè)很好的例子,它可以處理許多矩陣數(shù)學(xué)和神經(jīng)網(wǎng)絡(luò)用例以及使用更少功率的各種推理任務(wù)。”
這些加速器,尤其是為特定應(yīng)用而構(gòu)建的 ASIC 和 NPU,在成本和功耗方面比 GPU 更高效。
IBM 云和行業(yè)平臺總經(jīng)理 Rohit Badlaney 告訴 VentureBeat:“GPU 設(shè)計(jì)主要以算術(shù)邏輯單元 (ALU) 為中心,這樣它們就可以同時(shí)執(zhí)行數(shù)千次計(jì)算,而 AI 加速器設(shè)計(jì)主要以張量處理器核心 (TPC) 或單元為中心。一般來說,AI 加速器的性能與 GPU 性能的比較取決于該設(shè)計(jì)的固定功能。”
目前,IBM 采用混合云方法,在整個(gè)堆棧中使用多個(gè) GPU 和 AI 加速器,包括來自 Nvidia 和 Intel 的產(chǎn)品,為企業(yè)提供選擇,以滿足其獨(dú)特工作負(fù)載和應(yīng)用的需求 - 高性能和高效率。
“我們的全棧解決方案旨在幫助改變企業(yè)、開發(fā)人員和開源社區(qū)構(gòu)建和利用生成式人工智能的方式。人工智能加速器是我們認(rèn)為對希望部署生成式人工智能的客戶非常有益的產(chǎn)品之一,"Badlaney 說。他補(bǔ)充說,雖然 GPU 系統(tǒng)最適合大型模型訓(xùn)練和微調(diào),但加速器同樣可以處理許多人工智能任務(wù),而且成本更低。
例如,IBM 云虛擬服務(wù)器使用了英特爾的Gaudi 3加速器,并配備了專為推理和大內(nèi)存需求設(shè)計(jì)的定制軟件棧。該公司還計(jì)劃通過由多個(gè)系統(tǒng)組成的小型集群,將加速器用于微調(diào)和小型訓(xùn)練工作負(fù)載。
“人工智能加速器和 GPU 可以有效地用于一些類似的工作負(fù)載,例如從 LLM 和擴(kuò)散模型(像穩(wěn)定擴(kuò)散這樣的圖像生成)到標(biāo)準(zhǔn)物體識別、分類和語音配音。不過,人工智能加速器和 GPU 之間的優(yōu)勢和差異完全取決于硬件提供商的設(shè)計(jì)。Badlaney 解釋說:"例如,Gaudi 3 AI 加速器的設(shè)計(jì)旨在顯著提升計(jì)算能力、內(nèi)存帶寬和基于架構(gòu)的能效。
他說,這直接帶來了性價(jià)比優(yōu)勢。
除了英特爾,其他人工智能加速器也在市場上備受關(guān)注。這不僅包括為谷歌、AWS 和微軟等公共云提供商打造的定制芯片,還包括 Groq、Graphcore、SambaNova Systems 和 Cerebras Systems 等初創(chuàng)公司的專用產(chǎn)品(某些情況下是 NPU)。它們都以各自的方式脫穎而出,在不同領(lǐng)域向 GPU 發(fā)起挑戰(zhàn)。
在其中一個(gè)案例中,Tractable 是一家開發(fā)人工智能的公司,旨在分析財(cái)產(chǎn)和車輛損壞情況以進(jìn)行保險(xiǎn)理賠,該公司能夠利用 Graphcore 的智能處理單元-POD 系統(tǒng)(一種專門的 NPU 產(chǎn)品),與他們一直使用的 GPU 相比,性能大幅提升。
“Tractable 公司聯(lián)合創(chuàng)始人兼首席技術(shù)官 Razvan Ranca 在一篇博文中寫道:"我們看到速度提高了大約 5 倍。“這意味著研究人員現(xiàn)在可以運(yùn)行的實(shí)驗(yàn)數(shù)量可能是以前的五倍,這意味著我們加快了整個(gè)研發(fā)過程,并最終在我們的產(chǎn)品中建立了更好的模型"。
在某些情況下,AI 處理器還為訓(xùn)練工作負(fù)載提供支持。例如,Aleph Alpha 數(shù)據(jù)中心的 AI 超級計(jì)算機(jī)正在使用Cerebras CS-3,該系統(tǒng)由這家初創(chuàng)公司的第三代 Wafer Scale Engine 提供支持,擁有 900,000 個(gè) AI 核心,用于構(gòu)建下一代自主 AI 模型。甚至谷歌最近推出的定制 ASIC TPU v5p也在為 Salesforce 和 Lightricks 等公司提供一些 AI 訓(xùn)練工作負(fù)載。
選擇加速器的方法應(yīng)該是怎樣的?
現(xiàn)在已經(jīng)確定除了 GPU 之外還有許多 AI 處理器可以加速 AI 工作負(fù)載,尤其是推理,那么問題是:IT 經(jīng)理如何選擇最佳投資方案?其中一些芯片可能具有良好的性能和效率,但由于其架構(gòu),它們在處理的 AI 任務(wù)類型方面可能會受到限制。其他芯片可能會做得更多,但與 GPU 相比,TCO 差異可能沒有那么大。
由于答案因芯片設(shè)計(jì)而異,VentureBeat 采訪的所有專家都建議選擇應(yīng)基于要處理的工作負(fù)載的規(guī)模和類型、數(shù)據(jù)、持續(xù)迭代/更改的可能性以及成本和可用性需求。
幫助企業(yè)進(jìn)行 AI 訓(xùn)練和推理的Sustainable Metal Cloud首席技術(shù)官 Daniel Kearney 表示,企業(yè)運(yùn)行基準(zhǔn)測試來測試性價(jià)比優(yōu)勢也很重要,并確保他們的團(tuán)隊(duì)熟悉支持各自 AI 加速器的更廣泛的軟件生態(tài)系統(tǒng)。
“雖然詳細(xì)的工作負(fù)載信息可能無法提前獲得,或者可能無法為決策提供支持,但建議使用代表性工作負(fù)載、真實(shí)世界測試和可用的同行評審真實(shí)世界信息進(jìn)行基準(zhǔn)測試和測試,以提供數(shù)據(jù)驅(qū)動的方法來為合適的工作負(fù)載選擇合適的 AI 加速器。這種前期調(diào)查可以節(jié)省大量時(shí)間和金錢,特別是對于大型且昂貴的培訓(xùn)工作,”他建議道。
在全球范圍內(nèi),隨著推理工作的增長,包括 AI 芯片、加速器和 GPU 在內(nèi)的 AI 硬件總體市場預(yù)計(jì)將以每年 30% 的速度增長,到 2028 年將達(dá)到 1380 億美元。
*聲明:本文系原作者創(chuàng)作。文章內(nèi)容系其個(gè)人觀點(diǎn),我方轉(zhuǎn)載僅為分享與討論,不代表我方贊成或認(rèn)同,如有異議,請聯(lián)系后臺。