展會信息港展會大全

英偉達最新AI芯片H200只能算半代升級,發(fā)布更多是無奈之舉
來源:互聯網   發(fā)布日期:2023-11-14 19:32:02   瀏覽:4915次  

導讀:文| 郝博陽 無忌 最強GPU芯片再次升級了,但更像是半代升級。 在11月13日的2023年全球超算大會(SC23)上,英偉達發(fā)布了新一代AI芯片HGX H200,用于AI大模型的訓練,相比于其前一代產品H100,H200的性能提升了約60%到90%。 H200是英偉達H100的升級版。與過...

文| 郝博陽 無忌

最強GPU芯片再次升級了,但更像是半代升級。

在11月13日的2023年全球超算大會(SC23)上,英偉達發(fā)布了新一代AI芯片HGX H200,用于AI大模型的訓練,相比于其前一代產品H100,H200的性能提升了約60%到90%。

H200是英偉達H100的升級版。與過往GPU升級主要都在架構提升上不同,H200與H100都基于Hopper架構。

在同架構之下,H200的浮點運算速率基本上和H100相同。而其主要升級點轉向了內存容量和帶寬。具體包括141GB的HBM3e內存,比上一代提升80%,顯存帶寬從H100的3.35TB/s增加到了4.8TB/s,提升40%。

H200核心GPU運算數據與H100完全一致

然而,在大模型推理表現上,其提升卻極其明顯。H200在700億參數的Llama2大模型上的推理速度比H100快了一倍,而且在推理能耗上H200相比H100直接降低了一半。

對于顯存密集型HPC(高性能計算)應用,H200更高的顯存帶寬能夠確保高效地訪問數據,與CPU相比,獲得結果的時間最多可提升110倍。

因為框架未有改變,H200與H100有著完全的兼容性。這意味著已經使用先前模型進行訓練的AI公司將無須更改其服務器系統(tǒng)或軟件即可使用新版本。

為什么英偉達突然不卷頻率,卷起內存了呢?

H200這個半代升級,是不得不發(fā)的無奈之舉

芯片內存,靠著AI才走向了前臺。

幾十年來,出于技術和經濟原因,各種處理器在計算上配置過度,但在內存帶寬上配置不足。因為內存容量取決于設備和工作負載。比如處理Web基礎設施工作、或一些相對簡單的分析和數據庫工作,一個擁有十幾個DDR內存通道的CPU就足夠處理了。

但對于HPC模擬和建模、人工智能訓練和推理來說,這點內存通道就不夠用了。為了實際提高矢量和矩陣引擎的利用率,內存容量和內存帶寬突然成了高性能GPU的命門。

早在今年年初,全球大廠掃貨GPU備戰(zhàn)百模大戰(zhàn)時,H100的產能卻出現了瓶頸。最主要的卡點都圍繞在內存上。

H100所采用的HBM內存擁有DDR內存難以比擬的帶寬,但其產量因為其堆疊生產工藝的復雜一直較低,除此之外為了在芯片中使用HBM,英偉達還必須采用臺積電獨創(chuàng)的CoWoS封裝系統(tǒng)。HBM和CoWoS封裝兩個漏斗,直接濾掉了H100的產能。

因為GPU AI運算性能與內存的強關聯性,HBM內存也成了各個大廠的兵家必爭之地。

英特爾在今年年初推出了全球首款配備HBM內存的處理器--Intel Xeon Max系列處理器,其基于代號Sapphire Rapids-HBM芯片構建。所有的Xeon Max都內置了64 GB的HBM2e高帶寬內存,分為4個16 GB的集群,總內存帶寬為1 TB/秒。

英特爾稱,Xeon Max系列CPU配備的高帶寬內存足以滿足最常見的HPC工作負載,與舊的英特爾至強 8380系列處理器或AMD EPYC 7773X相比,可在某些工作負載中提供接近五倍的性能。即使Xeon Max在主頻和架構上都落后于H100,但就靠著內存水位相當,依然在媒體和業(yè)界備受重視,成了在AMD之外H100最有力的競爭者。

那如果競爭對手的主頻和架構跟上來,內存還更勝一籌會怎樣?

在AMD下月6日舉辦的發(fā)布活動中,該公司將會發(fā)布Instinct MI300A和Instinct MI300X。

Instinct MI300A為AMD首個集成24個Zen 4 CPU核心、CNDA 3架構GPU核心以及128GB HBM3的APU,其被認為在性能上有望與英偉達的Grace Hopper相媲美。

如鯁在喉AMD

Instinct MI300X集成了12個5納米的小芯片,提供了192GB的HBM3、5.2TB/秒的帶寬,晶體管數量高達1530億。MI300X提供的HBM密度是英偉達H100的2.4倍,HBM帶寬是H100的1.6倍,意味著在MI300X上可以訓練比H100更大的模型,單張加速卡可運行一個400億參數的模型。

這將是一個顛覆AI芯片乃至GPU市場的敵手,而英偉達更換了架構的下一代GPU芯片B100要最早明年Q2才能發(fā)布。6個月的時間,一個更強的AMD顯卡完全可能把英偉達在這半年間積累的AI霸權碾的蕩然無存。架構升級沒有,主頻因此提升不上來,為了保證不被超越,英偉達怎么辦?只能把內存升級到和MI300X同水準,靠半代升級截胡AMD。

B100,沖破天際

所以,英偉達這波升級,更多的是個無奈之舉。

新內存強在哪里

作為首款搭載HBM3e內存的GPU,我們總算能從它的數據中一窺內存對AI運算的巨大影響了。

HBM3e滿足了用于AI的存儲器必備的速度規(guī)格,也在發(fā)熱控制和客戶使用便利性等所有方面都達到了全球最高水平。

在它的加持之下,H200的內存帶寬從3.35TB/秒提升至4.8TB/秒,提升43%;與H100相比,H200容量幾乎翻倍,能以每秒4.8TB的速度提供141GB內存。在HBM3e加持下,H200讓Llama-70B推理性能幾乎翻倍,運行GPT3-175B也能提高60%。

英偉達大規(guī)模與高性能計算副總裁伊恩巴克(Ian Buck)在演示視頻中表示,“HBM內存的整合有助于加速計算密集任務的性能,包括生成式人工智能模型和高性能計算應用,同時優(yōu)化GPU的利用率和效率。借助H200,業(yè)界領先的端到端人工智能超算平臺的速度會變得更快,一些世界上最重要的挑戰(zhàn),都可以被解決。”

在技術文檔中,英偉達是如此解釋AI計算和內存的關聯的:內存帶寬對于HPC應用程序至關重要,因為它可以實現更快的數據傳輸,減少復雜的處理瓶頸。對于模擬、科學研究和人工智能等內存密集型HPC應用,H200更高的內存帶寬可確保高效地訪問和操作數據,與CPU相比,獲得結果的時間最多可加快110倍。

內存的力量!

HBM被如此倚為長城,內存廠商也在這次AI大基建中獲得了僅次于GPU廠商的收益。

HBM和DDR5的價格和需求在今年都大幅增長。而HBM的價格是現有DRAM產品的5-6倍;DDR5的價格也比DDR4高出15%到20%。

據BusinessKorea援引業(yè)內人士消息透露,SK海力士預計,2024年HBM和DDR5的銷售額有望翻番。市場調研機構TrendForce指出,高端AI服務器需采用的AI芯片,將推升2023-2024年高帶寬存儲器(HBM)的需求。市場規(guī)模上,該機構預計2023年全球HBM需求量將增近六成,達到2.9億GB,2024年將再增長30%,2025年HBM整體市場有望達到20億美元以上。

潛在的壟斷消失,但定價不一定手軟

英偉達表示,H200計劃于2024年第二季度正式出貨。屆時,包括亞馬遜,谷歌,微軟等大型計算機廠商和云服務提供商將成為H200的首批用戶,客源依然穩(wěn)劍

考慮到目前高性能GPU服務器仍然緊缺,云服務商現在是更多是出啥買啥。

但在競爭對手,如AMD和英特爾在今年年內真的發(fā)布可以與其匹敵的GPU服務器后,其壟斷是否還能存在呢?

過往的分析認為壟斷還將繼續(xù)一段時間。H100的壟斷地位帶來的服務器間兼容性問題、英偉達苦心經營多年的服務器套組CUDA太過好用,工程師不愿放棄都是可能的原因。但有著更便宜,性能不差的競品,這種壟斷還能維持多久?因此英偉達這次的新定價策略就很值得玩味了。

一般的分析機構認為內存升級了,價格還得漲。

比如Wolfe Research的克里斯卡索(Chris Caso)在客戶報告中稱,鑒于H200提供的性能提升,該款芯片的售價可能會更貴。英偉達沒有披露該產品的售價,但CNBC報告稱,上一代H100估計每顆售價在2.5萬美元到4萬美元之間,因為采用了HBM3e內存,H200的售價可能會更貴。

但英偉達發(fā)言人克里斯汀內山(Kristin Uchiyama)卻表達的更曖昧,稱定價將由英偉達的合作伙伴設定。

上個季度,英偉達僅在該領域的營收就達到創(chuàng)紀錄的103.2億美元(總營收為135.1億美元),比去年同期增長了171%。毫無疑問,英偉達希望新的GPU和超級芯片將有助于延續(xù)這一趨勢。因為這就是它的賺錢之本。

目前H200的定價還沒有公開,它更多會是英偉達對于后續(xù)壟斷前景的自信指數。

新顯卡能否打破GPU荒?期待H100增量更現實

H100上市至今一直處于供不應求的狀態(tài)。包括甲骨文創(chuàng)始人拉里埃里森和“硅谷鋼鐵俠”埃隆馬斯克都曾為能夠買到這款GPU在社交媒體上狂吹。

那在H200正式發(fā)售之后,客戶能否獲得新芯片,或者它是否會像H100一樣受到供應的限制--英偉達對此沒有太多的答案。

第一批H200芯片將于2024年第二季度發(fā)布,英偉達表示,它正在與“全球系統(tǒng)制造商和云服務提供商”合作。除此之外,英偉達發(fā)言人克里斯汀內山(Kristin Uchiyama)拒絕就生產數量發(fā)表評論。

英偉達宣布這一消息之際,人工智能公司仍在拼命尋找H100芯片。英偉達的芯片被視為有效處理訓練和操作生成式圖像工具和大型語言模型所需的大量數據的最佳選擇。誰擁有H100就會成為硅谷的焦點,初創(chuàng)公司一直在通過合作獲得對H100的訪問權。

內山表示,H200的發(fā)布不會影響H100的產量。他表示:“你將看到我們全年的總體供應量將會增長,我們將繼續(xù)購買長期供應。”

對于GPU購買者而言,明年的情況可能會比今年好許多。今年8月,英國《金融時報》報道稱,英偉達計劃在2024年將H100的產量增加兩倍,目標是明年生產多達200萬顆,高于2023年的約50萬顆。但隨著生成式人工智能在今年迎來大發(fā)展,市場對先進GPU的需求可能只會更大。

贏是一定贏,就看是大贏,中贏還是小贏

贊助本站

人工智能實驗室
相關內容
AiLab云推薦
推薦內容
展開

熱門欄目HotCates

Copyright © 2010-2024 AiLab Team. 人工智能實驗室 版權所有    關于我們 | 聯系我們 | 廣告服務 | 公司動態(tài) | 免責聲明 | 隱私條款 | 工作機會 | 展會港