劃重點(diǎn)
01xAI項(xiàng)目與超微合作,完成了擁有10萬塊NVIDIA H100 GPU的Colossus集群,刷新業(yè)界紀(jì)錄。
02超微的液冷技術(shù)為密集的AI計(jì)算提供了有效的散熱路徑,滿足了當(dāng)前集群的高熱負(fù)荷。
03除此之外,xAI Colossus采用了基于NVMe的全閃存架構(gòu),提高了數(shù)據(jù)傳輸效率。
04同時,以太網(wǎng)技術(shù)構(gòu)建了高達(dá)400GbE的連接速度,為GPU節(jié)點(diǎn)之間的通信提供了足夠的帶寬支持。
05超微的定制化解決方案有效地整合了這些前沿技術(shù),展現(xiàn)了超大規(guī)模AI集群的設(shè)計(jì)理念和部署技巧。
以上內(nèi)容由大模型生成,僅供參考
芝能智芯出品人工智能技術(shù)的迅猛發(fā)展,對算力的需求急劇增加,尤其是大型語言模型(LLMs)和生成式AI應(yīng)用的普及,推動了超大規(guī)模計(jì)算集群的建設(shè)。由埃隆馬斯克創(chuàng)建的xAI項(xiàng)目通過與超微(Supermicro)的合作,迅速完成了擁有10萬塊NVIDIA H100 GPU的Colossus集群的建設(shè),不僅在規(guī)模上刷新了業(yè)界紀(jì)錄,還在液冷技術(shù)、網(wǎng)絡(luò)架構(gòu)、存儲優(yōu)化等方面展現(xiàn)了前沿技術(shù)。
Part 1超微液冷技術(shù)助力高效計(jì)算
在當(dāng)前的AI集群中,計(jì)算熱量的管理已成為關(guān)鍵瓶頸。xAI選擇超微作為主要硬件供應(yīng)商的一個重要原因就是其先進(jìn)的液冷技術(shù)。傳統(tǒng)風(fēng)冷方式難以適應(yīng)數(shù)萬GPU并行工作的高熱量需求,而液冷方案為這種密集的AI計(jì)算提供了有效的散熱路徑。每個Supermicro 4U液冷機(jī)架包含8個NVIDIA H100 GPU服務(wù)器,總計(jì)64塊GPU,這種密集布局要求每個計(jì)算節(jié)點(diǎn)都能高效散熱。
通過定制的液冷塊,超微在機(jī)架層面上實(shí)現(xiàn)了水冷系統(tǒng)的精細(xì)控制。與傳統(tǒng)AI服務(wù)器僅對風(fēng)冷系統(tǒng)加裝液冷模塊不同,超微的液冷設(shè)計(jì)完全從零開始進(jìn)行硬件結(jié)構(gòu)和散熱路徑的重塑。這種自上而下的冷卻方案不僅在散熱效率上遠(yuǎn)高于改裝液冷系統(tǒng),還大幅降低了設(shè)備的故障率與維護(hù)成本。在xAI Colossus的數(shù)據(jù)中心中,每個機(jī)架配備獨(dú)立的冷卻液分配單元(CDU),并通過快速斷開裝置,使液冷系統(tǒng)的拆裝更加簡便,大大縮短了維護(hù)時間。這種液冷方案的成功應(yīng)用,不僅滿足了當(dāng)前集群的高熱負(fù)荷,還為未來更高密度的集群布局提供了參考。
NVIDIA H100 GPU是目前最強(qiáng)大的AI計(jì)算芯片之一,而在xAI Colossus中,每個Supermicro服務(wù)器都配備了8個H100 GPU。通過Broadcom PCIe交換機(jī)的加持,這些GPU可以實(shí)現(xiàn)更高效的數(shù)據(jù)傳輸和計(jì)算性能。超微的主板直接將四個PCIe交換機(jī)集成在液冷塊上,無需額外的主板模塊。這一設(shè)計(jì)有效減少了硬件體積和連接復(fù)雜性,顯著提升了數(shù)據(jù)傳輸效率。在多GPU協(xié)同工作的情況下,GPU之間的高帶寬連接尤為重要,尤其是在處理大型語言模型(LLMs)和訓(xùn)練Transformer模型等數(shù)據(jù)量極大的AI任務(wù)時。PCIe交換機(jī)提供了高速連接的橋梁,將不同GPU的運(yùn)算資源高效整合。這種架構(gòu)實(shí)現(xiàn)了GPU資源的最大化利用,使得集群在運(yùn)行超大規(guī)模AI模型時依然保持高效、穩(wěn)定的計(jì)算表現(xiàn)。
在AI集群中,數(shù)據(jù)傳輸速率對模型的訓(xùn)練時間和效率至關(guān)重要。傳統(tǒng)的數(shù)據(jù)存儲方式采用的是磁盤陣列,而xAI Colossus采用了基于NVMe的全閃存架構(gòu)。這種存儲方式在功耗、存取速度和空間效率方面均優(yōu)于傳統(tǒng)磁盤存儲。閃存在成本上高于磁盤陣列,但其數(shù)據(jù)傳輸效率顯著降低了集群的訓(xùn)練時間,從而在總擁有成本(TCO)上取得優(yōu)勢。超微在設(shè)計(jì)NVMe存儲節(jié)點(diǎn)時,與計(jì)算服務(wù)器保持了一致的外觀和架構(gòu),這種“模塊化”設(shè)計(jì)降低了管理的復(fù)雜度,也便于在數(shù)據(jù)中心內(nèi)靈活配置和擴(kuò)展。這種存儲架構(gòu)能夠快速響應(yīng)海量數(shù)據(jù)存儲和讀取需求,為xAI Colossus的集群提供了極具彈性的存儲支撐。
在如此大規(guī)模的集群中,網(wǎng)絡(luò)架構(gòu)的選擇對整體性能至關(guān)重要。xAI Colossus采用了以太網(wǎng)技術(shù),并利用NVIDIA的BlueField-3 SuperNIC與Spectrum-X網(wǎng)絡(luò)構(gòu)建了高達(dá)400GbE的連接速度。相比傳統(tǒng)的1GbE網(wǎng)絡(luò),這種400倍的速度提升為GPU節(jié)點(diǎn)之間的通信提供了足夠的帶寬支持,使得訓(xùn)練任務(wù)能夠在節(jié)點(diǎn)間迅速分布和整合。BlueField-3 SuperNIC的使用解決了集群在并行運(yùn)算時常見的數(shù)據(jù)瓶頸問題。通過RDMA技術(shù),xAI Colossus能夠在不同GPU之間實(shí)現(xiàn)高速數(shù)據(jù)共享,極大提高了AI模型訓(xùn)練的效率。以太網(wǎng)技術(shù)在此起到關(guān)鍵作用,其極強(qiáng)的擴(kuò)展性確保了Colossus集群可以靈活擴(kuò)容,同時也適用于未來AI負(fù)載的快速增長需求。
Part 2液冷網(wǎng)絡(luò)交換機(jī):推進(jìn)行業(yè)冷卻技術(shù)創(chuàng)新
在參觀xAI Colossus設(shè)施的過程中,液冷網(wǎng)絡(luò)交換機(jī)的應(yīng)用成為一大亮點(diǎn)。與傳統(tǒng)的風(fēng)冷交換機(jī)不同,液冷交換機(jī)通過共封裝光學(xué)模塊實(shí)現(xiàn)了更加有效的散熱。當(dāng)前的高性能網(wǎng)絡(luò)交換機(jī)不僅要處理高密度計(jì)算流量,還需要應(yīng)對設(shè)備本身發(fā)熱問題,這種液冷共封裝設(shè)計(jì)在降低設(shè)備熱量的同時,大大提升了網(wǎng)絡(luò)設(shè)備的穩(wěn)定性和壽命。通過使用液冷交換機(jī),xAI Colossus能夠支持更高的網(wǎng)絡(luò)密度和速度,也為未來AI數(shù)據(jù)中心的設(shè)備選擇提供了新的可能性。這種全液冷方案將逐步替代傳統(tǒng)風(fēng)冷交換機(jī),有望引領(lǐng)未來AI數(shù)據(jù)中心在冷卻技術(shù)上的全面革新。
xAI Colossus數(shù)據(jù)中心不僅展示了如何在短時間內(nèi)部署超大規(guī)模AI集群,也為未來AI數(shù)據(jù)中心建設(shè)提供了重要參考。這一項(xiàng)目的成功表明,高效的液冷系統(tǒng)、模塊化的NVMe存儲、以太網(wǎng)網(wǎng)絡(luò)以及高性能的GPU計(jì)算節(jié)點(diǎn)構(gòu)成了現(xiàn)代AI數(shù)據(jù)中心的核心要素。此外,超微的定制化解決方案有效地將這些前沿技術(shù)整合在一起,充分展現(xiàn)了超大規(guī)模AI集群的設(shè)計(jì)理念和部署技巧。未來AI數(shù)據(jù)中心的發(fā)展方向?qū)⑦M(jìn)一步朝著低功耗、高計(jì)算密度和快速部署的方向演進(jìn)。超微在Colossus項(xiàng)目中積累的技術(shù)經(jīng)驗(yàn),將在未來AI集群中廣泛應(yīng)用,為各類AI任務(wù)提供更強(qiáng)的算力支撐。隨著AI應(yīng)用需求的不斷增長,類似xAI Colossus這樣的集群將逐步成為主流,推動AI技術(shù)的普及與應(yīng)用。小結(jié)xAI Colossus集群的建成不僅為全球AI計(jì)算設(shè)施樹立了新的標(biāo)桿,還通過超微提供的液冷系統(tǒng)、NVMe存儲方案以及高速以太網(wǎng)網(wǎng)絡(luò),展示了超大規(guī)模AI計(jì)算的可能性與未來發(fā)展方向。