展會(huì)信息港展會(huì)大全

揭秘馬斯克Colossus AI超算:集成了10萬(wàn)個(gè)英偉達(dá)H100 GPU
來(lái)源:互聯(lián)網(wǎng)   發(fā)布日期:2024-10-30 13:12:27   瀏覽:443次  

導(dǎo)讀:劃重點(diǎn)01馬斯克旗下人工智能企業(yè)xAI的Colossus AI超級(jí)計(jì)算機(jī)集群已集成100000個(gè)英偉達(dá)H100 GPU,成為全球最強(qiáng)大的AI超級(jí)計(jì)算機(jī)集群。02該集群采用超威電腦(Supermicro)的服務(wù)器,基于NVIDIA HGX H100方案,每個(gè)服務(wù)器有8個(gè)H100 GPU。03除此之外,Colossus集群中的存儲(chǔ)和CPU計(jì)算機(jī)服務(wù)器也采用Supermicro機(jī)箱,但詳細(xì)信息尚未曝光。04為了應(yīng)對(duì)突發(fā)停電,該超級(jí)計(jì)算機(jī)集群外面還 ......

劃重點(diǎn)

01馬斯克旗下人工智能企業(yè)xAI的Colossus AI超級(jí)計(jì)算機(jī)集群已集成100000個(gè)英偉達(dá)H100 GPU,成為全球最強(qiáng)大的AI超級(jí)計(jì)算機(jī)集群。

02該集群采用超威電腦(Supermicro)的服務(wù)器,基于NVIDIA HGX H100方案,每個(gè)服務(wù)器有8個(gè)H100 GPU。

03除此之外,Colossus集群中的存儲(chǔ)和CPU計(jì)算機(jī)服務(wù)器也采用Supermicro機(jī)箱,但詳細(xì)信息尚未曝光。

04為了應(yīng)對(duì)突發(fā)停電,該超級(jí)計(jì)算機(jī)集群外面還綁有特斯拉Megapack電池,可在毫秒之間快速提供備用電源。

以上內(nèi)容由騰訊混元大模型生成,僅供參考

揭秘馬斯克Colossus AI超算:集成了10萬(wàn)個(gè)英偉達(dá)H100 GPU

10月29日消息,YouTube視頻博主 ServeTheHome 首次曝光了埃隆馬斯克 (Elon Musk)旗下人工智能企業(yè)xAI的Colossus AI 超級(jí)計(jì)算機(jī)集群,其集成了100000個(gè)英偉達(dá)(NVIDIA)H100 GPU,號(hào)稱(chēng)是目前全球最強(qiáng)大的AI超級(jí)計(jì)算機(jī)集群。

早在今年7月下旬,馬斯克就在“X”平臺(tái)上宣布,自己已經(jīng)啟動(dòng)了“世界上最強(qiáng)大的 AI 集群”。這座AI集群從開(kāi)始建設(shè)到完成組裝僅花了122天就完成了,目前已經(jīng)上線(xiàn)運(yùn)行了約3個(gè)月。

根據(jù)ServeTheHome曝光的信息來(lái)看,龐大的Colossus AI超級(jí)計(jì)算機(jī)集群采用的是超威電腦(Supermicro)的服務(wù)器,其基于NVIDIA HGX H100方案,每個(gè)服務(wù)器中擁有8個(gè)H100 GPU,封裝在 Supermicro 的 4U 通用 GPU 液冷系統(tǒng)內(nèi),為每個(gè) GPU 提供簡(jiǎn)單的熱插拔液冷。這些服務(wù)器裝載在機(jī)架內(nèi),每個(gè)機(jī)架可容納 8 臺(tái)服務(wù)器,也就是說(shuō)每個(gè)機(jī)架內(nèi)有 64 個(gè) GPU。1U 歧管夾在每個(gè) HGX H100 之間,提供服務(wù)器所需的液體冷卻。每個(gè)機(jī)架的底部是另一個(gè) Supermicro 4U 單元,這次配備了冗余泵系統(tǒng)和機(jī)架監(jiān)控系統(tǒng)。

揭秘馬斯克Colossus AI超算:集成了10萬(wàn)個(gè)英偉達(dá)H100 GPU

△四組 xAI 的 HGX H100 服務(wù)器機(jī)架,每組可容納八臺(tái)服務(wù)器。(圖片來(lái)源:ServeTheHome)

揭秘馬斯克Colossus AI超算:集成了10萬(wàn)個(gè)英偉達(dá)H100 GPU

△xAI Colossus GPU 服務(wù)器的后部訪問(wèn)。每臺(tái)服務(wù)器有 9 根以太網(wǎng)電纜,每臺(tái)服務(wù)器有 4 個(gè)電源。電源和液體冷卻軟管也可見(jiàn)。(圖片來(lái)源:ServeTheHome)

這些機(jī)架以 8 個(gè)為一組配對(duì),每個(gè)陣列有 512 個(gè) GPU。每臺(tái)服務(wù)器都有四個(gè)冗余電源,GPU 機(jī)架的后部露出三相電源、以太網(wǎng)交換機(jī)和一個(gè)提供所有液體冷卻的機(jī)架大小的歧管。Colossus 集群中有超過(guò) 1500 個(gè) GPU 機(jī)架,或近 200 個(gè)機(jī)架陣列。據(jù)英偉達(dá)首席執(zhí)行官黃仁勛稱(chēng),這 200 個(gè)陣列的 GPU 僅用了三周時(shí)間就完成了安裝。

由于 AI 超級(jí)集群不斷訓(xùn)練模型的高帶寬要求,xAI 在其網(wǎng)絡(luò)互連性方面提供了超大的帶寬。目前每個(gè)顯卡都有一個(gè) 400GbE 的專(zhuān)用 NIC(網(wǎng)絡(luò)接口控制器),每臺(tái)服務(wù)器還有一個(gè)額外的 400Gb NIC。這意味著每臺(tái) HGX H100 服務(wù)器都有每秒 3.6 TB 的以太網(wǎng)速率。整個(gè)集群都在以太網(wǎng)上運(yùn)行,而不是 InfiniBand 或其他在超級(jí)計(jì)算領(lǐng)域標(biāo)配的連接。

揭秘馬斯克Colossus AI超算:集成了10萬(wàn)個(gè)英偉達(dá)H100 GPU

△仰望一大片的黃色以太網(wǎng)電纜,將 xAI Colossus 集群連接在一起。多層過(guò)寬的電纜線(xiàn)路嵌入天花板中。(圖片來(lái)源:ServeTheHome)

揭秘馬斯克Colossus AI超算:集成了10萬(wàn)個(gè)英偉達(dá)H100 GPU

△xAI 的 Colossus CPU 計(jì)算服務(wù)器,看起來(lái)與該站點(diǎn)中也廣泛使用的 Supermicro 存儲(chǔ)服務(wù)器完全相同。(圖片來(lái)源:ServeTheHome)

當(dāng)然,像 xAI 旗下Grok 3 聊天機(jī)器人這樣基于訓(xùn)練 AI 模型的超級(jí)計(jì)算機(jī)需要的不僅僅是 GPU 才能運(yùn)行。Colossus集群當(dāng)中的存儲(chǔ)和 CPU 計(jì)算機(jī)服務(wù)器的詳細(xì)信息仍未曝光,不過(guò)這些服務(wù)器也大多采用 Supermicro 機(jī)箱。一波又一波的 NVMe 轉(zhuǎn)發(fā) 1U 服務(wù)器內(nèi)部帶有某種 x86 平臺(tái) CPU,可容納存儲(chǔ)和 CPU 計(jì)算,還具有后入式液體冷卻功能。

另外,在該超級(jí)計(jì)算機(jī)集群的外面,還可以看到一些大量捆綁的特斯拉 Megapack 電池(每個(gè)最多可容納 3.9 MWh)。該電池陣列的是為了應(yīng)對(duì)突發(fā)停電的臨時(shí)備用電源,其可以在毫秒之間快速提供供電,相比柴油發(fā)電機(jī)反應(yīng)要快得多,可以使得有足夠時(shí)間去啟動(dòng)其他備用電源。

編輯:芯智訊-浪客劍

贊助本站

相關(guān)內(nèi)容
AiLab云推薦
推薦內(nèi)容
展開(kāi)

熱門(mén)欄目HotCates

Copyright © 2010-2024 AiLab Team. 人工智能實(shí)驗(yàn)室 版權(quán)所有    關(guān)于我們 | 聯(lián)系我們 | 廣告服務(wù) | 公司動(dòng)態(tài) | 免責(zé)聲明 | 隱私條款 | 工作機(jī)會(huì) | 展會(huì)港