劃重點
01Meta在2024年開放計算項目全球峰會上推出最新的開放式AI硬件設計,展示推動AI計算架構(gòu)開放化的決心。
02為滿足Llama 3.1模型的巨大計算需求,Meta部署了超過16,000個NVIDIA H100 GPU,AI計算能力實現(xiàn)飛躍。
03通過高性能計算(HPC)系統(tǒng)與高帶寬網(wǎng)絡相結(jié)合的方式,Meta實現(xiàn)了AI集群訓練中的資源調(diào)度優(yōu)化。
04此外,Meta推出了Catalina機架和Grand Teton平臺,分別支持AI工作負載和多加速器,推動AI基礎設施的開放化發(fā)展。
05與微軟的長期合作,Meta展示了開放創(chuàng)新的強大力量,共同推動了AI硬件的技術(shù)前沿。
以上內(nèi)容由騰訊混元大模型生成,僅供參考
芝能智芯出品在2024年開放計算項目(OCP)全球峰會上,Meta推出了其最新的開放式AI硬件設計,展示了推動AI計算架構(gòu)開放化的堅定決心。Meta不僅致力于技術(shù)進步,還希望通過開放的硬件設計,推動全球AI基礎設施的發(fā)展,設立全新標準。Meta通過一系列創(chuàng)新硬件來實現(xiàn)的,包括為AI工作負載量身打造的高性能計算平臺、尖端的開放式機架設計,以及專門為優(yōu)化AI模型性能而開發(fā)的網(wǎng)絡架構(gòu),提升AI的計算能力,還會為整個行業(yè)提供開放、靈活的基礎設施,促進更多的技術(shù)合作與創(chuàng)新。
Part 1Meta的開放式AI硬件設計:Llama 3.1的突破Meta的Llama 3.1模型展現(xiàn)了其在AI模型規(guī)模和技術(shù)上的重大突破。Llama 3.1作為一個擁有4050億個參數(shù)、支持128k token上下文窗口的密集轉(zhuǎn)換器模型,對硬件提出了前所未有的計算需求。為滿足如此龐大的計算需求,Meta部署了超過16,000個NVIDIA H100 GPU,這標志著Meta在AI集群訓練中的資源調(diào)度達到了新的高度。Meta在一年內(nèi)迅速擴展訓練集群的規(guī)模,從最初的1K GPU一路攀升至如今的16K GPU,標志著AI計算能力的飛躍。相較于以前依賴128個NVIDIA A100 GPU的小規(guī)模AI任務,這種大規(guī)模集群擴展不僅提高了計算能力,還為未來的AI硬件發(fā)展奠定了堅實基矗●網(wǎng)絡架構(gòu)的核心作用:高效無阻塞網(wǎng)絡在構(gòu)建大型AI集群時,網(wǎng)絡架構(gòu)和帶寬是決定計算效率的關(guān)鍵因素。Meta采用了高性能計算(HPC)系統(tǒng)與高帶寬網(wǎng)絡相結(jié)合的方式,確保GPU和加速器之間的通信高速且穩(wěn)定。未來幾年,Meta預計每個加速器的注入帶寬將達到每秒1TB,標準化的二分帶寬也將與之匹配。這一增長遠超現(xiàn)有網(wǎng)絡能力,預示著AI計算的飛速發(fā)展。Meta研發(fā)了多層次無阻塞網(wǎng)絡結(jié)構(gòu),該結(jié)構(gòu)在重負載下通過擁塞控制,確保網(wǎng)絡的可預測性和穩(wěn)定性。無論面對多么復雜的AI任務,Meta的新網(wǎng)絡架構(gòu)都將為AI集群提供持續(xù)的高效性能。●Catalina機架:AI基礎設施的開放架構(gòu)Meta在開放計算項目中推出的Catalina機架,Catalina基于NVIDIA Blackwell平臺設計,專為AI工作負載打造,具備模塊化和靈活性的特點。它還支持NVIDIA GB200 Grace Blackwell超級芯片,能夠滿足AI任務不斷增長的計算需求。Catalina解決了AI集群中GPU功耗不斷增加的難題。其Orv3高功率機架(HPR)設計,能夠支持高達140kW的功率需求,通過開放硬件設計,更多合作伙伴可以基于Catalina定制和部署AI解決方案。●Grand Teton平臺:支持多加速器的開放平臺Meta的Grand Teton平臺自發(fā)布以來,成為AI基礎設施的重要組成部分。Grand Teton平臺最初是為大規(guī)模推薦模型等內(nèi)存帶寬受限任務設計的,如今Meta進一步擴展了其支持范圍,新增了對AMD Instinct MI300X加速器的支持。AMD Instinct MI300X的加入,為Meta的AI任務帶來了更高的計算能力與內(nèi)存帶寬支持。通過高度集成的單片系統(tǒng)設計,新一代Grand Teton平臺不僅顯著提升了內(nèi)存容量,還擴展了網(wǎng)絡帶寬,使其能夠有效應對更大規(guī)模的AI模型訓練與推理任務。
Part 2AMD Instinct MI300XAMD Instinct MI300X在AI硬件領域的表現(xiàn)尤為亮眼。作為全球首款集成式APU(加速處理單元),MI300X將CPU和GPU通過高級封裝技術(shù)融合在同一芯片上。這種異構(gòu)架構(gòu)能夠極大地縮短數(shù)據(jù)在計算單元之間的傳輸延遲,并提升性能密度,尤其適用于大規(guī)模并行計算的AI推理工作負載。MI300X配備了128GB的高帶寬內(nèi)存(HBM3),為復雜的深度學習模型提供了充裕的內(nèi)存支持。這一內(nèi)存容量和帶寬的大幅提升,有效解決了深度學習訓練和推理過程中的內(nèi)存瓶頸問題。
AI集群的規(guī)模擴展對網(wǎng)絡架構(gòu)提出了新的挑戰(zhàn)。Meta推出了分解式調(diào)度結(jié)構(gòu)(DSF),在應對大規(guī)模加速器協(xié)作中顯示出了巨大優(yōu)勢。通過開放式網(wǎng)絡架構(gòu),Meta能夠靈活應對供應鏈、擴展性和功率密度等問題。DSF支持基于以太網(wǎng)的RoCE接口,能夠連接多家供應商的加速器和網(wǎng)絡端點,包括NVIDIA、Broadcom和AMD等。通過這種開放式網(wǎng)絡設計,Meta不僅提高了系統(tǒng)的靈活性,還為多供應商合作提供了更多機會,推動了AI基礎設施的開放化發(fā)展。
Meta與微軟的長期合作,為開放式AI硬件的創(chuàng)新提供了重要支持。兩家公司在交換機抽象接口(SAI)、OAM標準等多個關(guān)鍵項目上緊密合作,并聯(lián)合開發(fā)了Mount Diablo分解式電源機架。通過這種跨公司合作,Meta與微軟展示了開放創(chuàng)新的強大力量,共同推動了AI硬件的技術(shù)前沿。Meta的AI硬件愿景不僅是技術(shù)的進步,更是對全球AI社區(qū)開放合作的承諾。通過共享先進的硬件設計和推動標準化,Meta希望促進全球開發(fā)者和企業(yè)的參與,進一步推動AI技術(shù)的普及化與發(fā)展。未來,Meta將繼續(xù)投資于開放式硬件,推動AI技術(shù)的進步,并為全世界帶來更多AI的創(chuàng)新與機遇。小結(jié)2024年開放計算項目上展示其前沿的開放式AI硬件愿景,從高性能的Catalina機架到支持多加速器的Grand Teton平臺,Meta通過一系列硬件創(chuàng)新與開放設計,推動了AI基礎設施的發(fā)展。