智東西(公眾號:zhidxcom)
編譯 | 李水青
編輯 | 心緣
智東西5月19日消息,當?shù)貢r間5月18日,Meta在官網(wǎng)發(fā)布公告,為了應對未來十年AI算力需求急劇增長,Meta正執(zhí)行一項宏偉計劃專為AI建設下一代基礎設施。
Meta公布了其為AI構建下一代基礎設施的最新進展,包括首款用于運行AI模型的定制芯片、一個全新的AI優(yōu)化數(shù)據(jù)中心設計、首款視頻轉碼ASIC,以及集成16000塊GPU、用于加速AI訓練的AI超級計算機RSC等。
▲Meta官網(wǎng)關于AI基礎設施細節(jié)的披露
Meta將AI視為公司的核心基礎設施。自從2010年Meta的第一個數(shù)據(jù)中心破土動工至今,AI已成為每天使用Meta系列應用程序的30多億人的引擎。從2015年的Big Sur硬件到PyTorch的開發(fā),再到去年Meta的AI超算的初步部署,Meta當下正將這些基礎設施進一步升級進化。
一、Meta首代AI推理加速器,7nm制程、102.4TOPS算力
MTIA(Meta Training and Inference Accelerator),是Meta第一個針對推理工作負載的內部定制加速器芯片系列。
AI工作負載在Meta的業(yè)務中中無處不在,這是廣泛應用項目的基礎,包括內容理解、信息流、生成式AI和廣告排名等。隨著AI模型的大小和復雜性的增加,底層硬件系統(tǒng)需要在保持效率的同時提供指數(shù)級增長的內存和計算。但Meta發(fā)現(xiàn)CPU難以滿足其規(guī)模所需的效率水平需求,于是針對這一挑戰(zhàn)設計了Meta自研訓練和推理加速器MTIA ASIC系列。
自2020年起,Meta為其內部工作負載設計了第一代MTIA ASIC。該加速器采用臺積電7nm工藝,運行頻率為800MHz,在INT8精度下提供102.4TOPS算力,在FP16精度下提供51.2TFLOPS算力。它的熱設計功率(TDP)為25W。
據(jù)介紹,MTIA提供了比CPU更高的計算能力和效率,通過同時部署MTIA芯片和GPU,其將為每個工作負載提供更好的性能、更低的延遲和更高的效率。
二、布局下一代數(shù)據(jù)中心,開發(fā)首款視頻轉碼ASIC
Meta的下一代數(shù)據(jù)中心設計將支持其當前的產品,同時支持未來幾代AI硬件的訓練和推理。這個新的數(shù)據(jù)中心將是面向AI優(yōu)化設計,支持液冷AI硬件和連接數(shù)千個AI芯片的高性能AI網(wǎng)絡,用于數(shù)據(jù)中心規(guī)模的AI訓練集群。
據(jù)官網(wǎng)解讀,Meta下一代數(shù)據(jù)中心還將更快、更經(jīng)濟地構建,并將補充其他新硬件,例如Meta的第一個內部開發(fā)的ASIC解決方案MSVP,旨在為Meta不斷增長的視頻工作負載提供動力。
隨著生成式AI等新技術內容產生,人們對視頻基礎設施的需求進一步加劇,這推動Meta推出了一款可擴展視頻處理器MSVP。
MSVP是Meta為內部開發(fā)的第一個用于視頻轉碼的ASIC。MSVP是可編程和可擴展的,并且可以配置為有效地支持點播所需的高質量轉碼,以及直播所需的低延遲和更快的處理時間。未來,MSVP還將幫助為Meta應用系列的每個成員帶來新形式的視頻內容包括AI生成的內容以及VR(虛擬現(xiàn)實)和AR(增強現(xiàn)實)內容。
▲MSVP的架構示意圖
三、AI超算集成16000個GPU,支持LLaMA大模型加速訓練迭代
據(jù)Meta公告,其AI超級計算機(RSC)是世界上最快的人工智能超級計算機之一,旨在訓練下一代大型AI模型,為新的AR工具、內容理解系統(tǒng)、實時翻譯技術等提供動力。
Meta RSC具有16000個GPU,所有GPU都可以通過三級Clos網(wǎng)絡結構訪問,為2000個訓練系統(tǒng)中的每個系統(tǒng)提供全帶寬。在過去的一年里,RSC一直在推動像LLaMA這樣的研究項目。
LLaMA是Meta在今年早些時候構建并開源的大型語言模型,具有650億參數(shù)規(guī)模。Meta稱其目標是提供一個更孝更高性能的模型,研究人員可以在不需要重要硬件的情況下對特定任務進行研究和微調。
Meta基于1.4萬億Tokens訓練了LLaMA 65B和較小的LLaMA 33B。其最小的模型,LLaMA 7B,訓練也用到了一萬億Tokens。大規(guī)模運行的能力允許Meta加速訓練和調優(yōu)迭代,比其他企業(yè)更快地發(fā)布模型。
結語:大模型技術應用,倒逼大廠加速布局基礎設施
Meta之所以自定義設計其大部分基礎設施,主要是因為這能使其優(yōu)化端到端的體驗,包括從物理層到軟件層再到實際的用戶體驗。因為從上到下控制堆棧,所以其可以根據(jù)自己的特定需求對其進行定制。這些基礎設施將支持Meta開發(fā)和部署更大規(guī)模、更復雜的AI大模型。
在未來幾年里,我們將看到芯片設計、專用和特定工作負載的AI基礎設施、新系統(tǒng)和工具的專業(yè)化、定制化程度的提高,以及產品和設計支持效率的提高。這些都將提供建立在最新研究基礎上的日益復雜的模型和產品,使世界各地的人們能夠使用這種新興技術。
來源:Meta官網(wǎng)