展會(huì)信息港展會(huì)大全

這顆芯片,暗藏AI未來!
來源:互聯(lián)網(wǎng)   發(fā)布日期:2023-06-06 06:18:15   瀏覽:6350次  

導(dǎo)讀:在五月底的Computex上,Nvidia發(fā)布了新一代超算DGX GH200。根據(jù)Nvidia的官方資料,該DGX GH200超級計(jì)算機(jī)將基于其Grace Hopper superchip,在DGX GH200中,可包含多達(dá)256個(gè)Grace Hopper超級芯片,能提供高達(dá)1 EFLOPS的AI算力,另外每個(gè)DGX GH200中,都能提供...

在五月底的Computex上,Nvidia發(fā)布了新一代超算DGX GH200。根據(jù)Nvidia的官方資料,該DGX GH200超級計(jì)算機(jī)將基于其Grace Hopper superchip,在DGX GH200中,可包含多達(dá)256個(gè)Grace Hopper超級芯片,能提供高達(dá)1 EFLOPS的AI算力,另外每個(gè)DGX GH200中,都能提供高達(dá)144TB的內(nèi)存,GPU和CPU之間的帶寬則達(dá)到了900 GB/s。在數(shù)據(jù)互聯(lián)方面,DGX GH200使用了NVLink,并且使用了自研的NVSwitch網(wǎng)絡(luò)交換芯片來滿足互聯(lián)的性能和可擴(kuò)展性。

我們可以看到,DGX GH200中,最關(guān)鍵的芯片,包括CPU/GPU以及數(shù)據(jù)互聯(lián)等,幾乎都是Nvidia自研的芯片。相比而言,上一代使用Hopper GPU的超算DGX H100 SuperPOD還是在使用Intel的Sapphire Rapids CPU,并且由于Intel的CPU并不提供NVLink的接口,因此限制了其內(nèi)存空間的可擴(kuò)展性上一代DGX H100 SuperPOD的內(nèi)存是20TB,而DGX GH200則提供了144TB,直接翻了7倍以上。我們將會(huì)在接下來的分析中看到,內(nèi)存空間的拓展是目前超級計(jì)算機(jī)最關(guān)鍵的指標(biāo)之一,而Nvidia在多年芯片架構(gòu)方面的努力之后,終于有機(jī)會(huì)能使用自研芯片來實(shí)現(xiàn)這樣一個(gè)內(nèi)存空間大到驚人的超級計(jì)算機(jī)。

DGX GH200超級計(jì)算機(jī)主要針對超高性能人工智能計(jì)算。根據(jù)目前Nvidia的消息,谷歌和微軟等人工智能領(lǐng)域的領(lǐng)軍企業(yè)將會(huì)成為DGX GH200的首批客戶。

大模型人工智能時(shí)代,超級計(jì)算機(jī)重要性凸顯

目前,人工智能已經(jīng)進(jìn)入了以大模型為主導(dǎo)的下一個(gè)時(shí)代。以ChatGPT為代表的大語言模型可以從海量的語料數(shù)據(jù)中學(xué)習(xí)并且擁有前所未有的能力,但是相應(yīng)地這些大語言模型也有相當(dāng)大的參數(shù)量,例如根據(jù)現(xiàn)有的資料,OpenAI的GPT4有大約1T的參數(shù)量。除了在自然語言處理方面之外,大模型人工智能模型也廣泛應(yīng)用在推薦系統(tǒng)等領(lǐng)域。隨著這些大模型的進(jìn)一步發(fā)展,預(yù)計(jì)大模型參數(shù)量很快就會(huì)進(jìn)入到1T乃至10T數(shù)量級。

顯然,這樣的模型不可能在單臺(tái)常規(guī)服務(wù)器上進(jìn)行訓(xùn)練,因?yàn)閱闻_(tái)服務(wù)器的內(nèi)存不足以支撐這些大模型的訓(xùn)練/推理任務(wù)。因此,在人工智能領(lǐng)域,通用的做法是把這些大模型分散(sharding)在多臺(tái)服務(wù)器上進(jìn)行訓(xùn)練和推理。

舉例來說,可以把一個(gè)大模型分散到32臺(tái)服務(wù)器上進(jìn)行訓(xùn)練,其中每臺(tái)服務(wù)器都有自己獨(dú)立的內(nèi)存空間,并且負(fù)責(zé)大模型神經(jīng)網(wǎng)絡(luò)中一些層的執(zhí)行(以確保每臺(tái)服務(wù)器的內(nèi)存足夠容納相應(yīng)的計(jì)算任務(wù)),然后每臺(tái)服務(wù)器在完成計(jì)算之后,通過網(wǎng)絡(luò)把結(jié)果歸并到一起成為最終的結(jié)果。

這樣常規(guī)的分布式計(jì)算的做法理論上可以支持無限大的模型,只要能夠把模型劃分到足夠細(xì)的顆粒度讓單臺(tái)服務(wù)器可以容納即可。然而,這樣的做法有一個(gè)明顯的系統(tǒng)瓶頸,就是在這樣的云端分布式計(jì)算中,每臺(tái)服務(wù)器之間通常使用網(wǎng)絡(luò)(以太網(wǎng)或者更高速的InfiniBand)連接在一起,因此每次計(jì)算的結(jié)果歸并部分往往就會(huì)成為系統(tǒng)性能瓶頸,因?yàn)樵跉w并這一步需要把每臺(tái)服務(wù)器的數(shù)據(jù)通過網(wǎng)絡(luò)傳遞到一起,而顯然在分布式計(jì)算中服務(wù)器數(shù)量越多且網(wǎng)絡(luò)帶寬越小/延遲越大,整體的性能就會(huì)越差。

在這樣的背景下,超級計(jì)算機(jī)有機(jī)會(huì)會(huì)成為大模型時(shí)代的重要計(jì)算范式。和分布式計(jì)算略有不同的是,超級計(jì)算機(jī)強(qiáng)調(diào)把高性能計(jì)算單元盡可能集中,并且使用短距離超高帶寬/超低延遲的數(shù)據(jù)互聯(lián)連接在一起。由于這些計(jì)算單元之間的數(shù)據(jù)互聯(lián)性能遠(yuǎn)高于使用長距離的以太網(wǎng)/InfiniBand,因此整體性能并不會(huì)受到數(shù)據(jù)互聯(lián)帶寬的太多限制。相比傳統(tǒng)的分布式計(jì)算,使用超級計(jì)算機(jī)的方式可以在峰值算力相同的情況下,實(shí)現(xiàn)更高的實(shí)際計(jì)算能力。

在上一代人工智能計(jì)算(以計(jì)算機(jī)視覺領(lǐng)域的ResNet-50為代表)的范式中,每個(gè)模型的參數(shù)量大約在100M左右,每臺(tái)服務(wù)器容納下模型并不存在任何問題,因此在訓(xùn)練過程中通常不涉及到模型sharding的問題,數(shù)據(jù)互聯(lián)也不是整體性能的瓶頸,從而超級計(jì)算機(jī)并沒有得到那么多的關(guān)注。而在大模型時(shí)代,由于模型尺寸已經(jīng)超過了每臺(tái)服務(wù)器能夠容納的極限,因此如果需要實(shí)現(xiàn)高性能訓(xùn)練和推理,像DGX GH200這樣的超級計(jì)算機(jī)就成為了非常好的選擇。而且,隨著模型參數(shù)量越來越大,對于超級計(jì)算機(jī)的內(nèi)存容量也提出了越來越多的要求。Nvidia這次也發(fā)布了DGX GH200和上一代DGX H100性能的比較,我們可以看到在GPU數(shù)量相同的情況下,對于大模型應(yīng)用,擁有更多內(nèi)存且使用NVLink的DGX GH200的性能要數(shù)倍于內(nèi)存較小且使用InfiniBand的DGX H100。

Grace-Hopper架構(gòu)解析

在DGX GH200中,使用的是Grace Hopper superchip,每個(gè)DGX GH200中可以搭載多達(dá)256個(gè)Grace Hopper superchip。

什么是Grace Hopper superchip?根據(jù)Nvidia發(fā)布的白皮書,Hopper是Nvidia最新基于Hopper架構(gòu)的GPU(即H100系列),而Grace則是Nvidia自研的基于ARM架構(gòu)的高性能CPU。從指標(biāo)上來說,Grace Hopper superchip可以包含至多72個(gè)CPU核,而CPU通過LPDDR5X接口接了高達(dá)512GB的內(nèi)存,內(nèi)存帶寬達(dá)546 GB/s。而GPU這邊則通過HBM3接口接了最多96GB的顯存,帶寬可達(dá)3TB/s。除了CPU和GPU之外,Grace Hopper superchip中另一個(gè)至關(guān)重要的組件是NVLINK Chip-2-Chip(C2C)高性能互聯(lián)接口。在Grace Hopper superchip中,Grace CPU和Hopper GPU通過NVLINK C2C連接起來,該互聯(lián)可以提供高達(dá)900GB/s的數(shù)據(jù)互聯(lián)帶寬(相當(dāng)于x16 PCIe Gen5的7倍)。此外,由于NVLINK C2C可以提供一致性內(nèi)存接口,因此GPU和CPU之間的數(shù)據(jù)交換變得更加高效,GPU和CPU可以共享同一個(gè)內(nèi)存空間,系統(tǒng)應(yīng)用可以只把GPU需要的數(shù)據(jù)從CPU的內(nèi)存搬運(yùn)到GPU,而無需把整塊數(shù)據(jù)都復(fù)制過去。

從物理上說,Grace Hopper的CPU和GPU芯片仍然是兩塊獨(dú)立的芯片,并且互聯(lián)使用的也是PCB板上的走線;但是從邏輯上說,由于CPU和GPU都可以看到同一個(gè)內(nèi)存空間,因此可以看作是一個(gè)整體。

Grace Hopper superchip在設(shè)計(jì)的時(shí)候,可擴(kuò)展性顯然是作為首要指標(biāo)在考慮。在這里,NVLink再次發(fā)揮了至關(guān)重要的左右:每個(gè)Grace Hopper superchip可以使用NVLink Switch以900GB/s的超高帶寬與其他Grace Hopper superchip互聯(lián)在一起,這樣的互聯(lián)最多可以支持256個(gè)Grace Hopper superchip形成一個(gè)superchip pod而這也是Nvidia在這次發(fā)布的DGX GH200中的互聯(lián)方式。除此之外Grace Hopper superchip還可以通過與Nvidia Bluefield DPU的接口去連接InfiniBand,這樣superchip pod之間可以通過InfiniBand的辦法進(jìn)一步擴(kuò)展到更大的規(guī)模,從而實(shí)現(xiàn)更高性能的計(jì)算。

通過上述分析,我們看到在Grace Hopper superchip中,Nvidia的NVLink系列超高性能數(shù)據(jù)互聯(lián)起到了至關(guān)重要的作用,通過提供高達(dá)900GB/s的帶寬并且提供一致性接口,Grace Hopper superchip實(shí)現(xiàn)了非常強(qiáng)的可擴(kuò)展性。Grace Hopper superchip中CPU與其他高性能服務(wù)器端ARM CPU的區(qū)別可能就是對于NVLink接口的支持,而這也成了Grace Hopper superchip最大的亮點(diǎn)。

未來競爭格局前瞻

Nvidia通過發(fā)布擁有驚人性能和內(nèi)存容量的DGX GH200超級計(jì)算機(jī)來宣示其Grace Hopper superchip對于下一代大模型人工智能的領(lǐng)先加速能力,與此同時(shí)我們也看到類似Grace Hopper superchip這樣的通過緊密耦合CPU和GPU(以及其他加速器),并且通過搭載超高速一致性內(nèi)存接口來實(shí)現(xiàn)對于大模型的高效支持,將會(huì)成為未來人工智能芯片領(lǐng)域的重要設(shè)計(jì)范式。

目前來看,在下一代大模型支持領(lǐng)域,Nvidia無疑是芯片行業(yè)最領(lǐng)先的選手,而有實(shí)力在未來和Nvidia一爭高下的廠商有可能是AMD。事實(shí)上,AMD和Nvidia在這個(gè)領(lǐng)域的設(shè)計(jì)思路非常接近。Nvidia有Grace Hopper superchip,而AMD的相關(guān)產(chǎn)品則是CDNA3 APU。在CDNA3 APU架構(gòu)中,AMD把CPU和GPU通過芯片粒的方式集成在一起,并且使用一致性數(shù)據(jù)互聯(lián)來支持統(tǒng)一的內(nèi)存空間。在AMD最新發(fā)布的MI300產(chǎn)品中,每個(gè)APU集成了24個(gè)Zen 4 CPU核以及若干個(gè)使用CDNA3架構(gòu)的GPU(具體數(shù)據(jù)有待發(fā)布),并且搭載了128 GB HBM3內(nèi)存。

如果我們比較Nvidia和AMD的設(shè)計(jì),我們可以看到把CPU和GPU做緊密耦合并且使用一致內(nèi)存空間的思路完全一致,但是具體設(shè)計(jì)中也有幾個(gè)關(guān)鍵的不同:

首先,AMD使用的是高級封裝芯片粒的技術(shù)來實(shí)現(xiàn)CPU和GPU的集成,而Nvidia則是基于其在NVLink技術(shù)上的自信使用傳統(tǒng)的PCB來集成CPU和GPU。但是,這一點(diǎn)在未來可能會(huì)發(fā)生改變;隨著PCB的數(shù)據(jù)互聯(lián)帶寬越來越接近極限,預(yù)計(jì)Nvidia也會(huì)在未來越來越多使用高級封裝技術(shù)來完成互聯(lián)。

其次,Nvidia在內(nèi)存空間和可擴(kuò)展性領(lǐng)域更加激進(jìn)。每個(gè)Grace Hopper superchip的內(nèi)存可達(dá)600GB,而通過NVLink Switch更是可以實(shí)現(xiàn)高達(dá)144TB的內(nèi)存空間;而相比之下AMD的CDNA3 APU的內(nèi)存空間僅為128 GB。這里,我們看到Nvidia多年來在一致性數(shù)據(jù)互聯(lián)領(lǐng)域的技術(shù)投入顯然起到了非常好的效果,在未來大模型領(lǐng)域這類超高可擴(kuò)展性數(shù)據(jù)互聯(lián)用于擴(kuò)展內(nèi)存空間可望成為關(guān)鍵的技術(shù),而在這一點(diǎn)上AMD也需要繼續(xù)投入來追趕Nvidia的領(lǐng)先地位。

贊助本站

人工智能實(shí)驗(yàn)室

相關(guān)熱詞: 這顆 芯片 暗藏 未來 月底 Computex Nvidia

相關(guān)內(nèi)容
AiLab云推薦
展開

熱門欄目HotCates

Copyright © 2010-2024 AiLab Team. 人工智能實(shí)驗(yàn)室 版權(quán)所有    關(guān)于我們 | 聯(lián)系我們 | 廣告服務(wù) | 公司動(dòng)態(tài) | 免責(zé)聲明 | 隱私條款 | 工作機(jī)會(huì) | 展會(huì)港