展會(huì)信息港展會(huì)大全

發(fā)展AI網(wǎng)絡(luò)面臨的四個(gè)關(guān)鍵技術(shù)
來(lái)源:互聯(lián)網(wǎng)   發(fā)布日期:2024-08-15 11:11:00   瀏覽:3219次  

導(dǎo)讀:AI大模型時(shí)代,大模型參數(shù)量和訓(xùn)練集規(guī)模大幅增加,僅靠GPU芯片單體算力的提升已經(jīng)不能滿(mǎn)足需求,業(yè)界目光正從單體算力轉(zhuǎn)向了系統(tǒng)架構(gòu)層面的創(chuàng)新。其中,底層核心技術(shù)網(wǎng)絡(luò),成為關(guān)鍵突破口,全球各大公司紛紛進(jìn)行相關(guān)產(chǎn)品技術(shù)的研發(fā)。AI網(wǎng)絡(luò)技術(shù)的角逐正在展...

AI大模型時(shí)代,大模型參數(shù)量和訓(xùn)練集規(guī)模大幅增加,僅靠GPU芯片單體算力的提升已經(jīng)不能滿(mǎn)足需求,業(yè)界目光正從單體算力轉(zhuǎn)向了系統(tǒng)架構(gòu)層面的創(chuàng)新。其中,底層核心技術(shù)網(wǎng)絡(luò),成為關(guān)鍵突破口,全球各大公司紛紛進(jìn)行相關(guān)產(chǎn)品技術(shù)的研發(fā)。AI網(wǎng)絡(luò)技術(shù)的角逐正在展開(kāi)。在近日舉辦的“2024開(kāi)放計(jì)算中國(guó)峰會(huì)”上,英偉達(dá)網(wǎng)絡(luò)高級(jí)總監(jiān)宋慶春介紹了AI網(wǎng)絡(luò)的四大關(guān)鍵技術(shù):端到端的RDMA流量動(dòng)態(tài)路由、AI云上AI業(yè)務(wù)的性能隔離、網(wǎng)絡(luò)計(jì)算和網(wǎng)絡(luò)數(shù)字孿生。

為了幫助客戶(hù)在云環(huán)境中構(gòu)建生成式AI或AI工作負(fù)載,提升網(wǎng)絡(luò)性能,英偉達(dá)推出了新的網(wǎng)絡(luò)平臺(tái),即加速以太網(wǎng)平臺(tái)NVIDIA Spectrum-X。Spectrum-X平臺(tái)并非是一個(gè)單產(chǎn)品的形態(tài),而是涉及到Spectrum-4以太網(wǎng)交換機(jī)、BlueField-3 DPU、LinkX 線(xiàn)纜及模塊和相關(guān)軟件,能夠?yàn)樯墒紸I在云端提供規(guī);哪芰。

Spectrum-X的創(chuàng)新點(diǎn)有很多,動(dòng)態(tài)路由就是其中之一。當(dāng)前國(guó)內(nèi)數(shù)據(jù)中心中,通用算力仍占算力資源的絕大多數(shù)。但是隨著應(yīng)用場(chǎng)景的變化,生成式AI云將成為數(shù)據(jù)中心發(fā)展的新趨勢(shì)。生成式AI云需要有很強(qiáng)的算力和云的靈活性。為了解決問(wèn)題,英偉達(dá)推出面向AI的以太網(wǎng)絡(luò),針對(duì)AI業(yè)務(wù)進(jìn)行端到端的優(yōu)化。端到端的RDMA流量動(dòng)態(tài)路由可以讓網(wǎng)絡(luò)傳輸效率相比傳統(tǒng)的以太網(wǎng)絡(luò)提升1.6倍,實(shí)現(xiàn)端網(wǎng)協(xié)同,提升網(wǎng)絡(luò)擁塞問(wèn)題。RDMA技術(shù)可以通過(guò)網(wǎng)絡(luò)把資料直接傳入計(jì)算機(jī)的存儲(chǔ)區(qū),將數(shù)據(jù)從一個(gè)系統(tǒng)快速移動(dòng)到遠(yuǎn)程系統(tǒng)存儲(chǔ)器中,而不對(duì)操作系統(tǒng)造成任何影響,這樣就不需要用到多少計(jì)算機(jī)的處理功能。它消除了外部存儲(chǔ)器復(fù)制和上下文切換的開(kāi)銷(xiāo),因而能解放內(nèi)存帶寬和CPU周期用于改進(jìn)應(yīng)用系統(tǒng)性能。

性能隔離技術(shù)也很重要。AI云上往往出現(xiàn)多個(gè)租戶(hù)同時(shí)運(yùn)行應(yīng)用程序的情況,而且每個(gè)租戶(hù)又有可能運(yùn)行多個(gè)任務(wù)。 如何讓多個(gè)任務(wù)相互隔離,且不僅任務(wù)之間相互隔離,運(yùn)行任務(wù)的時(shí)候性能也相互隔離,每個(gè)任務(wù)都能實(shí)現(xiàn)和運(yùn)行單一任務(wù)一樣的性能?這就需要用到性能隔離技術(shù)。該技術(shù)基于先進(jìn)的擁塞控制技術(shù),解決了由于一個(gè)AI應(yīng)用的突發(fā)式的Incast通信造成的網(wǎng)絡(luò)擁塞影響其它應(yīng)用性能的問(wèn)題,避免了犧牲流在云上的出現(xiàn)。這個(gè)技術(shù)在InfiniBand上多年以前就實(shí)現(xiàn)了,英偉達(dá)把性能隔離技術(shù)移植到Spectrum-X平臺(tái),實(shí)現(xiàn)了以太網(wǎng)云上的業(yè)務(wù)性能隔離。

網(wǎng)絡(luò)計(jì)算則是指通過(guò)計(jì)算機(jī)網(wǎng)絡(luò)進(jìn)行計(jì)算的方式,它將計(jì)算任務(wù)分配給多個(gè)網(wǎng)絡(luò)節(jié)點(diǎn),并協(xié)同完成計(jì)算任務(wù)。網(wǎng)絡(luò)計(jì)算的特點(diǎn)則主要體現(xiàn)在其分布式和協(xié)同性。在數(shù)據(jù)存儲(chǔ)方面,網(wǎng)絡(luò)計(jì)算將數(shù)據(jù)分散存儲(chǔ)在多個(gè)節(jié)點(diǎn)上,這就使得數(shù)據(jù)更加安全可靠,且能夠更好地應(yīng)對(duì)并發(fā)訪(fǎng)問(wèn)。在傳輸技術(shù)方面,網(wǎng)絡(luò)計(jì)算采用高速數(shù)據(jù)傳輸技術(shù),使得大規(guī)模數(shù)據(jù)的處理和傳輸變得更加高效。生成式AI云往往面臨資源利用率問(wèn)題、長(zhǎng)尾問(wèn)題、多任務(wù)問(wèn)題,網(wǎng)絡(luò)計(jì)算可以有效解決。

網(wǎng)絡(luò)數(shù)字孿生是物理網(wǎng)絡(luò)的虛擬表述,基于數(shù)據(jù)、模型和接口對(duì)物理網(wǎng)絡(luò)進(jìn)行分析、診斷、仿真和控制,從而實(shí)現(xiàn)與物理網(wǎng)絡(luò)之間的實(shí)時(shí)交互映射。借助數(shù)字孿生網(wǎng)絡(luò)平臺(tái),運(yùn)營(yíng)商可以很好地模擬、選擇、優(yōu)化解決方案,最終將它們部署到實(shí)際網(wǎng)絡(luò)中,這將降低對(duì)實(shí)際網(wǎng)絡(luò)的影響,減少一定的安全風(fēng)險(xiǎn)。同時(shí),數(shù)字孿生網(wǎng)絡(luò)結(jié)合大數(shù)據(jù)處理和建模技術(shù)可實(shí)現(xiàn)對(duì)現(xiàn)狀的評(píng)估、對(duì)過(guò)去的診斷和對(duì)未來(lái)的預(yù)測(cè),模擬各種可能性,提供更全面的決策分析,有助于網(wǎng)絡(luò)實(shí)現(xiàn)預(yù)測(cè)性運(yùn)維。現(xiàn)在的AI云規(guī)模通常都很大,投入也非常大。 如果直接構(gòu)建一個(gè)物理的系統(tǒng),在物理系統(tǒng)上做Debug的成本非常高。 先構(gòu)建AI數(shù)據(jù)中心的數(shù)字孿生虛擬數(shù)據(jù)中心,預(yù)先進(jìn)行配置、調(diào)試、優(yōu)化、測(cè)試,可以有效降低成本。

贊助本站

人工智能實(shí)驗(yàn)室
相關(guān)內(nèi)容
AiLab云推薦
推薦內(nèi)容
展開(kāi)

熱門(mén)欄目HotCates

Copyright © 2010-2024 AiLab Team. 人工智能實(shí)驗(yàn)室 版權(quán)所有    關(guān)于我們 | 聯(lián)系我們 | 廣告服務(wù) | 公司動(dòng)態(tài) | 免責(zé)聲明 | 隱私條款 | 工作機(jī)會(huì) | 展會(huì)港