展會信息港展會大全

助攻AI大模型,騰訊云星脈高性能計(jì)算網(wǎng)絡(luò)首次完整披露
來源:互聯(lián)網(wǎng)   發(fā)布日期:2023-06-27 10:15:02   瀏覽:10363次  

導(dǎo)讀:智東西(公眾號:zhidxcom) 編譯 | Glu 編輯 | 李水青 智東西6月27日消息,昨天下午,騰訊云在北京舉辦了一場面向AI大模型的高性能網(wǎng)絡(luò)溝通會,在現(xiàn)場首次完整披露了其自研的星脈高性能計(jì)算網(wǎng)絡(luò)。據(jù)稱,星脈網(wǎng)絡(luò)具備3.2Tbps業(yè)界最高互聯(lián)帶寬,能提升40%的GP...

智東西(公眾號:zhidxcom)

編譯 | Glu

編輯 | 李水青

智東西6月27日消息,昨天下午,騰訊云在北京舉辦了一場面向AI大模型的高性能網(wǎng)絡(luò)溝通會,在現(xiàn)場首次完整披露了其自研的星脈高性能計(jì)算網(wǎng)絡(luò)。據(jù)稱,星脈網(wǎng)絡(luò)具備3.2Tbps業(yè)界最高互聯(lián)帶寬,能提升40%的GPU利用率,節(jié)省30%~60%的模型訓(xùn)練成本,還讓AI大模型通信性能提升10倍。

同時(shí),基于騰訊云新一代算力集群HCC,星脈網(wǎng)絡(luò)可支持10萬卡的超大計(jì)算規(guī)模。

AI新時(shí)代,大模型成為AI領(lǐng)域最火熱的話題,各大科技公司紛紛入局,騰訊公司也不例外,繼6月19日公布其行業(yè)大模型研發(fā)進(jìn)展后,騰訊云副總裁王亞晨、騰訊云數(shù)據(jù)中心網(wǎng)絡(luò)總監(jiān)李翔于今日與智東西等媒體官宣了“星脈網(wǎng)絡(luò)”實(shí)現(xiàn)全新升級,并分享了騰訊云網(wǎng)絡(luò)研究的發(fā)展歷程。

王亞晨稱:“星脈網(wǎng)絡(luò)是為大模型而生。它所提供的大帶寬、高利用率以及零丟包的高性能網(wǎng)絡(luò)服務(wù),將助力算力瓶頸的突破,進(jìn)一步釋放AI潛能,全面提升企業(yè)大模型的訓(xùn)練效率,在云上加速大模型技術(shù)的迭代升級和落地應(yīng)用。”

▲演講嘉賓:騰訊云副總裁王亞晨

▲演講嘉賓:騰訊云數(shù)據(jù)中心網(wǎng)絡(luò)總監(jiān)李翔

一、AI大模型3大網(wǎng)絡(luò)需求:大帶寬、高利用率、無損網(wǎng)絡(luò)

目前,AI大模型的訓(xùn)練參數(shù)已飆升至萬億級別,如此龐大的訓(xùn)練任務(wù)無法由單個(gè)服務(wù)器完成,而需要大量GPU服務(wù)器組成算力集群,相互協(xié)作完成任務(wù)。

這些服務(wù)器通過機(jī)間網(wǎng)絡(luò)相連接,不斷交換數(shù)據(jù)。因此,高性能網(wǎng)絡(luò)具有至關(guān)重要的地位,它有利于讓算力集群更加快速、準(zhǔn)確地完成大規(guī)模的訓(xùn)練任務(wù)。

大集群不等于大算力,相反,GPU集群規(guī)模的擴(kuò)大還會引發(fā)額外的通信開銷。因?yàn)閭鹘y(tǒng)網(wǎng)絡(luò)架構(gòu)下,數(shù)據(jù)傳輸時(shí)會通過多層協(xié)議棧,需要反復(fù)停下來檢查、分揀、打包,導(dǎo)致通信效率低下。

也就是說,網(wǎng)絡(luò)層級越多,致GPU集群通信性能將越低。現(xiàn)在爆火的生成式AI大模型需要運(yùn)用千億、萬億參數(shù)規(guī)模進(jìn)行訓(xùn)練,這個(gè)訓(xùn)練過程中通信占比最大可達(dá)50%,而傳統(tǒng)低速網(wǎng)絡(luò)的帶寬無法支撐。

在這個(gè)問題的解決上,業(yè)界通常會引入RDMA技術(shù)(GPU之間直接通信),這是一種高性能、低延遲的網(wǎng)絡(luò)通信技術(shù),能夠允許計(jì)算節(jié)點(diǎn)之間直接進(jìn)行數(shù)據(jù)傳輸,減少中間環(huán)節(jié)。

但光靠RDMA技術(shù)還遠(yuǎn)遠(yuǎn)不夠,傳統(tǒng)網(wǎng)絡(luò)協(xié)議也將制約GPU集群的運(yùn)行效率。傳統(tǒng)網(wǎng)絡(luò)協(xié)議也很容易導(dǎo)致網(wǎng)絡(luò)擁塞、高延時(shí)和丟包,而僅0.1%的網(wǎng)絡(luò)丟包就可能導(dǎo)致50%的算力損失,最終造成算力資源的嚴(yán)重浪費(fèi)。

王亞晨幽默地將傳統(tǒng)網(wǎng)絡(luò)協(xié)議喻為“交通管理系統(tǒng)”:“這讓所有人都在一條大馬路上行走,自然會導(dǎo)致交通堵塞。”

二、3.2Tbps帶寬,支持10萬卡集群組網(wǎng)

基于以上問題,騰訊云在交換機(jī)、通信協(xié)議、通信庫以及運(yùn)營系統(tǒng)等軟硬件方面進(jìn)行升級,推出了自研的大模型專屬高性能網(wǎng)絡(luò)“星脈”。

“帶寬”決定了能夠同時(shí)傳輸?shù)臄?shù)據(jù),“拓?fù)?rdquo;是節(jié)點(diǎn)設(shè)備間的連接方式,決定了組網(wǎng)規(guī)模的大校在這兩項(xiàng)硬指標(biāo)上,騰訊云稱星脈皆達(dá)到了業(yè)界最高水平。

在硬件方面,星脈網(wǎng)絡(luò)自研白盒交換機(jī),這是一種軟硬件解耦的開放網(wǎng)絡(luò)設(shè)備,采用四層解耦體系,包括接入、轉(zhuǎn)發(fā)、路由、管控系統(tǒng);騰訊云還自研了網(wǎng)絡(luò)操作系統(tǒng),包括網(wǎng)絡(luò)OS與網(wǎng)管平臺,構(gòu)建了互聯(lián)底座,實(shí)現(xiàn)自動化部署和配置。

在軟件方面,騰訊云自研的TiTa網(wǎng)絡(luò)協(xié)議,能夠?qū)崟r(shí)監(jiān)測并調(diào)整網(wǎng)絡(luò)擁塞,TiTa網(wǎng)絡(luò)協(xié)議能夠提升40%的帶寬負(fù)載,還能提供低延時(shí)無損網(wǎng)絡(luò),實(shí)現(xiàn)高負(fù)載下的0丟包,使集群通信效率達(dá)90%以上。

王亞晨將其與傳統(tǒng)網(wǎng)絡(luò)協(xié)議對比,稱:“這是讓有不同需求的人走不同的路,就不會導(dǎo)致堵塞了。”

此外,騰訊云還為星脈網(wǎng)絡(luò)設(shè)計(jì)了高性能集合通信庫TCCL,融入定制化解決方案,使系統(tǒng)實(shí)現(xiàn)了微秒級感知網(wǎng)絡(luò)質(zhì)量。結(jié)合動態(tài)調(diào)度機(jī)制合理分配通信通道,可以避免因網(wǎng)絡(luò)問題導(dǎo)致的訓(xùn)練中斷等問題,讓通信時(shí)延降低40%。

王亞晨將其比喻為“導(dǎo)航系統(tǒng)”,優(yōu)化后的集合通信就像有了導(dǎo)航一樣,可以快速找到最優(yōu)路徑。

為確保星脈網(wǎng)絡(luò)的高可用,騰訊云自研端到端全棧網(wǎng)絡(luò)運(yùn)營系統(tǒng)。它可以讓大模型訓(xùn)練系統(tǒng)的整體部署時(shí)間從19天縮減至4.5天,保證基礎(chǔ)配置100%準(zhǔn)確;通過端網(wǎng)立體化監(jiān)控與智能定位系統(tǒng),它可以進(jìn)行離線故障診斷、在線故障實(shí)時(shí)告警,讓整體故障的排查時(shí)間由天級降低至分鐘級;此外,它具有秒級的故障自愈能力,端側(cè)會主動發(fā)起路徑選擇,能夠極速恢復(fù)網(wǎng)絡(luò)故障。

三、3代演進(jìn),17年耕耘,網(wǎng)絡(luò)硬軟件全自研

根據(jù)騰訊云官方數(shù)據(jù),目前,騰訊云在全球26個(gè)地理區(qū)域運(yùn)營70個(gè)可用區(qū),同時(shí)在70多個(gè)國家和地區(qū)部署了超過2800個(gè)CDN加速節(jié)點(diǎn),全網(wǎng)帶寬資源儲備超過200T。

而在星脈網(wǎng)絡(luò)技術(shù)升級的背后,是騰訊數(shù)據(jù)中心網(wǎng)絡(luò)歷經(jīng)3代技術(shù)演進(jìn)、17年耕耘的成果。

第一代是互聯(lián)網(wǎng)驅(qū)動時(shí)期。數(shù)據(jù)中心網(wǎng)絡(luò)流量主要由用戶訪問數(shù)據(jù)中心服務(wù)器的南北向流量構(gòu)成,網(wǎng)絡(luò)架構(gòu)以接入、匯聚、出口為主。這一階段主要使用了商用網(wǎng)絡(luò)設(shè)備,搭建標(biāo)準(zhǔn)化數(shù)據(jù)中心網(wǎng)絡(luò),支撐QQ在線人數(shù)增長超過1億,服務(wù)器規(guī)模增長超10萬。

第二代是云服務(wù)驅(qū)動時(shí)期。隨著大數(shù)據(jù)和云計(jì)算的興起,服務(wù)器之間的東西向流量逐漸增多,云租戶對網(wǎng)絡(luò)產(chǎn)生了虛擬化和隔離的要求。數(shù)據(jù)中心網(wǎng)絡(luò)架構(gòu)逐漸演變?yōu)橥瑫r(shí)承載南北向和東西向流量的云網(wǎng)絡(luò)架構(gòu),騰訊云構(gòu)建了全自研網(wǎng)絡(luò)設(shè)備與管理系統(tǒng),打造超大規(guī)模數(shù)據(jù)中心網(wǎng)絡(luò),服務(wù)器規(guī)模近200萬臺。

第三代是大規(guī)模算力驅(qū)動時(shí)期。隨著AI大模型的出現(xiàn),騰訊云在國內(nèi)率先推出高性能計(jì)算網(wǎng)絡(luò),采用東西向、南北向流量的分離架構(gòu)。構(gòu)建了獨(dú)立的超大帶寬、符合AI訓(xùn)練流量特征的網(wǎng)絡(luò)架構(gòu),并配合自研軟硬件設(shè)施,實(shí)現(xiàn)整套系統(tǒng)的自主可控,滿足超強(qiáng)算力對網(wǎng)絡(luò)性能的新需求。

日前,騰訊云發(fā)布的新一代HCC高性能計(jì)算集群,正是基于星脈高性能網(wǎng)絡(luò)打造,可以實(shí)現(xiàn)3.2T超高互聯(lián)帶寬,算力性能較前代提升3倍,為AI大模型訓(xùn)練構(gòu)筑可靠的高性能網(wǎng)絡(luò)底座。

結(jié)語:面向AI大模型,騰訊星脈網(wǎng)絡(luò)打助攻

參數(shù)達(dá)到千億、萬億級別的AI大模型尤其看重網(wǎng)絡(luò)性能,它需要大帶寬、高利用率、無損的網(wǎng)絡(luò)來幫助它高效地完成訓(xùn)練任務(wù)。以此為契機(jī),騰訊云基于過往17年的網(wǎng)絡(luò)布局經(jīng)驗(yàn)與技術(shù)成果,研發(fā)了助攻AI大模型的星脈網(wǎng)絡(luò)。星脈網(wǎng)絡(luò)具備3.2Tbps帶寬,可支持10萬卡集群組網(wǎng),能讓AI大模型通信性提升10倍。

自O(shè)penAI于去年推出ChatGPT后,各方勢力紛紛入局AI大模型,千模大戰(zhàn)一觸即發(fā)。騰訊公司上周了公布其行業(yè)大模型的研究進(jìn)度,騰訊云不“卷”參數(shù),而聚焦到具體產(chǎn)業(yè)端,關(guān)注AI大模型的落地。此外,他們積極構(gòu)建高性能網(wǎng)絡(luò)以助攻AI大模型。此次溝通會中,王亞晨還透露騰訊云正在積極探索下一代高性能網(wǎng)絡(luò),致力于構(gòu)建更強(qiáng)算力的計(jì)算集群。

贊助本站

人工智能實(shí)驗(yàn)室
相關(guān)內(nèi)容
AiLab云推薦
推薦內(nèi)容
展開

熱門欄目HotCates

Copyright © 2010-2024 AiLab Team. 人工智能實(shí)驗(yàn)室 版權(quán)所有    關(guān)于我們 | 聯(lián)系我們 | 廣告服務(wù) | 公司動態(tài) | 免責(zé)聲明 | 隱私條款 | 工作機(jī)會 | 展會港