展會(huì)信息港展會(huì)大全

通信效率超98%!壁仞科技實(shí)現(xiàn)中國首個(gè)三種異構(gòu)芯片混訓(xùn)技術(shù)
來源:互聯(lián)網(wǎng)   發(fā)布日期:2024-09-05 08:58:30   瀏覽:1574次  

導(dǎo)讀:海外限令實(shí)施近一年后,AI 芯片公司壁仞科技(Biren Technology)如今罕見發(fā)聲,公布其在算力架構(gòu)層面的最新技術(shù)進(jìn)展。 9月5日,鈦媒體AGI獨(dú)家獲悉 ,即將在2024全球AI芯片峰會(huì)上,壁仞科技將首次公布壁仞自主原創(chuàng)的異構(gòu)GPU協(xié)同訓(xùn)練方案HGCT,業(yè)界首次支持3...

海外限令實(shí)施近一年后,AI 芯片公司壁仞科技(Biren Technology)如今罕見發(fā)聲,公布其在算力架構(gòu)層面的最新技術(shù)進(jìn)展。

9月5日,鈦媒體AGI獨(dú)家獲悉,即將在2024全球AI芯片峰會(huì)上,壁仞科技將首次公布壁仞自主原創(chuàng)的異構(gòu)GPU協(xié)同訓(xùn)練方案HGCT,業(yè)界首次支持3種及以上異構(gòu)GPU混合訓(xùn)練同一個(gè)大模型,用一套統(tǒng)一方案支持多種不同型號(hào)、不同廠商的GPU,而且一行代碼適配多種框架。

壁仞HGCT的異構(gòu)協(xié)同通信效率大于98%、端到端訓(xùn)練效率90-95%,從而突破了大模型異構(gòu)算力孤島難題。

壁仞科技副總裁、AI軟件首席架構(gòu)師丁云帆向鈦媒體AGI獨(dú)家表示,這是業(yè)界首次支持3種及以上(壁仞GPU+英偉達(dá)GPU+其他國產(chǎn)芯片)異構(gòu)GPU同時(shí)訓(xùn)練一個(gè)大模型。同時(shí),目前壁仞科技打造的軟硬一體、全棧優(yōu)化、異構(gòu)協(xié)同、開源開放的大模型整體解決方案可以實(shí)現(xiàn)千卡集群、千億參數(shù)的自動(dòng)斷點(diǎn)續(xù)訓(xùn)小于10分鐘,15天連續(xù)訓(xùn)練不中斷,4天連續(xù)訓(xùn)練無故障。

壁仞科技還透露,其正聯(lián)合客戶、合作伙伴、科研機(jī)構(gòu)共同推動(dòng)異構(gòu)GPU協(xié)同訓(xùn)練生態(tài),具體包括:中國移動(dòng)、中國電信、商湯科技、國網(wǎng)智能電網(wǎng)研究院有限公司、上海智能算力科技有限公司、上海人工智能實(shí)驗(yàn)室、中國信息通信研究院等。

據(jù)悉,在此之前,AI Infra公司無問芯穹的4+2芯片,最多支持2種GPU同時(shí)訓(xùn)練。

壁仞科技成立于2019年,主要研發(fā)高性能通用GPU,致力于做自主原創(chuàng)的高性能GPU軟硬件體系,打造國產(chǎn)自主智能計(jì)算產(chǎn)業(yè)生態(tài)。

壁仞科技創(chuàng)始人、董事長(zhǎng)、CEO張文曾表示,“芯片行業(yè)特別是通用智能芯片行業(yè),是典型的資本密集和人才密集型的行業(yè),加上大規(guī)模場(chǎng)景應(yīng)用,構(gòu)成了推動(dòng)企業(yè)邁向成功的三大要素。”

實(shí)際上,算力作為數(shù)字經(jīng)濟(jì)的核心生產(chǎn)力,是當(dāng)前推動(dòng)AI、大數(shù)據(jù)、物聯(lián)網(wǎng)等技術(shù)創(chuàng)新與應(yīng)用的基礎(chǔ)支撐,而GPU和 AI 芯片則是算力中的核心要素。

隨著ChatGPT引發(fā)全球 AI 大模型熱潮,算力需求不斷增長(zhǎng),研發(fā)成本不斷提升,同時(shí)各國面臨“主權(quán)AI”的爭(zhēng)奪。那么,如何在有限的大模型算力和集群規(guī)模下,利用軟件優(yōu)化效率和異構(gòu)集成方法,從而提高芯片性能,以及增長(zhǎng)算力規(guī)模,就變得異常重要了。

但當(dāng)前,英偉達(dá)和國產(chǎn)芯片之間的異構(gòu)協(xié)同,即不同的GPU軟件棧如何相互融合,是當(dāng)前圍繞國產(chǎn)算力如何變得好用的重要課題之一。

以上海臨港的一個(gè)集群為例,其使用了22家國產(chǎn)芯片公司的58款 AI 芯片產(chǎn)品,通過多樣芯片擴(kuò)大算力供給,使得適配訓(xùn)練框架消耗較長(zhǎng),總投入成本達(dá)到約10000人天。其中,適配成本約為3人天/算子,模型適配成本約為10人天/模型,通信庫和運(yùn)行時(shí)適配成本約為500人天。同時(shí)大量的異構(gòu)芯片形成了算力孤島,無法有效聚合支持更大模型訓(xùn)練的算力需求。

丁云帆坦言,當(dāng)前異構(gòu)GPU協(xié)同訓(xùn)練仍然存在諸多挑戰(zhàn),如異構(gòu)GPU互聯(lián)互通難、異構(gòu)GPU通信效率低、異構(gòu)GPU協(xié)同訓(xùn)練木桶效益、異構(gòu)GPU協(xié)同調(diào)度難、如何兼容不同硬件(英偉達(dá)、多種國產(chǎn)芯片)等。

為了解決用戶需求和技術(shù)挑戰(zhàn),壁仞科技團(tuán)隊(duì)攻堅(jiān)異構(gòu)GPU訓(xùn)練難點(diǎn),自主研發(fā)出原創(chuàng)異構(gòu)GPU協(xié)同訓(xùn)練方案HGCT,通過異構(gòu)調(diào)度、異構(gòu)通信、異構(gòu)拆分三層架構(gòu),實(shí)現(xiàn)了一套統(tǒng)一方案支持多種不同型號(hào)、不同廠商的GPU,業(yè)界首次支持3種及以上異構(gòu)GPU混合訓(xùn)練同一個(gè)大模型。

壁仞科技表示,這一異構(gòu)GPU協(xié)同訓(xùn)練方案對(duì)于行業(yè)端有兩個(gè)意義:1、該方案最終價(jià)值實(shí)現(xiàn)了國產(chǎn)GPU和英偉達(dá)GPU的異構(gòu)共存,突破異構(gòu)算力孤島難題,加快國產(chǎn)GPU的落地遷移,助力國產(chǎn)大模型落地;2、該方案賦能整個(gè)算力產(chǎn)業(yè)發(fā)展,壁仞HGCT方案具備普適性、易用性、兼容性,助力最終客戶實(shí)現(xiàn)多種異構(gòu)算力聚合,最大化異構(gòu)GPU集群利用效率。

另外,基于已落地的千卡算力集群和技術(shù)能力,壁仞科技還推出BIRENSUPA生態(tài)方案,基于開放的 AI 算力軟件生態(tài)體系,賦能運(yùn)營(yíng)商、智算中心、大模型、能源、金融等領(lǐng)域的客戶和開發(fā)者。

“AI 芯片是一個(gè)技術(shù)密集型的產(chǎn)業(yè),首先要有足夠強(qiáng)的技術(shù),這不是‘紙上談兵’,而是需要人才、資金和產(chǎn)業(yè)領(lǐng)域的認(rèn)知度,芯片不能犯錯(cuò),只要有一處錯(cuò)誤,有可能就是致命錯(cuò)誤。因此,企業(yè)需跨過很多障礙,市場(chǎng)也需要給 AI 芯片企業(yè)更多的耐心。”丁云帆對(duì)鈦媒體App表示。

贊助本站

人工智能實(shí)驗(yàn)室
相關(guān)內(nèi)容
AiLab云推薦
推薦內(nèi)容
展開

熱門欄目HotCates

Copyright © 2010-2024 AiLab Team. 人工智能實(shí)驗(yàn)室 版權(quán)所有    關(guān)于我們 | 聯(lián)系我們 | 廣告服務(wù) | 公司動(dòng)態(tài) | 免責(zé)聲明 | 隱私條款 | 工作機(jī)會(huì) | 展會(huì)港