當(dāng)前位置：人工智能實驗室> 人工智能動態(tài) > “群模亂戰(zhàn)”下，中國本土 AI 算力芯何時趕上英偉達(dá)？｜WAIC 2023

“群模亂戰(zhàn)”下，中國本土 AI 算力芯何時趕上英偉達(dá)？｜WAIC 2023
來源：互聯(lián)網(wǎng) 發(fā)布日期：2023-07-11 07:12:34 瀏覽：8629次

導(dǎo)讀：國內(nèi)GPU公司天數(shù)智芯在WAIC 2023上展示的板卡產(chǎn)品（來源：受訪者提供）今年以來，隨著ChatGPT和人工智能（AI）大模型引發(fā)熱潮，大模型產(chǎn)品層出不窮。隨之而來的是對 AI 算力的需求，也出現(xiàn)爆發(fā)式增長，算力供需出現(xiàn)巨大缺口，所有人都開始搶購美國芯片巨頭...

國內(nèi)GPU公司天數(shù)智芯在WAIC 2023上展示的板卡產(chǎn)品（來源：受訪者提供）

今年以來，隨著ChatGPT和人工智能（AI）大模型引發(fā)熱潮，大模型產(chǎn)品層出不窮。隨之而來的是對 AI 算力的需求，也出現(xiàn)爆發(fā)式增長，算力供需出現(xiàn)巨大缺口，所有人都開始搶購美國芯片巨頭英偉達(dá)的A100顯卡作為大模型“入場券”。

如今，大算力底座已成為 AI 大模型發(fā)展的“標(biāo)配”。

7月6日-8日舉行的2023年世界人工智能大會（WAIC）騰分論壇上，華為輪值董事長胡厚表示，伴隨大模型帶來的生成式AI突破，AI 正在進(jìn)入一個新的時代。算力是 AI 產(chǎn)業(yè)創(chuàng)新的基礎(chǔ)，大模型的持續(xù)創(chuàng)新，驅(qū)動算力需求的爆炸式增長�？梢哉f，大模型訓(xùn)練的效率或者是創(chuàng)新的速度，根本上取決于算力的大校中國的算力已經(jīng)成為一個越來越稀缺的資源。

本屆WAIC上，華為推出首個騰萬卡AI集群。截至目前，騰AI集群已支撐全國25個城市的人工智能計算中心建設(shè)。據(jù)悉，騰AI原生孵化和適配了30多個大模型，目前中國有一半左右的大模型創(chuàng)新，都是由騰AI支持。

與華為騰不同，國內(nèi)通用GPU公司天數(shù)智芯研發(fā)的天垓100芯片已經(jīng)開始跑通多個大模型，包括智譜 AI 大模型ChatGLM，國外主流的LLaMA，以及北京智源研究院的Aquila等產(chǎn)品；而百度昆侖芯公司在今年6月披露，其產(chǎn)品矩陣已適配文心一言、ChatGLM、GPT等主流行業(yè)大模型。

本屆WAIC上，當(dāng)被問及如果英偉達(dá)A800不能在中國售賣國產(chǎn)GPU能否替代，天數(shù)智芯董事長兼CEO蓋魯江對鈦媒體App等表示：

“目前我們已經(jīng)證明可以用了，不管他們的能不能買，或者賣不賣給中國，我們的產(chǎn)品現(xiàn)在已經(jīng)在用起來了。”

基于目前國內(nèi) AI 大模型算力布局，無論是訓(xùn)練還是推理，AI 大模型算力主要分為三派：

一是華為鯤鵬和騰 AI 生態(tài)的算力方案，沒有英偉達(dá)GPU參與；二是混合型算力支持，大量采用英偉達(dá)A100芯片，部分環(huán)境增加AMD、英特爾芯片，以及天數(shù)智芯、寒武紀(jì)、海光等國產(chǎn)芯片及加速卡融合跑大模型訓(xùn)練；三是租用性價比更高的服務(wù)器云算力，補(bǔ)充算力不足情況。

那么，這么多的算力供應(yīng)渠道，中國本土的AI芯片到底行不行？

沒有英偉達(dá)GPU，華為騰支持近半數(shù)大模型

“沒有大算力做大模型就是天方夜譚。”中國工程院院士、鵬城實驗室主任高文在WAIC 2023騰人工智能產(chǎn)業(yè)高峰論壇上表示，從現(xiàn)在開始，算力已經(jīng)成為是數(shù)字經(jīng)濟(jì)發(fā)展的一個指標(biāo)，算力夠，你的數(shù)字經(jīng)濟(jì)就能發(fā)展好，不夠就發(fā)展不好。

據(jù)中國信通院數(shù)據(jù)，每1元的算力投入，可以帶動3-4元的國家GDP（國內(nèi)生產(chǎn)總值）經(jīng)濟(jì)產(chǎn)出，實現(xiàn)經(jīng)濟(jì)增長的倍增效應(yīng)。麥肯錫則預(yù)測，生成式 AI 最終每年可為世界經(jīng)濟(jì)增加7.3萬億美元的價值。

7月8日WAIC大模型生產(chǎn)與產(chǎn)業(yè)落地合作論壇上，一位中國科學(xué)院研究中心主任甚至直言，“沒有算力平臺，數(shù)字經(jīng)濟(jì)將‘不復(fù)存在’。”

而對于大模型企業(yè)來說，巨大的算力成本是首先要考慮的問題。

本屆WAIC上，畢馬威和聯(lián)想集團(tuán)聯(lián)手發(fā)布的《普慧算力開啟新計算時代》報告顯示，以構(gòu)建GPT-3為例，OpenAI數(shù)據(jù)顯示，滿足GPT-3算力需求至少要上萬顆英偉達(dá)GPU A100，一次模型訓(xùn)練成本超過1200萬美元，這還不包括模型推理成本和后續(xù)升級所需的訓(xùn)練成本。

在WAIC騰訊分論壇上，NVIDIA英偉達(dá)全球副總裁、中國云計算和互聯(lián)網(wǎng)行業(yè)總經(jīng)理何濤提到，到了大語言模型的時代，算力必須發(fā)展。如果數(shù)據(jù)足夠大，算法模型也足夠大，算力需求也特別大。

所以，華為提出了鯤鵬和騰 AI 算力方案，沒有英偉達(dá)GPU，重點(diǎn)應(yīng)用于政務(wù)、金融等領(lǐng)域，在智算中心實現(xiàn)模型訓(xùn)練，隨后在華為云或其他混合云中實現(xiàn)模型推理。

本屆WAIC上，華為宣布騰AI集群全面升級，集群規(guī)模從最初的4000卡集群擴(kuò)展至16000卡，是業(yè)界首個萬卡AI集群，擁有更快的訓(xùn)練速度和30天以上的穩(wěn)定訓(xùn)練周期。同時，華為還與知乎/面壁智能、清華智譜AI、科大訊飛、云從科技等多家擁有大模型的公司聯(lián)合發(fā)布的騰AI大模型訓(xùn)推一體化解決方案，建立“生態(tài)包圍網(wǎng)”。

胡厚表示，華為在各個單點(diǎn)創(chuàng)新的基礎(chǔ)上，充分發(fā)揮云、計算、存儲、網(wǎng)絡(luò)以及能源的綜合優(yōu)勢，進(jìn)行架構(gòu)創(chuàng)新，推出了騰AI集群，相當(dāng)于把AI算力中心當(dāng)成一臺超級計算機(jī)來設(shè)計，使得騰AI集群性能更高，并且可靠性更高。“據(jù)我所知，目前我們已經(jīng)可以達(dá)到10%以上的大模型訓(xùn)練效率的提升，可以提供10倍以上的系統(tǒng)穩(wěn)定的提高，支持長期穩(wěn)定訓(xùn)練。”

胡厚在開幕式上談到，華為推出了對等平構(gòu)架構(gòu)，以突破傳統(tǒng)以CPU為中心的異構(gòu)計算帶來的性能瓶頸，提升了整個計算的帶寬，使得節(jié)點(diǎn)的性能可提升30%。同時，華為部署的騰AI集群實現(xiàn)10%的效率提升。

“中國的算力很難跟上不斷增長的 AI 需求，而且 AI 算力缺乏穩(wěn)定性。許多公司花高價購買英偉達(dá)GPU，但訓(xùn)練中GPU會出現(xiàn)故障不得不重新訓(xùn)練，交貨時間很長、代價大。我們希望在 AI 算力方面提供一種替代方案。”7月7日華為云CEO張平安在華為云盤古大模型3.0發(fā)布會上直言，由于華為不可以用英偉達(dá)成熟的GPU，所以華為使用的自研的鯤鵬和騰AI算力方案，建立智算中心訓(xùn)練大模型。

張平安指出，華為云在貴安、烏蘭察布、安徽蕪湖等地都建立了算力中心，訓(xùn)練效率領(lǐng)先于業(yè)界主流GPU的1.1倍，騰Al云服務(wù)整個算力達(dá)2000PFlops。

華為騰計算業(yè)務(wù)總裁張迪煊表示，基于騰AI，原生孵化和適配了30多個大模型，到目前為止，中國有一半左右的大模型創(chuàng)新，都是由騰AI來支持的。騰的生態(tài)也逐步發(fā)展壯大，有180萬開發(fā)者在騰開發(fā)平臺上工作；與300多所高校院所與騰開展合作，每年培養(yǎng)超過10萬名專業(yè)的AI人才。

本土算力持續(xù)追趕，但GPU軟件生態(tài)仍需時日

除了華為之外，以阿里云、騰訊云、字節(jié)、商湯等企業(yè)為代表的算力底層，囤積大量的英偉達(dá)A100、T40芯片組進(jìn)行模型訓(xùn)練，部分智算中心則增加AMD、英特爾芯片，以及天數(shù)智芯、寒武紀(jì)、海光等國產(chǎn)芯片，為客戶提供異構(gòu)、混合型算力支持。

智算廠商方面，阿里云表示，其擁有國內(nèi)最強(qiáng)的智能算力儲備，阿里云的智算集群可支持最大十萬卡GPU規(guī)模，承載多個萬億參數(shù)大模型同時在線訓(xùn)練，擁有大規(guī)模AI集群。而在AI平臺層，阿里云將AI訓(xùn)練效率提升可達(dá)10倍，推理效率提升可達(dá)6倍。目前，阿里發(fā)起的AI模型社區(qū)魔搭已擁有180多萬AI開發(fā)者、900多個優(yōu)質(zhì)AI模型，以及30多個10億以上參數(shù)規(guī)模大模型。

騰訊云則大量采購了英偉達(dá)A100/H800芯片，發(fā)布新一代HCC高性能計算集群，實現(xiàn)業(yè)界最高的3.2T超高互聯(lián)帶寬，提供高性能、高帶寬和低延遲的集群算力，用于大模型訓(xùn)練、自動駕駛、科學(xué)計算等領(lǐng)域。基于新一代集群，騰訊團(tuán)隊在同等數(shù)據(jù)集下，將萬億參數(shù)的AI大模型“混元NLP”訓(xùn)練由50天縮短到4天。據(jù)悉，騰訊云服務(wù)器組還使用了AMD、燧原科技的芯片產(chǎn)品。

火山引擎副總裁張鑫澤透露，其擁有龐大的算力支持，亞州/美洲有數(shù)百萬CPU核心、超過20PB內(nèi)存、數(shù)萬張GPU計算卡，訓(xùn)練系統(tǒng)單日樣本吞吐最超百萬億，高峰時GPU利用率達(dá)90%。此前消息稱，字節(jié)跳動目前已經(jīng)購買和到貨英偉達(dá)A100/H800加速卡共10萬塊。

據(jù)聯(lián)想和畢馬威的分析報告預(yù)計，阿里云目前擁有200-300萬臺服務(wù)器，騰訊云擁有100-200萬臺服務(wù)器，字節(jié)跳動和華為云擁有約100萬臺服務(wù)器。

與此同時，從芯片端看，目前在加速計算/大模型算力領(lǐng)域，英偉達(dá)在全球市場占比高達(dá)95%以上，甚至可達(dá)99%。英偉達(dá)無論產(chǎn)品力還是CUDA算力生態(tài)構(gòu)建，都是首屈一指，也“收割”了本輪AI熱潮以來最大的利潤。

據(jù)登臨科技聯(lián)合創(chuàng)始人王震宇估算，2022年，英偉達(dá)在中國市場的數(shù)據(jù)中心產(chǎn)品銷售額約400億元，按照行業(yè)機(jī)構(gòu)預(yù)估，到2026年將會達(dá)1000億元，這是在ChatGPT爆火之前的預(yù)測。

在WAIC 2023上，蓋魯江告訴鈦媒體App，天垓100是該公司2018年研發(fā)的通用 AI 訓(xùn)練芯片，目前這款產(chǎn)品目前已經(jīng)成功跑通了清華智譜 AI 大模型ChatGLM，Meta研發(fā)的LLaMA模型，北京智源研究院的Aquila模型等。

“現(xiàn)在大模型發(fā)展的核心三要素：算法、數(shù)據(jù)及算力，算力是底座。在6月9日，我們跟北京智源研究院，在北京發(fā)布了他們的AquilaCode-7B模型，用的就是我們天垓100這款產(chǎn)品在跑，這也充分體現(xiàn)了天數(shù)智芯產(chǎn)品的通用性。目前我們正在幫他們跑650億參數(shù)的模型，預(yù)計10月份可以跑完。”蓋魯江表示，預(yù)計今年年底以及明年，天數(shù)智芯都會有新的產(chǎn)品推出來，而且對大模型算法做了硬件級優(yōu)化。

如果不采用通用架構(gòu)，客戶進(jìn)行平臺切換門檻比較高。蓋魯江表示，天數(shù)智芯在第一階段就走了一條兼容國際主流生態(tài)的路線，公司2022年全年確認(rèn)收入在2.5億元左右。“因為我是通用架構(gòu)，基于我的硬件去做軟件棧的開發(fā)，再在API接口層面兼容國際主流生態(tài)，這樣其實讓我們的下游客戶能更方便地用起來，讓他們的遷移成本很低。所以說在商業(yè)化這條路上，我們已經(jīng)率先邁出了一步。”

另一家騰訊投資的AI芯片公司燧原科技。已擁有邃思系列芯片、云燧訓(xùn)練和推理加速卡和云燧智算機(jī)的全系列算力產(chǎn)品線。在WAIC 2023上，燧原科技發(fā)布了全新文生圖MaaS平臺服務(wù)產(chǎn)品“燧原曜圖（LumiCanvas）”，利用燧原科技的算力以及首都在線的基礎(chǔ)設(shè)施，實現(xiàn)文生圖模型訓(xùn)練和推理。

燧原科技創(chuàng)始人、董事長、CEO趙立東在本屆WAIC AI芯片論壇上提到，目前燧原已經(jīng)為大型科研機(jī)構(gòu)部署了千卡規(guī)模的AI訓(xùn)練算力集群，并成功落地；而且與騰訊合作，在OCR文字識別，智能交互，智能會議等方面，性能達(dá)到了業(yè)界同類產(chǎn)品兩倍以上，性價比上具有很高優(yōu)勢。此外，在智慧城市方面，燧原完成2022年成都高新區(qū)國產(chǎn)化AI視頻基礎(chǔ)設(shè)施平臺項目建設(shè)。

鈦媒體App在現(xiàn)場了解到，燧原科技公開的生態(tài)伙伴已包括騰訊、上海銀行、中國移動、中國聯(lián)通、新華三、卓視智通、北京智源、中科院計算所、之江實驗室、清華大學(xué)、西安交通大學(xué)等30家以上的機(jī)構(gòu)。

今年7月7日獲得中國互聯(lián)網(wǎng)投資基金獨(dú)家投資的通用GPU研發(fā)商上海登臨科技，在WAIC現(xiàn)場展示了第二代通用GPU Goldwasser（高凜）系列產(chǎn)品。鈦媒體App了解到，高凜二代已針對基于Transformer和生成式AI 大模型進(jìn)行專門優(yōu)化，在性能有大幅提升，已于2022年流片，目前已開始規(guī)�；慨a(chǎn)和商業(yè)客戶驗證。據(jù)現(xiàn)有客戶測試結(jié)果，二代產(chǎn)品針對基于transformer類型的模型提供3-5倍的性能提升，大幅降低類ChatGPT及生成式AI應(yīng)用的硬件成本。

最后一類是服務(wù)器云和各地算力中心，大模型公司與其合作/租用形式，補(bǔ)充算力訓(xùn)練不足的情況。而在服務(wù)器底層則依然用英偉達(dá)、鯤鵬、寒武紀(jì)、海光等產(chǎn)品。

例如，北京超級云計算中心官網(wǎng)披露，擁有超過50PFlops通用超算算力，超60萬CPU核心數(shù)，超過20萬算力用戶；上海到2023年底，依托本市人工智能公共算力服務(wù)平臺，接入并調(diào)度4個以上算力基礎(chǔ)設(shè)施，可調(diào)度智能算力達(dá)到1000 PFLOPS（FP16）以上；到2025年，上海市數(shù)據(jù)中心算力預(yù)計將超過18000 PFLOPS（FP32）。

今年6月初，鴻博股份透露，搜狗創(chuàng)始人王小川成立的大模型公司百川智能（五季智能）和其簽署了一個1280P的訂單；二期正在推進(jìn)，具體將圍繞客戶需求展開。據(jù)悉，鴻博股份全資子公司英博數(shù)科將在協(xié)議簽署后的12個月內(nèi)向五季智能提供高性能GPU算力出租服務(wù)，1期交付不超過256臺服務(wù)器總計不低于1280P算力。

不過目前，國內(nèi) AI 算力、國產(chǎn)GPU芯片還存在制程工藝和產(chǎn)品規(guī)格限制、沒有雙精度浮點(diǎn)功能、沒有CUDA這種完整生態(tài)、與其他芯片之間的解耦性較差、通信網(wǎng)絡(luò)連接問題導(dǎo)致算力損耗高等挑戰(zhàn)亟待解決。

多位行業(yè)內(nèi)人士對鈦媒體App透露，當(dāng)下大部分模型訓(xùn)練領(lǐng)域仍會用英偉達(dá)產(chǎn)品，但信創(chuàng)、政務(wù)等數(shù)據(jù)私有化程度高的領(lǐng)域會更多采用本土算力。

“全球CUDA生態(tài)的注冊開發(fā)者人數(shù)接近400萬，多年來大家一直在沿用這一生態(tài)架構(gòu)。因此，國內(nèi)GPU企業(yè)現(xiàn)在面臨生態(tài)遷移問題，操作系統(tǒng)、編程系統(tǒng)不一樣。如果企業(yè)要換一個新的生態(tài)，就要做大量代碼性的遷移及改變，這個成本及時間是非常高的。”蓋魯江透露，天數(shù)智芯在持續(xù)加大這部分投入，但這需要行業(yè)上下游企業(yè)共同研發(fā)，需要時間和過程。

“中國目前大算力芯片的發(fā)展還處于起步階段。”清華大學(xué)電子工程系長聘教授、系主任汪玉認(rèn)為，天數(shù)智芯、燧原科技、寒武紀(jì)等本土芯片算力如何做到高效統(tǒng)一的部署，在芯片上把這樣的算法跑起來，是一個非常重要的問題。

啟明創(chuàng)投合伙人葉冠泰表示，大模型時代，訓(xùn)練千億參數(shù)、萬億參數(shù)的模型必不可少的就是算力，大模型參數(shù)規(guī)模的高速增長對GPU的能力不斷提出更高的要求。大算力的GPU要支撐各種各樣的模型，需要具備穩(wěn)定性、擴(kuò)展性、延遲控制、性價比等，展現(xiàn)出典型的“木桶理論”，而且大算力芯片的推廣，需要整個上下游的生態(tài)支持。AI的時代已經(jīng)到來，芯片公司需要和大模型公司緊密合作。

據(jù)畢馬威和聯(lián)想聯(lián)手發(fā)布的報告數(shù)據(jù)顯示，放眼全球，算力已成為各國科技戰(zhàn)略布局重點(diǎn)。當(dāng)前，美、中、歐、日基本穩(wěn)居全球算力產(chǎn)業(yè)規(guī)模前四，美、中兩國處在領(lǐng)先地位且中國算力規(guī)模增速明顯領(lǐng)跑。各國算力投資或補(bǔ)貼計劃均超千億。

經(jīng)初步測算，到2025年，數(shù)據(jù)中心、云計算、人工智能市場規(guī)模總計將突破2.5萬億元，算力核心產(chǎn)業(yè)規(guī)模將不低于4.4萬億元，關(guān)聯(lián)產(chǎn)業(yè)規(guī)�？蛇_(dá)24萬億元，成為與新能源汽車比肩的超萬億級高潛賽道。

華泰證券研究所科技行業(yè)首席分析師黃樂平在WAIC上表示，未來AI應(yīng)用的逐步豐富將推動推理芯片等相關(guān)市場保持強(qiáng)勁增長，算力需求增長會率先利好算力芯片、光模塊、服務(wù)器產(chǎn)業(yè)鏈等“送水人”。

“芯片半導(dǎo)體行業(yè)沒有捷徑可言。專注于產(chǎn)品研發(fā)和與用戶的合作，踏踏實實做事，最后用產(chǎn)品說話。傾聽客戶需求是重中之重。”壁仞科技合伙人梁剛在WAIC 2023啟明創(chuàng)投分論壇上稱。據(jù)悉，今年WAIC，寒武紀(jì)、壁仞科技等部分 AI 芯片公司沒有參展。（本文首發(fā)鈦媒體App，作者｜林志佳）