當(dāng)前位置：人工智能實(shí)驗(yàn)室> 人工智能動(dòng)態(tài) > AI大算力芯片行業(yè)報(bào)告：百舸爭(zhēng)流，創(chuàng)新者先

AI大算力芯片行業(yè)報(bào)告：百舸爭(zhēng)流，創(chuàng)新者先
來源：互聯(lián)網(wǎng) 發(fā)布日期：2023-06-24 08:25:13 瀏覽：5273次

導(dǎo)讀：圖片來源@視覺中國(guó) 文｜睿洞察從2022.11.30的ChatGPT，到2023.6.13的360智腦大模型2.0，全球AI界已為大模型持續(xù)瘋狂了七個(gè)多月。ChatGPT們正如雨后春筍般涌現(xiàn)，向AI市場(chǎng)投放一個(gè)個(gè)炸彈：辦公、醫(yī)療、教育、制造，亟需AI的賦能。而AI應(yīng)用千千萬，把大模型打...

圖片來源@視覺中國(guó)

文｜睿洞察

從2022.11.30的ChatGPT，到2023.6.13的360智腦大模型2.0，全球AI界已為大模型持續(xù)瘋狂了七個(gè)多月。ChatGPT們正如雨后春筍般涌現(xiàn)，向AI市場(chǎng)投放一個(gè)個(gè)“炸彈”：辦公、醫(yī)療、教育、制造，亟需AI的賦能。

而AI應(yīng)用千千萬，把大模型打造好才是硬道理。

對(duì)于大模型“世界”來說，算法是“生產(chǎn)關(guān)系”，是處理數(shù)據(jù)信息的規(guī)則與方式；算力是“生產(chǎn)力”，能夠提高數(shù)據(jù)處理、算法訓(xùn)練的速度與規(guī)模；數(shù)據(jù)是“生產(chǎn)資料”，高質(zhì)量的數(shù)據(jù)是驅(qū)動(dòng)算法持續(xù)迭代的養(yǎng)分。在這之中，算力是讓大模型轉(zhuǎn)動(dòng)的前提。

我們都知道的是，大模型正對(duì)算力提出史無前例的要求，具體的表現(xiàn)是：據(jù)英偉達(dá)數(shù)據(jù)顯示，在沒有以Transformer模型為基礎(chǔ)架構(gòu)的大模型之前，算力需求大致是每?jī)赡晏嵘?倍；而自利用Transformer模型后，算力需求大致是每?jī)赡晏嵘?75倍�；诖�，530B參數(shù)量的Megatron-Turing NLG模型，將要吞噬超10億FLOPS的算力。

（AI不同模型算法算力迭代情況圖源：格隆匯）

作為大模型的大腦AI芯片，是支撐ChatGPT們高效生產(chǎn)及應(yīng)用落地的基本前提。保證算力的高效、充足供應(yīng)，是目前AI大算力芯片廠商亟需解決的問題。

GPT-4等大模型向芯片廠商獅子大開口的同時(shí)，也為芯片廠商尤其是初創(chuàng)芯片廠商，帶來一個(gè)利好消息：軟件生態(tài)重要性正在下降。

早先技術(shù)不夠成熟之時(shí)，研究者們只能從解決某個(gè)特定問題起步，參數(shù)量低于百萬的小模型由此誕生。例如谷歌旗下的AI公司DeepMind，讓AlphaGO對(duì)上百萬種人類專業(yè)選手的下棋步驟進(jìn)行專項(xiàng)“學(xué)習(xí)”。

而小模型多了之后，硬件例如芯片的適配問題迫在眉睫。故，當(dāng)英偉達(dá)推出統(tǒng)一生態(tài)CUDA之后，GPU+CUDA迅速博得計(jì)算機(jī)科學(xué)界認(rèn)可，成為人工智能開發(fā)的標(biāo)準(zhǔn)配置。

現(xiàn)如今紛紛涌現(xiàn)的大模型具備多模態(tài)能力，能夠處理文本、圖片、編程等問題，也能夠覆蓋辦公、教育、醫(yī)療等多個(gè)垂直領(lǐng)域。這也就意味著，適應(yīng)主流生態(tài)并非唯一的選擇：在大模型對(duì)芯片需求量暴漲之時(shí)，芯片廠商或許可以只適配1-2個(gè)大模型，便能完成以往多個(gè)小模型的訂單。

也就是說，ChatGPT的出現(xiàn)，為初創(chuàng)芯片廠商們提供了彎道超車的機(jī)會(huì)。這就意味著，AI芯片市場(chǎng)格局將發(fā)生巨變：不再是個(gè)別廠商的獨(dú)角戲，而是多個(gè)創(chuàng)新者的群戲。

本報(bào)告將梳理AI芯片行業(yè)發(fā)展概況、玩家情況，總結(jié)出大算力時(shí)代，玩家提高算力的路徑，并基于此，窺探AI大算力芯片的發(fā)展趨勢(shì)。

國(guó)產(chǎn)AI芯片，正走向AI 3.0時(shí)代

現(xiàn)階段的AI芯片，根據(jù)技術(shù)架構(gòu)種類來分，主要包括GPGPU、FPGA、以 VPU、TPU 為代表的 ASIC、存算一體芯片。

根據(jù)其在網(wǎng)絡(luò)中的位置，AI 芯片可以分為云端AI芯片、邊緣和終端AI芯片；

云端主要部署高算力的AI訓(xùn)練芯片和推理芯片，承擔(dān)訓(xùn)練和推理任務(wù)，例如智能數(shù)據(jù)分析、模型訓(xùn)練任務(wù)等；

邊緣和終端主要部署推理芯片，承擔(dān)推理任務(wù)，需要獨(dú)立完成數(shù)據(jù)收集、環(huán)境感知、人機(jī)交互及部分推理決策控制任務(wù)。

根據(jù)其在實(shí)踐中的目標(biāo)，可分為訓(xùn)練芯片和推理芯片：

縱觀AI芯片在國(guó)內(nèi)的發(fā)展史，AI芯片國(guó)產(chǎn)化進(jìn)程大致分為三個(gè)時(shí)代。

1.0時(shí)代，是屬于ASIC架構(gòu)的時(shí)代

自2000年互聯(lián)網(wǎng)浪潮拉開AI芯片的序幕后，2010年前后，數(shù)據(jù)、算法、算力和應(yīng)用場(chǎng)景四大因素的逐漸成熟，正式引發(fā)AI產(chǎn)業(yè)的爆發(fā)式增長(zhǎng)。申威、沸騰、兆芯、龍芯、魂芯以及云端AI芯片相繼問世，標(biāo)志著國(guó)產(chǎn)AI芯片正式啟航。

2016年5月，當(dāng)谷歌揭曉AlphaGo背后的功臣是TPU時(shí)，ASIC隨即成為“當(dāng)紅辣子雞”。于是在2018年，國(guó)內(nèi)寒武紀(jì)、地平線等國(guó)內(nèi)廠商陸續(xù)跟上腳步，針對(duì)云端AI應(yīng)用推出ASIC架構(gòu)芯片，開啟國(guó)產(chǎn)AI芯片1.0時(shí)代。

ASIC芯片，能夠在某一特定場(chǎng)景、算法較固定的情況下，實(shí)現(xiàn)更優(yōu)性能和更低功耗，基于此，滿足了企業(yè)對(duì)極致算力和能效的追求。

所以當(dāng)時(shí)的廠商們，多以捆綁合作為主：大多芯片廠商尋找大客戶們實(shí)現(xiàn)“專用場(chǎng)景”落地，而有著綜合生態(tài)的大廠選擇單打獨(dú)斗。

地平線、耐能科技等AI芯片廠商，分別專注AI芯片的細(xì)分領(lǐng)域，采用“大客戶捆綁”模式進(jìn)入大客戶供應(yīng)鏈。

在中廠們綁定大客戶協(xié)同發(fā)展之際，自有生態(tài)的大廠阿里成立獨(dú)資芯片公司平頭哥，著眼AI和量子計(jì)算。

2019年，平頭哥發(fā)布的第一款A(yù)I芯片含光800，便是基于ASIC架構(gòu)打造，用于云端推理。據(jù)阿里介紹，1顆含光800的算力相當(dāng)于10顆GPU，含光800推理性能達(dá)到78563 IPS，能效比500 IPS/W。相比傳統(tǒng)GPU算力，性價(jià)比提升100%。

在1.0時(shí)代，剛出世的國(guó)內(nèi)芯片廠商們選擇綁定大客戶，有綜合生態(tài)的大廠選擇向內(nèi)自研，共同踏上探索AI芯片算力的征途。

2.0時(shí)代，更具通用性的GPGPU“引領(lǐng)風(fēng)騷”

盡管ASIC有著極致的算力和能效，但也存在著應(yīng)用場(chǎng)景局限、依賴自建生態(tài)、客戶遷移難度大、學(xué)習(xí)曲線較長(zhǎng)等問題。

于是，通用性更強(qiáng)的GPGPU（通用圖形處理器）在不斷迭代和發(fā)展中成為AI計(jì)算領(lǐng)域的最新發(fā)展方向，當(dāng)上AI芯片2.0時(shí)代的指路人。

自2020年起，以英偉達(dá)為代表的GPGPU架構(gòu)開始有著不錯(cuò)的性能表現(xiàn)。通過對(duì)比英偉達(dá)近三代旗艦產(chǎn)品發(fā)現(xiàn)，從FP16 tensor 算力來看，性能實(shí)現(xiàn)逐代翻倍的同時(shí)，算力成本在下降。

于是，國(guó)內(nèi)多個(gè)廠商紛紛布局GPGPU芯片，主打CUDA兼容，試探著AI算力芯片的極限。2020年起，珠海芯動(dòng)力、壁仞科技、沐曦、登臨科技、天數(shù)智芯、瀚博半導(dǎo)體等新勢(shì)力集結(jié)發(fā)力，大家一致的動(dòng)作是：自研架構(gòu)，追隨主流生態(tài)，切入邊緣側(cè)場(chǎng)景。

在前兩個(gè)時(shí)代中，國(guó)產(chǎn)AI芯片廠商都在竭力順應(yīng)時(shí)代潮流，前赴后繼地跟隨國(guó)際大廠的步伐，通過研發(fā)最新芯片解決AI算力芯片的挑戰(zhàn)。

我們能看到的變化是，在2.0時(shí)代中，國(guó)產(chǎn)AI芯片廠商自主意識(shí)覺醒，嘗試著自研架構(gòu)以求突破。

3.0時(shí)代，存算一體芯片或成GPT-4等大模型的最優(yōu)選

ASIC芯片的弱通用性難以應(yīng)對(duì)下游層出不窮的應(yīng)用，GPGPU受制于高功耗與低算力利用率，而大模型又對(duì)算力提出前所未有的高要求：目前，大模型所需的大算力起碼是1000TOPS及以上。

以 2020 年發(fā)布的 GPT-3 預(yù)訓(xùn)練語言模型為例，其采用的是2020年最先進(jìn)的英偉達(dá)A100 GPU, 算力是624TOPS。2023年，隨著模型預(yù)訓(xùn)練階段模型迭代，又新增訪問階段井噴的需求，未來模型對(duì)于芯片算力的需求起碼要破千。

再例如自動(dòng)駕駛領(lǐng)域，根據(jù)財(cái)通證券研究所表明，自動(dòng)駕駛所需單個(gè)芯片的算力未來起碼要1000+TOPS：2021年4月, 英偉達(dá)就已經(jīng)發(fā)布了算力為1000TOPS的DRIVE Atlan芯片；到了今年，英偉達(dá)直接推出芯片Thor，達(dá)到2000TOPS。

由此，業(yè)界亟需新架構(gòu)、新工藝、新材料、新封裝，突破算力天花板。除此之外，日漸緊張的地緣關(guān)系，無疑又給高度依賴先進(jìn)制程工藝的AI大算力芯片廠商們提出新的挑戰(zhàn)。

在這些大背景下，從2017年到2021年間集中成立的一批初創(chuàng)公司，選擇跳脫傳統(tǒng)馮諾依曼架構(gòu)，布局存算一體等新興技術(shù)，中國(guó)AI芯片3.0時(shí)代，正式拉開帷幕。

目前存算一體，正在上升期：

學(xué)界，ISSCC上存算/近存算相關(guān)的文章數(shù)量迅速增加：從20年的6篇上漲到23年的19篇；其中數(shù)字存內(nèi)計(jì)算，從21年被首次提出后，22年迅速增加到4篇。

產(chǎn)界，巨頭紛紛布局存算一體，國(guó)內(nèi)陸陸續(xù)續(xù)也有近十幾家初創(chuàng)公司押注該架構(gòu)：

在特斯拉2023 Investor Day預(yù)告片末尾，特斯拉的dojo超算中心和存算一體芯片相繼亮相；在更早之前，三星、阿里達(dá)摩院包括AMD也早早布局并推出相關(guān)產(chǎn)品：阿里達(dá)摩院表示，相比傳統(tǒng)CPU計(jì)算系統(tǒng)，存算一體芯片的性能提升10倍以上，能效提升超過300倍；三星表示，與僅配備HBM的GPU加速器相比，配備HBM-PIM的GPU加速器一年的能耗降低了約2100GWh。

目前，國(guó)內(nèi)的億鑄科技、知存科技、蘋芯科技、九天睿芯等十余家初創(chuàng)公司采用存算一體架構(gòu)投注于AI算力，其中億鑄科技、千芯科技偏向數(shù)據(jù)中心等大算力場(chǎng)景。

現(xiàn)階段，業(yè)內(nèi)人士表示，存算一體將有望成為繼CPU、GPU架構(gòu)之后的第三種算力架構(gòu)。

該提法的底氣在于，存算一體理論上擁有高能效比優(yōu)勢(shì)，又能繞過先進(jìn)制程封鎖，兼顧更強(qiáng)通用性與更高性價(jià)比，算力發(fā)展空間巨大。

在此基礎(chǔ)上，新型存儲(chǔ)器能夠助力存算一體更好地實(shí)現(xiàn)以上優(yōu)勢(shì)。目前可用于存算一體的成熟存儲(chǔ)器有NOR FLASH、SRAM、DRAM、RRAM、MRAM等。相比之下，RRAM具備低功耗、高計(jì)算精度、高能效比和制造兼容CMOS工藝等優(yōu)勢(shì)：

目前，新型存儲(chǔ)器RRAM技術(shù)已然落地：2022上半年，國(guó)內(nèi)創(chuàng)業(yè)公司昕原半導(dǎo)體宣布，大陸首條RRAM 12寸中試生產(chǎn)線正式完成裝機(jī)驗(yàn)收，并在工控領(lǐng)域達(dá)成量產(chǎn)商用。據(jù)昕原半導(dǎo)體CTO仇圣博士介紹，昕原RRAM產(chǎn)品的良率已經(jīng)超過93%。

隨著新型存儲(chǔ)器件走向量產(chǎn)，存算一體AI芯片已經(jīng)挺進(jìn)AI大算力芯片落地競(jìng)賽。

而無論是傳統(tǒng)計(jì)算芯片，還是存算一體芯片，在實(shí)際加速AI計(jì)算時(shí)往往還需處理大量的邏輯計(jì)算、視頻編解碼等非AI加速計(jì)算領(lǐng)域的計(jì)算任務(wù)。隨著多模態(tài)成為大模型時(shí)代的大勢(shì)所趨，AI芯片未來需處理文本、語音、圖像、視頻等多類數(shù)據(jù)。

對(duì)此，初創(chuàng)公司億鑄科技首個(gè)提出存算一體超異構(gòu)AI大算力技術(shù)路徑。億鑄的暢想是，若能把新型憶阻器技術(shù)(RRAM)、存算一體架構(gòu)、芯粒技術(shù)（Chiplet）、3D封裝等技術(shù)結(jié)合，將會(huì)實(shí)現(xiàn)更大的有效算力、放置更多的參數(shù)、實(shí)現(xiàn)更高的能效比、更好的軟件兼容性、從而抬高AI大算力芯片的發(fā)展天花板。

站在3.0時(shí)代門口，國(guó)產(chǎn)AI大算力芯片廠商自主意識(shí)爆發(fā)，以期為中國(guó)AI大算力芯片提供彎道超車的可能。

AI芯片市場(chǎng)的發(fā)展動(dòng)力，大抵來源于以下幾個(gè)因素。

中央與地方政府正為提供充足算力而奔波

2023年2月，中央政府發(fā)布多個(gè)相關(guān)報(bào)告與布局規(guī)劃，強(qiáng)調(diào)東數(shù)西算中算力的調(diào)動(dòng)，目前已落下一子：東數(shù)西算一體化服務(wù)平臺(tái)。

地方政府層面，例如成都在2023年1月，發(fā)布“算力券”，即將政府算力資源與算力中介服務(wù)機(jī)構(gòu)、科技型中小微企業(yè)和創(chuàng)客、科研機(jī)構(gòu)、高校等共享，有效提高算力利用率；北京在2023年3月，發(fā)布加快落實(shí)算力的相關(guān)意見，加快計(jì)算中心、算力中心、工業(yè)互聯(lián)網(wǎng)、物聯(lián)網(wǎng)等基礎(chǔ)設(shè)施建設(shè)。

基于國(guó)家與地方政府相關(guān)政策指引，AI廠商們紛紛建立起超算/智算中心，較于以往不同的是，今年算力的首個(gè)市場(chǎng)化運(yùn)作模式誕生，智算中心算力的規(guī)模也實(shí)現(xiàn)質(zhì)的飛躍：據(jù)國(guó)家信息中心與相關(guān)部門聯(lián)合發(fā)布的《智能計(jì)算中心創(chuàng)新發(fā)展指南》顯示，目前全國(guó)有超過30個(gè)城市正在建設(shè)或提出建設(shè)智算中心。

AI芯片產(chǎn)業(yè)布局規(guī)劃持續(xù)落地

可以看到，關(guān)于AI芯片政策已從“十三五”的規(guī)劃階段，來到“十四五”的落地階段：提高AI芯片研發(fā)技術(shù)，推廣AI應(yīng)用。

同時(shí)，各地明確提出，要加強(qiáng)AI芯片產(chǎn)業(yè)布局。在這之中，浙江、廣東、江蘇等省份均提出了至2025年，人工智能芯片領(lǐng)域的具體發(fā)展方向。

存算一體正成為地方算力產(chǎn)業(yè)新機(jī)遇

存算一體，正成為深圳算力產(chǎn)業(yè)鏈創(chuàng)新發(fā)展的新機(jī)遇，并在積極落地之中。

2023年4月2日，在第二屆中國(guó)產(chǎn)業(yè)鏈創(chuàng)新發(fā)展峰會(huì)新一代信息技術(shù)產(chǎn)業(yè)發(fā)展論壇上，北京大學(xué)深研院信息工程學(xué)院副院長(zhǎng)楊玉超表示，深圳將立足于相對(duì)完善的產(chǎn)業(yè)鏈集群，從先進(jìn)工藝與封裝、創(chuàng)新電路與架構(gòu)、EDA工具鏈、軟件與算法生態(tài)這四個(gè)方面解決存算一體在產(chǎn)業(yè)化應(yīng)用上的挑戰(zhàn)。

今年4月，中國(guó)大模型正式爆發(fā)，未來，對(duì)于AI大算力芯片的需求只增不減。

現(xiàn)有的大模型，正向著英偉達(dá)A100大算力芯片獅子大開口：

故例如商湯等AI廠商，正把眼光放置在國(guó)產(chǎn)AI大算力芯片上：2023年4月10日商湯披露，目前商湯所用的國(guó)產(chǎn)化AI芯片占比達(dá)到總體的10%。這無疑，將加速國(guó)內(nèi)AI芯片廠商的成長(zhǎng)。

英偉達(dá)表示，未來將從GPU架構(gòu)出發(fā)，走向“GPU+DPU的超異構(gòu)”：推出NVLink-C2C 、支持UCLe+芯粒+3D封裝；推出Thor“超異構(gòu)”芯片2000T；

AMD表示，未來硬件創(chuàng)新突破更難，將走向“系統(tǒng)級(jí)創(chuàng)新”，即從整體設(shè)計(jì)的上下游多個(gè)環(huán)節(jié)協(xié)同設(shè)計(jì)來完成性能的提升。

千億美元的AI芯片市場(chǎng)，2023火得滾燙

整體人工智能產(chǎn)業(yè)鏈，基本分為基礎(chǔ)層、技術(shù)層和應(yīng)用層三個(gè)層面：

基礎(chǔ)層包括AI芯片、智能傳感器、云計(jì)算等；技術(shù)層包括機(jī)器學(xué)習(xí)、計(jì)算機(jī)視覺、自然語言處理等；應(yīng)用層包括機(jī)器人、無人機(jī)、智慧醫(yī)療、智慧交通、智慧金融、智能家居、智慧教育、智慧安防等。

基礎(chǔ)層作為人工智能行業(yè)發(fā)展的基礎(chǔ)，為人工智能提供數(shù)據(jù)和算力支撐，其中，AI芯片是人工智能算力的基矗

在AI產(chǎn)業(yè)尚未成熟之時(shí)，基礎(chǔ)層企業(yè)當(dāng)前價(jià)值量最大，中國(guó)人工智能產(chǎn)業(yè)鏈中，基礎(chǔ)層企業(yè)比例達(dá)到83%，技術(shù)層企業(yè)比例為5%，應(yīng)用層企業(yè)比例為12%。

基礎(chǔ)層決定大樓是否穩(wěn)固，而下游的應(yīng)用層面決定大樓高度。在應(yīng)用層，智能機(jī)器人、無人機(jī)等智慧終端潛力無限，智慧城市、智慧醫(yī)療等領(lǐng)域，更是有不少金子能挖。目前，我國(guó)智能機(jī)器人市場(chǎng)規(guī)模持續(xù)快速增長(zhǎng)。

數(shù)據(jù)顯示，2017-2021年我國(guó)智能機(jī)器人市場(chǎng)規(guī)模從448億元增長(zhǎng)至994億元，期內(nèi)年均復(fù)合增長(zhǎng)率達(dá)22.05%，預(yù)計(jì)2023年其市場(chǎng)規(guī)模將達(dá)1300億元。

據(jù)中國(guó)信通院數(shù)據(jù)統(tǒng)計(jì)，中國(guó)智慧城市市場(chǎng)規(guī)模近幾年均保持30%以上增長(zhǎng)，2021年市場(chǎng)規(guī)模達(dá)21.1萬億元，預(yù)計(jì)2023年其市場(chǎng)規(guī)模將達(dá)28.6萬億元。

千億美元市場(chǎng)，AI芯片魅力無限

在全球數(shù)字化、智能化的浪潮下，技術(shù)層的技術(shù)正不斷迭代：自動(dòng)駕駛、影像辨識(shí)、運(yùn)算等技術(shù)正在各領(lǐng)域深化應(yīng)用；與此同時(shí)，應(yīng)用層的物聯(lián)網(wǎng)設(shè)備正不斷豐富：工業(yè)機(jī)器人、AGV/AMR、智能型手機(jī)、智能音箱、智能攝影機(jī)等。

這無疑，會(huì)推動(dòng)基礎(chǔ)層的AI芯片與技術(shù)市場(chǎng)迅速成長(zhǎng)。根據(jù)灼識(shí)咨詢數(shù)據(jù)，2022年全球AI芯片市場(chǎng)規(guī)模達(dá)到960億美元，預(yù)計(jì)2027年達(dá)到3089億美元，2022年至2027年的復(fù)合年增長(zhǎng)率為23%：

國(guó)內(nèi)的AI芯片市場(chǎng)，更為火熱：根據(jù)灼識(shí)咨詢數(shù)據(jù)，2022年中國(guó)AI市場(chǎng)規(guī)模達(dá)到319億美元，預(yù)計(jì)于2027年將達(dá)到1150億美元，2022年至2027年的復(fù)合年增長(zhǎng)率為29.2%。

2021，AI芯片賽道迎來風(fēng)口

隨著下游安防、汽車等市場(chǎng)需求量增大，再加上2019年以來，美國(guó)持續(xù)制裁國(guó)內(nèi)廠商的動(dòng)作，2021年，國(guó)內(nèi)AI芯片賽道迎來風(fēng)口。在這一年里，資本們競(jìng)相挑選屬于中國(guó)AI芯片市場(chǎng)的“潛力狗”，以期掌握未來芯片市場(chǎng)的話語權(quán)。盡管2022年投資熱度有所回落，但總體金額仍超百億元。

（2016-2023年中國(guó)人工智能芯片行業(yè)融資整體情況圖源：前瞻經(jīng)濟(jì)學(xué)人APP）

C輪后的融資較少，AI芯片市場(chǎng)仍處于萌芽期

通過分析投資輪次發(fā)現(xiàn)，AI芯片市場(chǎng)仍處于萌芽期：目前人工智能芯片行業(yè)的融資輪次仍處于早期階段，C輪后的融資數(shù)量較少。

（2016-2023年中國(guó)人工智能芯片行業(yè)投融資輪次情況圖源：前瞻經(jīng)濟(jì)學(xué)人APP）

存算一體成為香餑餑

細(xì)分賽道來看，GPU是價(jià)值量最高的賽道，摩爾線程等GPU玩家融資超10億，榮獲“MVP”；

而存算一體賽道融資公司數(shù)量最多，億鑄科技、知存科技等七家存算一體玩家，備受資本青睞。值得注意的是，存算一體賽道下的四家初創(chuàng)公司億鑄科技、知存科技、蘋芯科技、后摩智能，已連續(xù)兩年獲得融資。

國(guó)內(nèi)AI大算力賽道，玩家?guī)缀危?/p>

目前，寒武紀(jì)、平頭哥等1.0時(shí)代玩家，現(xiàn)已成為優(yōu)質(zhì)AI算力芯片上市公司；2.0時(shí)代涌現(xiàn)的非上市AI算力芯片公司如壁仞科技、登臨科技、天數(shù)智芯等在產(chǎn)品端持續(xù)發(fā)力；3.0時(shí)代，千芯科技、億鑄科技等初創(chuàng)公司正在存算一體這一架構(gòu)上尋求突破。

經(jīng)睿洞察整理發(fā)現(xiàn)，目前，多數(shù)AI芯片公司布局邊緣側(cè)、中心側(cè)偏小算力場(chǎng)景，例如智慧安防、智慧城市、智慧醫(yī)療等應(yīng)用場(chǎng)景；壁仞科技、平頭哥、億鑄科技能夠覆蓋邊緣側(cè)、中心側(cè)偏大算力場(chǎng)景；在新一批初創(chuàng)企業(yè)中，億鑄科技做出大膽的嘗試，試圖用存算一體架構(gòu)去做大算力場(chǎng)景。

故，我們按照架構(gòu)以及應(yīng)用場(chǎng)景分類，呈現(xiàn)出以下AI算力芯片中游廠商全景圖：

ChatGPT火爆來襲，引發(fā)AI產(chǎn)業(yè)巨浪，國(guó)產(chǎn)AI芯片正迎來3.0時(shí)代。在大模型催生的3.0時(shí)代，亟需AI大算力芯片提供充足算力，讓日益沉重的大模型快速滾動(dòng)起來。

大模型盛行，芯片廠商如何解決大算力難題？

算力，即國(guó)力

伴隨“元宇宙”時(shí)代開啟，GPT-4等大模型來勢(shì)洶洶，數(shù)據(jù)流量將迎來爆發(fā)增長(zhǎng)。據(jù)IDC預(yù)測(cè)數(shù)據(jù)，預(yù)估未來五年，全球算力規(guī)模將以超過50%的速度增長(zhǎng)，到2025年整體規(guī)模將達(dá)到3300EFlops。而2025年全球物聯(lián)網(wǎng)設(shè)備數(shù)將超過400億臺(tái)，產(chǎn)生數(shù)據(jù)量接近80ZB，且超過一半的數(shù)據(jù)需要依賴終端或者邊緣的計(jì)算能力進(jìn)行處理。

（全球算力需求未來增長(zhǎng)情況圖源：中國(guó)銀河證券研究院）

（全球算力增長(zhǎng)速度明顯落后于數(shù)據(jù)量增長(zhǎng) 圖源：中國(guó)銀河證券研究院）

數(shù)據(jù)量暴增，各國(guó)急需算力維系數(shù)據(jù)的正常運(yùn)轉(zhuǎn)，各國(guó)之間的算力之爭(zhēng)，正式打響。而事實(shí)上遠(yuǎn)不止算力之爭(zhēng)這么簡(jiǎn)單，這背后，是各國(guó)國(guó)力的角逐。

2022年3月，由IDC、浪潮信息、清華大學(xué)全球產(chǎn)業(yè)研究院聯(lián)合編制的《2021-2022全球計(jì)算力指數(shù)評(píng)估報(bào)告》，揭示了現(xiàn)如今“算力與國(guó)力”的基本關(guān)系：

全球各國(guó)算力規(guī)模與經(jīng)濟(jì)發(fā)展水平顯著正相關(guān)，算力規(guī)模越大，經(jīng)濟(jì)發(fā)展水平越高。計(jì)算力指數(shù)平均每提高1點(diǎn)，數(shù)字經(jīng)濟(jì)和GDP將分別增長(zhǎng)3.5‰和1.8‰；美國(guó)和中國(guó)的計(jì)算力指數(shù)分別為77分和70分，明顯領(lǐng)先其他國(guó)家的計(jì)算力指數(shù)。

場(chǎng)景眾多，不同的算力場(chǎng)景，對(duì)芯片的要求不同

小至耳機(jī)、手機(jī)、PC，大到汽車、互聯(lián)網(wǎng)、人工智能（AI）、數(shù)據(jù)中心、超級(jí)計(jì)算機(jī)、航天火箭等，“算力”都在其中發(fā)揮著基礎(chǔ)核心作用。而不同的算力場(chǎng)景，對(duì)芯片的要求不同：

可以看到，數(shù)據(jù)中心由于其算法多樣、迭代速度更快等特性，對(duì)芯片的要求尤其高：既要其高算力、又要其低功耗、低成本、高可靠性，還要其具備更高的通用性。

數(shù)據(jù)中心建設(shè)，迫在眉睫

在眾多應(yīng)用場(chǎng)景之中，數(shù)據(jù)中心尤為重要。作為AI基礎(chǔ)設(shè)施，數(shù)據(jù)中心承載著多個(gè)中心側(cè)與邊緣側(cè)算力的應(yīng)用：

1、國(guó)家數(shù)據(jù)中心集群支撐工業(yè)互聯(lián)網(wǎng)、金融證券、災(zāi)害預(yù)警、遠(yuǎn)程醫(yī)療、視頻通話、人工智能推理。

2、城市內(nèi)的數(shù)據(jù)中心作為算力“邊緣”端，服務(wù)金融市場(chǎng)高頻交易、VR/AR、超高清視頻、車聯(lián)網(wǎng)、聯(lián)網(wǎng)無人機(jī)、智慧電力、智能工廠、智能安防等。

現(xiàn)如今，算力、甚至是國(guó)力之爭(zhēng)，已然拉開序幕。

美國(guó)對(duì)中國(guó)數(shù)據(jù)中心、智算中心、超算中心的制裁自2021年就已開始：2021年4月，美國(guó)商務(wù)部對(duì)中國(guó)國(guó)家超級(jí)計(jì)算濟(jì)南中心、深圳中心、無錫中心、鄭州中心等中國(guó)超算實(shí)體列入“實(shí)體清單”。

基于下游市場(chǎng)的需求增長(zhǎng)，地緣政治等因素，我國(guó)數(shù)據(jù)中心也快速提上日程：2021年5月，國(guó)家提出“東數(shù)西算”工程，明確圍繞8個(gè)國(guó)家算力樞紐，推進(jìn)國(guó)家數(shù)據(jù)中心集群以及城市內(nèi)部數(shù)據(jù)中心建設(shè)。

現(xiàn)如今，中國(guó)數(shù)據(jù)中心建設(shè)較于美國(guó)仍有一定差距：

《2021-2022全球計(jì)算力指數(shù)評(píng)估報(bào)告》指出，目前世界上大約有600個(gè)超大規(guī)模的數(shù)據(jù)中心，每個(gè)都擁有超過5000臺(tái)服務(wù)器，其中約39％在美國(guó)，是中國(guó)的4倍，而中國(guó)、日本、英國(guó)、德國(guó)和澳大利亞的服務(wù)器數(shù)量總和約占總數(shù)的30％。

截至2021年底，我國(guó)在用數(shù)據(jù)中心機(jī)架總規(guī)模達(dá) 520 萬標(biāo)準(zhǔn)機(jī)架，在用數(shù)據(jù)中心服務(wù)器規(guī)模1900萬臺(tái)，算力總規(guī)模超過140EFLOPS。

在算力即國(guó)力的大背景下，大模型的催化下，低成本、低功耗的大算力一定會(huì)成為剛需。中國(guó)，亟需能夠承載算力的自主可控的數(shù)據(jù)中心，而數(shù)據(jù)中心的算力，依賴著芯片的國(guó)產(chǎn)替代進(jìn)度。

數(shù)據(jù)中心場(chǎng)景下，國(guó)產(chǎn)主流AI芯片，仍有差距

在數(shù)據(jù)中心這一基礎(chǔ)設(shè)施中，服務(wù)器占據(jù)69%�，F(xiàn)如今，在數(shù)據(jù)中心加速服務(wù)器市場(chǎng)，GPGPU憑借著更高性能、更高通用性占主導(dǎo)地位：

根據(jù)IDC數(shù)據(jù)，2021年，GPU/GPGPU服務(wù)器以91.9%的份額占我國(guó)加速服務(wù)器市場(chǎng)的主導(dǎo)地位；而前面我們提到過的ASIC、FPGA等非GPU加速服務(wù)器僅占比8.1%。

而現(xiàn)階段，在云端數(shù)據(jù)中心場(chǎng)景下，國(guó)產(chǎn)GPGPU芯片較于國(guó)際頂尖水平，仍有差距。

在進(jìn)行對(duì)比之前，我們需要明確的是，在云端（服務(wù)器端），對(duì)于訓(xùn)練芯片、推理芯片的要求不全然相同：

訓(xùn)練芯片需通過海量數(shù)據(jù)訓(xùn)練出復(fù)雜的神經(jīng)網(wǎng)絡(luò)模型，使其適應(yīng)特定的功能，相應(yīng)地，對(duì)性能和精度有較高的要求，并需具備一定的通用性；

推理芯片則是利用神經(jīng)網(wǎng)絡(luò)模型進(jìn)行推理預(yù)測(cè)，對(duì)峰值計(jì)算性能要求較低，則更加注重單位能耗算力、時(shí)延、成本等綜合指標(biāo)。

AI訓(xùn)練芯片，國(guó)產(chǎn)仍有差距

目前，壁仞科技、平頭哥、昆侖芯、沐曦、天數(shù)智芯等玩家對(duì)于云端數(shù)據(jù)中心皆有布局，其中，昆侖芯、平頭哥等大多廠商推出推理芯片；寒武紀(jì)、沐曦、天數(shù)智芯則推出訓(xùn)推一體芯片。

近年來，國(guó)內(nèi)廠商訓(xùn)練芯片產(chǎn)品硬件性能不斷取得突破，但與市場(chǎng)主流英偉達(dá)A100產(chǎn)品仍存在一定差距：

以燧原云邃T20產(chǎn)品為例，其32位單精度浮點(diǎn)性能達(dá)32TFLOPS，高于A100的19.5TFLOPS，且在功耗上更具優(yōu)勢(shì)，但內(nèi)存寬帶不足A100的1/3，在應(yīng)對(duì)機(jī)器學(xué)習(xí)和深度學(xué)習(xí)的帶寬需求上仍有差距。

同時(shí)據(jù)浙商證券分析，寒武紀(jì)去年年底推出的思元590系列可能在部分模型上由于其ASIC專用性表現(xiàn)出更優(yōu)異的性能，但由于其通用性不足，仍需要后期適配和技術(shù)支持。對(duì)比之下，中國(guó)AI訓(xùn)練芯片仍與英偉達(dá)在性能、生態(tài)（兼容）有一定差距。

AI推理芯片，國(guó)產(chǎn)有望追平

目前，寒武紀(jì)、燧原、昆侖芯等國(guó)內(nèi)廠商產(chǎn)品已具備與市場(chǎng)主流的Tesla T4 正面競(jìng)爭(zhēng)能力：其能效比為1.71TOPS/W，與T4的1.86TOPS/W差距較校

算力優(yōu)化路徑

差距猶在，國(guó)產(chǎn)AI廠商亟需趕上國(guó)際速度。大家提升芯片性能的第一步，都是卷先進(jìn)制程。

現(xiàn)階段，先進(jìn)制程芯片設(shè)計(jì)成本高昂：?jiǎn)挝幻娣e成本在14/16nm后陡增。

（先進(jìn)制程芯片的單位面積成本增加圖源：天風(fēng)證券）

1、根據(jù)奇異摩爾數(shù)據(jù)，隨著制程從28nm制程演變到5nm，研發(fā)投入也從5130萬美元?jiǎng)≡鲋?.42億美元，2nm的開發(fā)費(fèi)用接近20億美元，先進(jìn)制程已然成了全球巨頭的燒錢競(jìng)賽。

2、根據(jù)EETOP公眾號(hào)數(shù)據(jù)，在7nm節(jié)點(diǎn)，設(shè)計(jì)一款芯片的費(fèi)用高達(dá)3億美元。且伴隨摩爾定律不斷放緩，晶體管同時(shí)逼近物理極限、成本極限。

由此，芯片上游企業(yè)也在瘋狂漲價(jià)：供貨商臺(tái)積電的先進(jìn)制程晶圓價(jià)格每年都在漲，越漲越離譜。

3、先前還是分制程漲價(jià)：2021年，臺(tái)積電在8月25日中午通知客戶全面漲價(jià)，即日起7nm及5nm先進(jìn)制程將漲價(jià)7%至9%，其余的成熟制程漲價(jià)約20%；

4、而在2023年初，臺(tái)積電全線大幅度漲價(jià)：根據(jù)《電子時(shí)報(bào)》報(bào)道，臺(tái)積電12英寸5nm晶圓價(jià)格高達(dá)1.6萬美元/片，較上一代7nm晶圓漲價(jià)60%。

成本上漲將成為常態(tài)，更令人遺憾的是，在國(guó)內(nèi)廠商已經(jīng)把制程卷到7nm的情況下，性能也并沒有趕超英偉達(dá)。

若是卷到5nm以達(dá)到更高的性能，芯片廠商得不償失：

首先是成本難以負(fù)擔(dān)，英偉達(dá)在GPGPU的護(hù)城河，是靠著錢砸出來的。據(jù)英偉達(dá)黃仁勛表示，光是A100芯片的研發(fā)成本，就是20-30億美元（百億元級(jí)別）以及4年時(shí)光。短期之內(nèi)，國(guó)內(nèi)初創(chuàng)企業(yè)沒有如此大的體量，也付不起時(shí)間成本。

目前，高昂的研發(fā)成本已讓寒武紀(jì)等廠商，仍未盈利。

其次是錢花了，沒效果：性能并非保持“正增長(zhǎng)”。邏輯芯片依然沿著摩爾定律向前演進(jìn)，存儲(chǔ)芯片繼續(xù)縮減尺寸已不再具備成本和性能方面的優(yōu)勢(shì)，模擬芯片制程的縮小反而可能導(dǎo)致模擬電路性能的降低。

同時(shí)，長(zhǎng)期來看，7nm芯片比5nm成本效益更高：

美國(guó)喬治城大學(xué)發(fā)布了一份AI芯片研究報(bào)告，其中對(duì)采用不同工藝節(jié)點(diǎn)的AI芯片進(jìn)行經(jīng)濟(jì)效益分析。該報(bào)告通過量化模型揭示出，相比5nm工藝節(jié)點(diǎn)，7nm工藝芯片的成本收益更優(yōu)。

研究人員從該成本分析模型，得出兩個(gè)結(jié)論：

1、在正常運(yùn)營(yíng)兩年內(nèi)，先進(jìn)工藝(7/5nm)芯片的能耗成本就超過了其生產(chǎn)成本，采用舊工藝的芯片(10nm及以上)能耗成本增長(zhǎng)更快。若綜合考慮生產(chǎn)成本和運(yùn)營(yíng)成本，先進(jìn)工藝芯片的成本效益是舊工藝芯片的33倍。

2、對(duì)比7nm和5nm芯片，當(dāng)正常運(yùn)營(yíng)使用8.8年時(shí)，二者的成本相當(dāng)。這意味著，如果在8.8年以內(nèi)更換芯片，7nm更劃算。鑒于數(shù)據(jù)中心AI訓(xùn)練和推理所用的AI加速器大都是3年更換一次，單從成本效益來看7nm芯片比5nm更劃算。

除此之外，還有著地緣政治影響，國(guó)內(nèi)的先進(jìn)制程研發(fā)屢屢受阻。芯片苦于先進(jìn)制程久矣，而提升芯片算力，絕非只是提升單芯片的性能，而是要考慮芯片的宏觀總算力。

宏觀總算力 = 性能*數(shù)量（規(guī)模）*利用率，而目前在CPU、GPU、AI等大算力芯片身上，我們能看到的是，很多方案不能兼顧這三大因素：

1、有的算力芯片，可以做到性能狂飆，但較少考慮芯片的通用性易用性，導(dǎo)致芯片銷量不高、落地規(guī)模校例如通過FPGA定制，便是規(guī)模太小，成本和功耗太高。

2、有的算力提升方案，重在規(guī)模投入，但解決不了未來算力需求數(shù)量級(jí)提升的根本。

3、有的解決方案，通過各種資源池化和跨不同的邊界算力共享，來提升算力利用率，但改變不了目前算力芯片性能瓶頸的本質(zhì)。

而想要達(dá)到大算力，需要兼顧性能、規(guī)模、利用率三大影響因子的、具備大局觀的方案。

算力解決方案，蓄勢(shì)待發(fā)

以AI云端推理卡為例，我們能看到的是，2018-2023年，算力由于工藝制程“卷不動(dòng)”等種種原因，成本、功耗、算力難以兼顧。

但國(guó)力之爭(zhēng)已然打響，ChatGPT已然到來，市場(chǎng)亟需兼顧成本、功耗、算力的方案。

目前國(guó)際大廠、國(guó)內(nèi)主流廠商、初創(chuàng)企業(yè)都在謀求計(jì)算架構(gòu)創(chuàng)新，試圖找出兼顧性能、規(guī)模、利用率的方案，突破算力天花板。

對(duì)于架構(gòu)創(chuàng)新，業(yè)內(nèi)給出不少技術(shù)及方案：量子計(jì)算（量子芯片）、光子芯片、存算一體、芯粒（Chiplet）、3D封裝、HBM

在這之中，現(xiàn)在能夠兼容CMOS工藝又能盡快量產(chǎn)的，有HBM、芯粒、3D封裝、存算一體。而存算一體、芯粒（Chiplet）是目前業(yè)內(nèi)普遍認(rèn)為，能夠突破 AI 算力困境，進(jìn)行架構(gòu)創(chuàng)新的兩條清晰路線。

用存算一體消除數(shù)據(jù)隔閡

從傳統(tǒng)馮諾依曼架構(gòu)到存算一體架構(gòu)，通俗來講，就是消除數(shù)據(jù)與數(shù)據(jù)的隔閡，讓其更高效地工作。

在傳統(tǒng)馮諾伊曼架構(gòu)之下，芯片的存儲(chǔ)、計(jì)算區(qū)域是分離的。計(jì)算時(shí)，數(shù)據(jù)需要在兩個(gè)區(qū)域之間來回搬運(yùn)，而隨著神經(jīng)網(wǎng)絡(luò)模型層數(shù)、規(guī)模以及數(shù)據(jù)處理量的不斷增長(zhǎng)，數(shù)據(jù)已經(jīng)面臨“跑不過來”的境況，成為高效能計(jì)算性能和功耗的瓶頸，也就是業(yè)內(nèi)俗稱的“存儲(chǔ)墻”。

（存儲(chǔ)墻限制具體表現(xiàn) 圖源：浙商證券）

存儲(chǔ)墻相應(yīng)地也帶來了能耗墻、編譯墻（生態(tài)墻）的問題。例如編譯墻問題，是由于大量的數(shù)據(jù)搬運(yùn)容易發(fā)生擁塞，編譯器無法在靜態(tài)可預(yù)測(cè)的情況下對(duì)算子、函數(shù)、程序或者網(wǎng)絡(luò)做整體的優(yōu)化，只能手動(dòng)、一個(gè)個(gè)或者一層層對(duì)程序進(jìn)行優(yōu)化，耗費(fèi)了大量時(shí)間。

這“三堵墻”會(huì)導(dǎo)致算力無謂浪費(fèi)：據(jù)統(tǒng)計(jì)，在大算力的AI應(yīng)用中，數(shù)據(jù)搬運(yùn)操作消耗90%的時(shí)間和功耗，數(shù)據(jù)搬運(yùn)的功耗是運(yùn)算的650倍。

而存算一體能夠?qū)⒋鎯?chǔ)和計(jì)算融合，徹底消除了訪存延遲，并極大降低了功耗�；诖�，浙商證券報(bào)告指出，存算一體的優(yōu)勢(shì)包括但不限于：具有更大算力（1000TOPS以上）、具有更高能效（超過10-100TOPS/W）、降本增效（可超過一個(gè)數(shù)量級(jí)）

如下圖所示，相較于GPGPU，存算一體芯片能夠?qū)崿F(xiàn)更低能耗、更高能效比，在應(yīng)用落地方面能夠助力數(shù)據(jù)中心降本增效，賦能綠色算力。

基于此，若是處理一天的咨詢量，存算一體芯片在初始投入上，是A100的13%-26%，在每日電費(fèi)上，是A100的12%。

2.3.2.2 用Chiplet賦予芯片更多能力

除了打破數(shù)據(jù)之間的墻，芯片設(shè)計(jì)廠商試圖賦予芯片更多的能力：把任務(wù)分發(fā)給不同架構(gòu)的硬件計(jì)算單元(比如CPU、GPU、FPGA)，讓他們各司其職，同步工作，提高效率。

回顧計(jì)算機(jī)發(fā)展史，AI芯片處理器從單核多核，計(jì)算從串行并行，從同構(gòu)并行到異構(gòu)并行。

當(dāng)摩爾定律還是行業(yè)的鐵律，也就是第一階段時(shí)，計(jì)算機(jī)編程幾乎一直都是串行的。絕大多數(shù)的程序只存在一個(gè)進(jìn)程或線程。

此時(shí)，性能依賴于硬件工藝。而2003年以后，因?yàn)楣に囘_(dá)到了瓶頸，光是靠硬件提升行不通了。隨后，即便迎來了同構(gòu)計(jì)算（疊加多個(gè)核，強(qiáng)行提升算力），但總體的天花板仍然存在。

異構(gòu)并行計(jì)算的到來，開辟了新的技術(shù)變革：把任務(wù)分發(fā)給不同架構(gòu)的硬件計(jì)算單元（比如說CPU、GPU、FPGA），讓他們各司其職，同步工作，提高效率。

異構(gòu)的好處，從軟件的角度來講，異構(gòu)并行計(jì)算框架能夠讓軟件開發(fā)者高效地開發(fā)異構(gòu)并行的程序，充分使用計(jì)算平臺(tái)資源。

從硬件角度來講，一方面，多種不同類型的計(jì)算單元通過更多時(shí)鐘頻率和內(nèi)核數(shù)量提高計(jì)算能力；另一方面，各種計(jì)算單元通過技術(shù)優(yōu)化提高執(zhí)行效率。

在這之中，Chiplet是關(guān)鍵技術(shù)。

在當(dāng)前技術(shù)進(jìn)展下，Chiplet方案能夠?qū)崿F(xiàn)芯片設(shè)計(jì)復(fù)雜度及設(shè)計(jì)成本降低。IC設(shè)計(jì)階段將SoC按照不同功能模塊分解為多個(gè)芯粒，部分芯粒實(shí)現(xiàn)模塊化設(shè)計(jì)并在不同芯片中重復(fù)使用，能夠?qū)崿F(xiàn)設(shè)計(jì)難度降低，且有利于后續(xù)產(chǎn)品迭代，加速產(chǎn)品上市周期。

用HBM技術(shù)拓寬“數(shù)據(jù)通道”

由于半導(dǎo)體產(chǎn)業(yè)的發(fā)展和需求的差異，處理器和存儲(chǔ)器二者之間走向了不同的工藝路線，這也就意味著，處理器與存儲(chǔ)器的工藝、封裝、需求大不相同。

這就導(dǎo)致，從1980年開始至今，二者之間的性能差距越來越大。數(shù)據(jù)顯示，從1980年到2000年，處理器和存儲(chǔ)器的速度失配以每年50%的速率增加。

（1980-2000年，處理器和存儲(chǔ)器兩者的速度失配以每年50%的速率增加圖源：電子工程專輯）

存儲(chǔ)器數(shù)據(jù)訪問速度跟不上處理器的數(shù)據(jù)處理速度，兩者之間數(shù)據(jù)交換通路狹窄以及由此引發(fā)的高能耗兩大難題，在存儲(chǔ)與運(yùn)算之間筑起了一道“內(nèi)存墻”。

為了減小內(nèi)存墻的影響，提升內(nèi)存帶寬一直是存儲(chǔ)芯片關(guān)注的技術(shù)問題。黃仁勛曾表示計(jì)算性能擴(kuò)展最大的弱點(diǎn)就是內(nèi)存帶寬。

HBM，便是該難題的解法。

高帶寬存儲(chǔ)器（High Bandwidth Memory），是一種硬件存儲(chǔ)介質(zhì)�；谄涓咄掏赂邘挼奶匦裕艿焦I(yè)界和學(xué)術(shù)界的關(guān)注。

HBM其中一個(gè)優(yōu)勢(shì)就是通過中介層縮短內(nèi)存與處理器之間的距離，通過先進(jìn)的3D封裝方式把內(nèi)存和計(jì)算單元封裝在一起，提高數(shù)據(jù)搬運(yùn)速度。

超異構(gòu)，兼顧性能、規(guī)模、利用率的新興方案

超異構(gòu)計(jì)算，是能夠把更多的異構(gòu)計(jì)算整合重構(gòu)，從而能讓各類型處理器間充分地、靈活地進(jìn)行數(shù)據(jù)交互而形成的計(jì)算。

簡(jiǎn)單來說，就是聚合DSA、GPU、CPU、CIM等多個(gè)類型引擎的優(yōu)勢(shì)，同時(shí)結(jié)合Chiplet、3D封裝等新興架構(gòu)，實(shí)現(xiàn)性能的飛躍：

√ DSA負(fù)責(zé)相對(duì)確定的大計(jì)算量的工作；

√GPU負(fù)責(zé)應(yīng)用層有一些性能敏感的并且有一定彈性的工作；

√CPU啥都能干，負(fù)責(zé)兜底；

√CIM就是存內(nèi)計(jì)算，超異構(gòu)和普通異構(gòu)的主要區(qū)別就是加入了CIM，由此可以實(shí)現(xiàn)同等算力，更低能耗；同等能耗，更高算力。另外，CIM由于器件的優(yōu)勢(shì)，能負(fù)擔(dān)比DSA更大的算力。

超異構(gòu)計(jì)算能夠很好解決性能、規(guī)模、利用率問題。

在性能層面，由于存算一體的加入，能夠?qū)崿F(xiàn)同等算力，更低能耗；同等能耗，更高算力；

在規(guī)模層面，由于超異構(gòu)基于一個(gè)計(jì)算平臺(tái)能夠聚合多個(gè)類型引擎，能夠兼顧靈活性與通用性，也就沒有因?yàn)椴粔蛲ㄓ脤?dǎo)致規(guī)模過��；又由于該方案較為全能，能夠應(yīng)付各類型的任務(wù)，利用率也能夠得到提升。

超異構(gòu)未來研究方向

而現(xiàn)實(shí)是，僅僅是異構(gòu)計(jì)算，便面臨著編程很難的困境，NVIDIA經(jīng)過數(shù)年的努力，才讓CUDA的編程對(duì)開發(fā)者足夠友好，形成主流生態(tài)。

超異構(gòu)就更是難上加難：超異構(gòu)的難，不僅僅體現(xiàn)在編程上，也體現(xiàn)在處理引擎的設(shè)計(jì)和實(shí)現(xiàn)上，還體現(xiàn)在整個(gè)系統(tǒng)的軟硬件能力整合上。

對(duì)于更好地駕馭超異構(gòu)，軟硬件融合給出了方向：

1、兼顧性能和靈活性。從系統(tǒng)的角度，系統(tǒng)的任務(wù)從CPU往硬件加速下沉，如何選擇合適的處理引擎，達(dá)到最優(yōu)性能的同時(shí)，有最優(yōu)的靈活性。并且不僅僅是平衡，更是兼顧。

2、編程及易用性。系統(tǒng)逐漸從硬件定義軟件，轉(zhuǎn)向了軟件定義硬件。如何利用這些特征，如何利用已有軟件資源，以及如何融入云服務(wù)。

3、產(chǎn)品。用戶的需求，除了需求本身之外，還需要考慮不同用戶需求的差異性，和單個(gè)用戶需求的長(zhǎng)期迭代。該如何提供給用戶更好的產(chǎn)品，滿足不同用戶短期和長(zhǎng)期的需求。授人以魚不如授人以漁，該如何提供用戶沒有特定的具體功能的、性能極致的、完全可編程的硬件平臺(tái)。

算力即國(guó)力，數(shù)據(jù)中心是各國(guó)開展國(guó)力之爭(zhēng)的“根據(jù)地”。數(shù)據(jù)中心亟需大算力芯片，滿足各大中心側(cè)、邊緣側(cè)應(yīng)用場(chǎng)景的需求。

然而在數(shù)據(jù)中心應(yīng)用場(chǎng)景下，國(guó)內(nèi)現(xiàn)有云端AI訓(xùn)練、推理芯片仍與尖子生英偉達(dá)A100芯片有較大差距。同時(shí)，現(xiàn)階段工藝制程已達(dá)到物理極限、成本極限，尋求更高效的計(jì)算架構(gòu)，才是上上之眩

現(xiàn)如今，存算一體，Chiplet，3D封裝等技術(shù)現(xiàn)已成熟，超異構(gòu)等解決方案可實(shí)施性較高。傳統(tǒng)架構(gòu)上，各國(guó)差距明顯，而在新型技術(shù)上，各國(guó)難分伯仲。

算力之爭(zhēng)的格局，正悄然發(fā)生變化。

國(guó)內(nèi)AI芯片，百舸爭(zhēng)流，勝局未定

傳統(tǒng)架構(gòu)下，英偉達(dá)一家獨(dú)大

按照市場(chǎng)格局來分，在AI芯片領(lǐng)域，目前有三類玩家。

一種是以 Nvidia、AMD 為代表的老牌芯片巨頭，這些企業(yè)積累了豐富的經(jīng)驗(yàn)，產(chǎn)品性能突出。根據(jù)上文可知，在云端場(chǎng)景下，無論是推理芯片還是訓(xùn)練芯片，國(guó)內(nèi)廠商皆與其有差距。

另一種是以 Google、百度、華為為代表的云計(jì)算巨頭，這些企業(yè)紛紛布局通用大模型，并自己開發(fā)了 AI 芯片、深度學(xué)習(xí)平臺(tái)等支持大模型發(fā)展。如 Google 的 TensorFlow 以及 TPU，華為的鯤鵬、騰，阿里平頭哥的含光800。

最后是AI 芯片獨(dú)角獸，如寒武紀(jì)、壁仞科技、地平線等，憑借雄厚的技術(shù)實(shí)力、資金基儲(chǔ)研發(fā)團(tuán)隊(duì)，闖進(jìn)AI芯片賽道。

目前，英偉達(dá)占據(jù)80%以上中國(guó)加速卡市場(chǎng)份額，國(guó)產(chǎn) AI 芯片亟待發(fā)展：根據(jù) IDC 的數(shù)據(jù)顯示，2021 年中國(guó)加速卡的出貨數(shù)量已經(jīng)超過 80 萬片，其中 Nvidia 占據(jù)了超過 80%的市場(chǎng)份額。剩下的份額被 AMD、百度、寒武紀(jì)、燧原科技、新華三、華為等品牌占據(jù)。

技術(shù)路徑背后，暗藏玄機(jī)

按照計(jì)算架構(gòu)分類，目前國(guó)內(nèi)大抵分為三大陣營(yíng)：ASIC、GPGPU、存算一體玩家。

通過梳理各廠商使用架構(gòu)、應(yīng)用場(chǎng)景、資源稟賦，可以發(fā)現(xiàn)以下幾條線索：

大廠與自動(dòng)駕駛專業(yè)芯片廠商們，偏愛ASIC。

國(guó)內(nèi)大廠華為海思、百度、平頭哥皆選擇ASIC作為自己的芯片架構(gòu)：

1、華為選擇部署端到端的完整生態(tài)，例如使用騰910必須搭配華為的大模型支持框架MindSpore、盤古大模型。

2、阿里在該方面的定位是系統(tǒng)集成商和服務(wù)商，運(yùn)用自身芯片產(chǎn)品搭建加速平臺(tái)中，對(duì)外輸出服務(wù)。

3、百度昆侖芯主要在自身智算集群和服務(wù)器上以及國(guó)內(nèi)企業(yè)、研究所、政府中使用。

ASIC盡管集成度非常高，性能可以充分發(fā)揮、功耗可以得到很好的控制，但缺點(diǎn)也很明顯：應(yīng)用場(chǎng)景局限、依賴自建生態(tài)、客戶遷移難度大、學(xué)習(xí)曲線較長(zhǎng)等問題。

而大廠皆擁有多個(gè)特定場(chǎng)景，ASIC“應(yīng)用場(chǎng)景局限、客戶遷移難度大”的弊端在大廠場(chǎng)景下便不復(fù)存在，同時(shí)選擇ASIC在量產(chǎn)制造供應(yīng)鏈上的難度顯著低于GPU。

專注于自動(dòng)駕駛場(chǎng)景的AI芯片廠商例如地平線、黑芝麻，由于手握多家訂單，同樣避免了ASIC的弊端：截止2023年4月23日，地平線征程芯片出貨量突破了300萬片，與超過20家車企，共計(jì)120多款車型達(dá)成量產(chǎn)定點(diǎn)合作。

2017年后，AI芯片獨(dú)角獸們，加入GPGPU陣營(yíng)。

由于ASIC只能在特定場(chǎng)景、固有算法之下發(fā)揮極致性能，廠商們要么需要自身有特定場(chǎng)景（例如華為等大廠），要么綁定大客戶（例如耐能科技）。而更為通用的GPGPU展現(xiàn)出該有的性能之后，成為國(guó)產(chǎn)AI芯片公司的首眩

可以看到，選擇GPGPU的登臨科技、天數(shù)智芯、燧原科技已經(jīng)把訓(xùn)練與推理都全面覆蓋，而ASIC大多芯片例如平頭哥，只能專注于推理或是訓(xùn)練場(chǎng)景。

2019年前后，新一批AI芯片獨(dú)角獸們，押注存算一體

AI算力芯片發(fā)展至2019年前后，國(guó)內(nèi)AI芯片廠商們發(fā)現(xiàn)，在傳統(tǒng)架構(gòu)下，CPU、GPU、FPGA已被國(guó)外壟斷，且高度依賴先進(jìn)工藝制程，缺乏一定先進(jìn)制程技術(shù)儲(chǔ)備的國(guó)內(nèi)AI廠商，紛紛尋找新的解法存算一體芯片。目前，存算一體格局未定，或?qū)⒊蔀閲?guó)內(nèi)廠商破局關(guān)鍵。存算一體主流的劃分方法是依照計(jì)算單元與存儲(chǔ)單元的距離，將其大致分為近存計(jì)算（PNM）、存內(nèi)處理（PIM）、存內(nèi)計(jì)算（CIM）。

特斯拉、阿里達(dá)摩院、三星等大廠所選擇的，是近存計(jì)算。

據(jù)Dojo項(xiàng)目負(fù)責(zé)人Ganesh Venkataramanan介紹，特斯拉Dojo（AI訓(xùn)練計(jì)算機(jī)）所用的D1芯片相比于業(yè)內(nèi)其他芯片，同成本下性能提升4倍，同能耗下性能提高1.3倍，占用空間節(jié)省5倍。具體來說，在D1訓(xùn)練模塊方面，每個(gè)D1訓(xùn)練模塊由5x5的D1芯片陣列排布而成，以二維Mesh結(jié)構(gòu)互連。片上跨內(nèi)核SRAM達(dá)到驚人的11GB，由于用上近存計(jì)算架構(gòu)，能效比為0.6TFLOPS/W@BF16/CFP8。業(yè)內(nèi)人士表示，對(duì)于CPU架構(gòu)來說，這一能效比非常不錯(cuò)。

阿里達(dá)摩院在2021年發(fā)布采用混合鍵合（Hybrid Bonding）的3D堆疊技術(shù)將計(jì)算芯片和存儲(chǔ)芯片face-to-face地用特定金屬材質(zhì)和工藝進(jìn)行互聯(lián)。據(jù)阿里達(dá)摩院測(cè)算，在實(shí)際推薦系統(tǒng)應(yīng)用中，相比傳統(tǒng)CPU計(jì)算系統(tǒng)，存算一體芯片的性能提升10倍以上，能效提升超過300倍。

三星基于存內(nèi)處理架構(gòu)，發(fā)布存儲(chǔ)器產(chǎn)品HBM-PIM（嚴(yán)格意義上是PNM）。三星表示該架構(gòu)實(shí)現(xiàn)了更高性能與更低能耗：與其他沒有HBM-PIM芯片的GPU加速器相比，HBM-PIM芯片將AMD GPU加速卡的性能提高了一倍，能耗平均降低了約50%。與僅配備HBM的GPU加速器相比，配備HBM-PIM的GPU加速器一年的能耗降低了約2100GWh。

國(guó)內(nèi)知存科技選擇的是，存內(nèi)處理：2022年3月，知存科技量產(chǎn)的基于PIM的SoC芯片WTM2101正式投入市常距今未滿1年，WTM2101已成功在端側(cè)實(shí)現(xiàn)商用，提供語音、視頻等AI處理方案并幫助產(chǎn)品實(shí)現(xiàn)10倍以上的能效提升。

而存內(nèi)計(jì)算，便是國(guó)內(nèi)大部分初創(chuàng)公司所說的存算一體：

億鑄科技，基于CIM框架、RRAM存儲(chǔ)介質(zhì)的研發(fā)“全數(shù)字存算一體”大算力芯片，通過減少數(shù)據(jù)搬運(yùn)提高運(yùn)算能效比，同時(shí)利用數(shù)字存算一體方法保證運(yùn)算精度，適用于云端AI推理和邊緣計(jì)算。

智芯科微，于2022年底推出業(yè)界首款基于SRAM CIM的邊緣側(cè)AI增強(qiáng)圖像處理器。

在存算一體陣營(yíng)之中，大廠與初創(chuàng)公司同樣因?yàn)榧夹g(shù)路徑，走了不同的路。

大公司與初創(chuàng)公司“自覺”分為兩個(gè)陣營(yíng)：特斯拉、三星、阿里巴巴等擁有豐富生態(tài)的大廠以及英特爾，IBM等傳統(tǒng)的芯片大廠，幾乎都在布局PNM；而知存科技、億鑄科技、智芯科等初創(chuàng)公司，在押注PIM、CIM等“存”與“算”更親密的存算一體技術(shù)路線。

綜合生態(tài)大廠思量的是，如何快速攻破算力和功耗的瓶頸，讓自己豐富的應(yīng)用場(chǎng)景快速落地；芯片大廠們針對(duì)客戶所提出的高效算力和低功耗需求，開發(fā)出符合客戶需求的技術(shù)。

也就是說，大廠對(duì)存算一體架構(gòu)提出的需求是“實(shí)用、落地快”，近存計(jì)算作為最接近工程落地的技術(shù)，成為大廠們的首眩

而中國(guó)初創(chuàng)公司們，由于成立時(shí)間較短、技術(shù)儲(chǔ)備薄弱：缺乏先進(jìn)2.5D和3D封裝產(chǎn)能和技術(shù)，為打破美國(guó)的科技?jí)艛�，中�?guó)初創(chuàng)企業(yè)聚焦的是無需考慮先進(jìn)制程技術(shù)的CIM。

云端場(chǎng)景下，玩家由淺入深

不同的業(yè)務(wù)場(chǎng)景均已呈現(xiàn)出各自的優(yōu)勢(shì)，在商業(yè)模式上國(guó)內(nèi)外都在探索階段。而不論是國(guó)內(nèi)外公司，先云端推理是大家一致的方向。

業(yè)界普遍認(rèn)為，訓(xùn)練芯片的研發(fā)難度和商業(yè)化落地更難，訓(xùn)練芯片可以做推理，但推理芯片不能做訓(xùn)練。

原因是，在AI訓(xùn)練的過程中，神經(jīng)網(wǎng)絡(luò)模型并沒有固定，所以對(duì)芯片的通用性有很高的需求。而推理則更簡(jiǎn)單，增速更快，故而訓(xùn)練芯片對(duì)于芯片公司的設(shè)計(jì)能力考驗(yàn)更高。

從全球AI芯片市場(chǎng)來看，先推理后訓(xùn)練是主流路徑，英特爾收購(gòu)的AI芯片公司Habana、國(guó)內(nèi)諸多AI初創(chuàng)公司皆是如此。

如此選擇，也是下游市場(chǎng)的催化作用：

隨著近年來 AI 模型訓(xùn)練逐漸成熟，AI 應(yīng)用逐漸落地，云端推理的市場(chǎng)已經(jīng)逐漸超過了訓(xùn)練的市場(chǎng)：

根據(jù)IDC與浪潮聯(lián)合發(fā)布的《2020-2021中國(guó)人工智能計(jì)算力發(fā)展評(píng)估報(bào)告》顯示，2021 年中國(guó)市場(chǎng) AI 服務(wù)器的推理負(fù)載超過訓(xùn)練負(fù)載，并且隨著 AI 進(jìn)入應(yīng)用期，數(shù)據(jù)中心推理算力需求的復(fù)合增長(zhǎng)率是訓(xùn)練側(cè)的2倍以上，預(yù)計(jì)到2026年用于推理的加速器占比將超過 60%。

AI芯片“新星”存算一體門檻奇高

2019年后，新增的AI芯片廠商，多數(shù)在布局存算一體：據(jù)睿洞察不完全統(tǒng)計(jì)，在2019-2021年新增的AI芯片廠商有20家，在這之中，有10家選擇存算一體路線。

這無一不說明著，存算一體將成為繼GPGPU、ASIC等架構(gòu)后的，一顆冉冉升起的新星。而這顆新星，并不是誰都可以摘。

在學(xué)界、產(chǎn)界、資本一致看好存算一體的境況下，強(qiáng)勁的技術(shù)實(shí)力、扎實(shí)的人才儲(chǔ)備以及對(duì)遷移成本接受度的精準(zhǔn)把控，是初創(chuàng)公司在業(yè)內(nèi)保持競(jìng)爭(zhēng)力的關(guān)鍵，也是擋在新玩家面前的三大門檻。

存算一體，打破了三堵墻，能夠?qū)崿F(xiàn)低功耗、高算力、高能效比，但想要實(shí)現(xiàn)如此性能，挑戰(zhàn)頗多：

首先是存算一體涉及到芯片制造的全環(huán)節(jié)：從最底層的器件，到電路設(shè)計(jì)，架構(gòu)設(shè)計(jì)，工具鏈，再到軟件層的研發(fā)；

其次是，在每一層做相應(yīng)改變的同時(shí)，還要考慮各層級(jí)之間的適配度。

我們一層一層來看，一顆存算一體芯片被造出來，有怎樣的技術(shù)難題。

首先，在器件選擇上，廠商就“如履薄冰”：存儲(chǔ)器設(shè)計(jì)決定芯片的良率，一旦方向錯(cuò)誤將可能導(dǎo)致芯片無法量產(chǎn)。

其次是電路設(shè)計(jì)層面。電路層面有了器件之后，需要用其做存儲(chǔ)陣列的電路設(shè)計(jì)。而目前在電路設(shè)計(jì)上，存內(nèi)計(jì)算沒有EDA工具指導(dǎo)，需要靠手動(dòng)完成，無疑又大大增加了操作難度。

緊接著，架構(gòu)層面有電路之后，需要做架構(gòu)層的設(shè)計(jì)。每一個(gè)電路是一個(gè)基本的計(jì)算模塊，整個(gè)架構(gòu)由不同模塊組成，存算一體模塊的設(shè)計(jì)決定了芯片的能效比。模擬電路會(huì)受到噪聲干擾，芯片受到噪聲影響后運(yùn)轉(zhuǎn)起來會(huì)遇到很多問題。

這種情況下，需要架構(gòu)師了解模擬存內(nèi)計(jì)算的工藝特點(diǎn)，針對(duì)這些特點(diǎn)去設(shè)計(jì)架構(gòu)，同時(shí)也要考慮到架構(gòu)與軟件開發(fā)的適配度。

軟件層面架構(gòu)設(shè)計(jì)完成后，需要開發(fā)相應(yīng)的工具鏈。

而由于存算一體的原始模型與傳統(tǒng)架構(gòu)下的模型不同，編譯器要適配完全不同的存算一體架構(gòu)，確保所有計(jì)算單元能夠映射到硬件上，并且順利運(yùn)行。

一條完整的技術(shù)鏈條下來，考驗(yàn)著器件、電路設(shè)計(jì)、架構(gòu)設(shè)計(jì)、工具鏈、軟件層開發(fā)各個(gè)環(huán)節(jié)的能力，與協(xié)調(diào)各個(gè)環(huán)節(jié)的適配能力，是耗時(shí)耗力耗錢的持久戰(zhàn)。

根據(jù)以上環(huán)節(jié)操作流程可以看到，存算一體芯片亟需經(jīng)驗(yàn)豐富的電路設(shè)計(jì)師、芯片架構(gòu)師。

除此之外，鑒于存算一體的特殊性，能夠做成存算一體的公司在人員儲(chǔ)備上需要有以下兩點(diǎn)特征：

1、帶頭人需有足夠魄力。在器件選擇（RRAM、SRAM等）、計(jì)算模式（傳統(tǒng)馮諾依曼、存算一體等）的選擇上要有清晰的思路。

這是因?yàn)�，存算一體作為一項(xiàng)顛覆、創(chuàng)新技術(shù)，無人引領(lǐng)，試錯(cuò)成本極高。能夠?qū)崿F(xiàn)商業(yè)化的企業(yè)，創(chuàng)始人往往具備豐富的產(chǎn)業(yè)界、大廠經(jīng)驗(yàn)和學(xué)術(shù)背景，能夠帶領(lǐng)團(tuán)隊(duì)快速完成產(chǎn)品迭代。

2、在核心團(tuán)隊(duì)中，需要在技術(shù)的各個(gè)層級(jí)中配備經(jīng)驗(yàn)豐富的人才。例如架構(gòu)師，其是團(tuán)隊(duì)的核心。架構(gòu)師需要對(duì)底層硬件，軟件工具有深厚的理解和認(rèn)知，能夠把構(gòu)想中的存算架構(gòu)通過技術(shù)實(shí)現(xiàn)出來，最終達(dá)成產(chǎn)品落地；

3、此外，據(jù)量子位報(bào)告顯示，國(guó)內(nèi)缺乏電路設(shè)計(jì)的高端人才，尤其在混合電路領(lǐng)域。存內(nèi)計(jì)算涉及大量的模擬電路設(shè)計(jì)，與強(qiáng)調(diào)團(tuán)隊(duì)協(xié)作的數(shù)字電路設(shè)計(jì)相比，模擬電路設(shè)計(jì)需要對(duì)于工藝、設(shè)計(jì)、版圖、模型pdk以及封裝都極度熟悉的個(gè)人設(shè)計(jì)師。

落地，是第一生產(chǎn)力。在交付時(shí)，客戶考量的并不僅僅是存算一體技術(shù)，而是相較于以往產(chǎn)品而言，存算一體整體SoC的能效比、面效比和易用性等性能指標(biāo)是否有足夠的提升，更重要的是，遷移成本是否在承受范圍內(nèi)。

如果選擇新的芯片提升算法表現(xiàn)力需要重新學(xué)習(xí)一套編程體系，在模型遷移上所花的人工成本高出購(gòu)買一個(gè)新GPU的成本，那么客戶大概率不會(huì)選擇使用新的芯片。

因此，存算一體在落地過程中是否能將遷移成本降到最低，是客戶在選擇產(chǎn)品時(shí)的關(guān)鍵因素。

目前來看，英偉達(dá)憑借著更為通用的GPGPU霸占了中國(guó)AI加速卡的市常

然而，存算一體芯片憑借著低功耗但高能效比的特性，正成為芯片賽道，冉冉升起的一顆新星。

而存算一體市場(chǎng)，風(fēng)云未定，仍處于“小荷才露尖尖角”階段。但我們不可否認(rèn)的是，存算一體玩家已然構(gòu)筑了三大高墻，非技術(shù)實(shí)力雄厚，人才儲(chǔ)備扎實(shí)者，勿進(jìn)。

行業(yè)發(fā)展趨勢(shì)

存算一體，算力的下一級(jí)

隨著人工智能等大數(shù)據(jù)應(yīng)用的興起，存算一體技術(shù)得到國(guó)內(nèi)外學(xué)界與產(chǎn)界的廣泛研究與應(yīng)用。在2017年微處理器頂級(jí)年會(huì)(Micro 2017)上，包括英偉達(dá)、英特爾、微軟、三星、加州大學(xué)圣塔芭芭拉分校等都推出他們的存算一體系統(tǒng)原型。

自此，ISSCC上存算/近存算相關(guān)的文章數(shù)量迅速增加：從20年的6篇上漲到23年的19篇；其中數(shù)字存內(nèi)計(jì)算，從21年被首次提出后，22年迅速增加到4篇，23年有6篇。

（ISSCC2023存算一體相關(guān)文章圖源：ISSCC2023）

系統(tǒng)級(jí)創(chuàng)新，嶄露頭角

系統(tǒng)級(jí)創(chuàng)新正頻頻現(xiàn)身半導(dǎo)體TOP級(jí)會(huì)議，展露著打破算力天花板的潛力。

在 AMD 的總裁兼CEO Lisa Su（蘇姿豐）帶來的主旨演講“Innovation for the next decade of compute efficiency“（下一個(gè)十年計(jì)算效率的創(chuàng)新）中，她提到了AI應(yīng)用的突飛猛進(jìn)，以及它給芯片帶來的需求。

Lisa Su表示，根據(jù)目前計(jì)算效率每?jī)赡晏嵘?.2倍的規(guī)律，預(yù)計(jì)到2035年，如果想要算力達(dá)到十萬億億級(jí)，則需要的功率可達(dá)500MW，相當(dāng)于半個(gè)核電站能產(chǎn)生的功率，“這是極為離譜、不切合實(shí)際的”。

而為了實(shí)現(xiàn)這樣的效率提升，系統(tǒng)級(jí)創(chuàng)新是最關(guān)鍵的思路之一。

（算力與功耗關(guān)系圖源：ISSCC2023大會(huì)）

在另一個(gè)由歐洲最著名三個(gè)的半導(dǎo)體研究機(jī)構(gòu)IMEC/CEA Leti/Fraunhofer帶來的主旨演講中，系統(tǒng)級(jí)創(chuàng)新也是其核心關(guān)鍵詞。

該演講中提到，隨著半導(dǎo)體工藝逐漸接近物理極限，新的應(yīng)用對(duì)于芯片的需求也必須要從系統(tǒng)級(jí)考慮才能滿足，并且提到了下一代智能汽車和AI作為兩個(gè)尤其需要芯片從系統(tǒng)級(jí)創(chuàng)新才能支持其新需求的核心應(yīng)用。

“從頭到腳”打破算力天花板

系統(tǒng)級(jí)創(chuàng)新，是協(xié)同設(shè)計(jì)上中下游多個(gè)環(huán)節(jié)，實(shí)現(xiàn)性能的提升。還有一種說法是，系統(tǒng)工藝協(xié)同優(yōu)化。

系統(tǒng)工藝協(xié)同優(yōu)化為一種“由外向內(nèi)”的發(fā)展模式，從產(chǎn)品需支持的工作負(fù)載及其軟件開始，到系統(tǒng)架構(gòu)，再到封裝中必須包括的芯片類型，最后是半導(dǎo)體制程工藝。

（系統(tǒng)工藝協(xié)同優(yōu)化圖源：ISSCC2023大會(huì)）

簡(jiǎn)單來說，就是把所有環(huán)節(jié)共同優(yōu)化，由此盡可能地改進(jìn)最終產(chǎn)品。

對(duì)此，Lisa Su給出了一個(gè)經(jīng)典案例：在對(duì)模型算法層面使用創(chuàng)新數(shù)制（例如8位浮點(diǎn)數(shù)FP8）的同時(shí)，在電路層對(duì)算法層面進(jìn)行優(yōu)化支持，最終實(shí)現(xiàn)計(jì)算層面數(shù)量級(jí)的效率提升：相比傳統(tǒng)的32位浮點(diǎn)數(shù)（FP32），進(jìn)行系統(tǒng)級(jí)創(chuàng)新的FP8則可以將計(jì)算效率提升30倍之多。而如果僅僅是優(yōu)化FP32計(jì)算單元的效率，無論如何也難以實(shí)現(xiàn)數(shù)量級(jí)的效率提升。

（特定域計(jì)算支持工作負(fù)載優(yōu)化，從而提高性能和效率圖源：ISSCC2023大會(huì)）

這便是系統(tǒng)級(jí)創(chuàng)新成為關(guān)鍵路徑的原因所在：如果電路設(shè)計(jì)僅僅停留在電路這一層只是考慮如何進(jìn)一步優(yōu)化FP32計(jì)算單元的效率，無論如何也難以實(shí)現(xiàn)數(shù)量級(jí)的效率提升。

對(duì)此，在未來發(fā)展機(jī)會(huì)模塊的演講中，Lisa Su給出了未來系統(tǒng)級(jí)封裝架構(gòu)的大致模樣：包含異構(gòu)計(jì)算叢集，特定加速單元，先進(jìn)封裝技術(shù)，高速片間UCIe互聯(lián)，存算一體等內(nèi)存技術(shù)。

（未來的系統(tǒng)級(jí)封裝架構(gòu) 圖源：ISSCC2023大會(huì)）

百舸爭(zhēng)流，創(chuàng)新者先

技術(shù)路徑、方案已然明確，接下來就是拼魄力的階段。

每一個(gè)新興技術(shù)的研發(fā)廠商，在前期無疑要面臨技術(shù)探索碰壁，下游廠商不認(rèn)同等各個(gè)層面的問題。而在早期，誰先預(yù)判到未來的發(fā)展趨勢(shì)，并用于邁出探索的腳步，鋪下合理的資源去嘗試，就會(huì)搶到先機(jī)。

芯片巨頭NVIDIA在這方面做出了很好的榜樣。

當(dāng)數(shù)據(jù)中心浪潮還未鋪天蓋地襲來、人工智能訓(xùn)練還是小眾領(lǐng)域之時(shí)，英偉達(dá)已經(jīng)投入重金，研發(fā)通用計(jì)算GPU和統(tǒng)一編程軟件CUDA，為英偉達(dá)謀一個(gè)好差事計(jì)算平臺(tái)。

而在當(dāng)時(shí)，讓GPU可編程，是“無用且虧本”的：不知道其性能是否能夠翻倍，但產(chǎn)品研發(fā)會(huì)翻倍。為此，沒有客戶愿意為此買單。但預(yù)判到單一功能圖形處理器不是長(zhǎng)遠(yuǎn)之計(jì)的英偉達(dá)毅然決定，在所有產(chǎn)品線上都應(yīng)用CUDA。

在芯東西與英偉達(dá)中國(guó)區(qū)工程和解決方案高級(jí)總監(jiān)賴俊杰博士的采訪中，賴俊杰表示：“為了計(jì)算平臺(tái)這一愿景，早期黃仁勛快速調(diào)動(dòng)了英偉達(dá)上上下下非常多的資源。”

遠(yuǎn)見+重金投入，在2012年，英偉達(dá)拿到了創(chuàng)新者的獎(jiǎng)勵(lì)：2012年，深度學(xué)習(xí)算法的計(jì)算表現(xiàn)轟動(dòng)學(xué)術(shù)圈，作為高算力且更為通用、易用的生產(chǎn)力工具，GPU+CUDA迅速風(fēng)靡計(jì)算機(jī)科學(xué)界，成為人工智能開發(fā)的“標(biāo)配”。

現(xiàn)如今，存算一體已顯現(xiàn)出強(qiáng)大的性能，在人工智能神經(jīng)網(wǎng)絡(luò)、多模態(tài)的人工智能計(jì)算、類腦計(jì)算等大算力場(chǎng)景，有著卓越的表現(xiàn)。

國(guó)內(nèi)廠商也在2019年前后紛紛布局存算一體，同時(shí)選擇3D封裝、chiplet等新興技術(shù)，RRAM、SRAM等新興存儲(chǔ)器，突破算力天花板。

AI大算力芯片的戰(zhàn)爭(zhēng)，創(chuàng)新者為先。

結(jié)語：

ChatGPT火爆來襲，引發(fā)AI產(chǎn)業(yè)巨浪，國(guó)產(chǎn)AI芯片正迎來3.0時(shí)代；在3.0時(shí)代，更適配大模型的芯片架構(gòu)存算一體將嶄露頭角，同時(shí)系統(tǒng)級(jí)創(chuàng)新將成為未來的發(fā)展趨勢(shì)，搶先下注的廠商將先吃到ChatGPT帶來的紅利。