劃重點(diǎn)
01北京大學(xué)孫仲研究員團(tuán)隊(duì)設(shè)計(jì)了一種全新技術(shù)路徑的存內(nèi)計(jì)算架構(gòu),稱為“雙存內(nèi)計(jì)算”(dual-IMC),以加速AI模型中的矩陣-向量乘法計(jì)算。
02雙存內(nèi)計(jì)算架構(gòu)基于非易失性存儲(chǔ)器陣列設(shè)計(jì),能最大程度地加速AI模型推理和訓(xùn)練,提高芯片算力與能效。
03與傳統(tǒng)的存內(nèi)計(jì)算架構(gòu)相比,dual-IMC架構(gòu)使MVM的能效提高了3到4個(gè)數(shù)量級(jí),有望應(yīng)用于邊緣計(jì)算系統(tǒng)和終端設(shè)備部署中。
04由于此創(chuàng)新技術(shù)路徑,雙存內(nèi)計(jì)算架構(gòu)簡(jiǎn)化了硬件結(jié)構(gòu),同時(shí)在性能上取得了顯著的提升。
以上內(nèi)容由騰訊混元大模型生成,僅供參考
隨著大數(shù)據(jù)時(shí)代 AI 模型參數(shù)量激增,AI 模型推理和訓(xùn)練的成本日益增高,使得 AI 模型難以有效地被布署到邊緣計(jì)算設(shè)備中。
存內(nèi)計(jì)算技術(shù)是加速 AI 模型的主流路徑,它通過在存儲(chǔ)器內(nèi)部原位計(jì)算減少數(shù)據(jù)的搬運(yùn),來提高芯片算力與能效。
但是,需要了解的是,傳統(tǒng)存內(nèi)計(jì)算(single-IMC,single-in-memory computing)架構(gòu)仍然需要在存儲(chǔ)器和處理器之間進(jìn)行數(shù)據(jù)傳輸,僅部分地解決了數(shù)據(jù)搬運(yùn)的問題,限制了 AI 模型加速器的進(jìn)一步發(fā)展。
為了解決上述問題,北京大學(xué)孫仲研究員團(tuán)隊(duì)設(shè)計(jì)了一種全新技術(shù)路徑的存內(nèi)計(jì)算架構(gòu),稱為“雙存內(nèi)計(jì)算”(dual-IMC,dual in-memory computing)。
該架構(gòu)能夠最大程度地加速 AI 模型中的矩陣-向量乘法(MVM,matrix-vector multiplication)計(jì)算,如卷積神經(jīng)網(wǎng)絡(luò)、二值神經(jīng)網(wǎng)絡(luò)、Transformer 模型等,從而實(shí)現(xiàn)高速、高能效的 AI 模型推理和訓(xùn)練。
該架構(gòu)基于非易失性存儲(chǔ)器陣列設(shè)計(jì),使 MVM 的矩陣、向量元素均存儲(chǔ)在內(nèi)存陣列中并參與原位 MVM 運(yùn)算。
“這種獨(dú)特的設(shè)計(jì)可完全消除數(shù)據(jù)的搬運(yùn),最大程度地發(fā)揮存內(nèi)計(jì)算的優(yōu)勢(shì),從而實(shí)現(xiàn)真正意義上的存儲(chǔ)器內(nèi)計(jì)算。”孫仲表示。
與傳統(tǒng)的存內(nèi)計(jì)算架構(gòu)相比,dual-IMC 架構(gòu)使 MVM 的能效提高了 3 到 4 個(gè)數(shù)量級(jí),有望應(yīng)用于邊緣計(jì)算系統(tǒng)和終端設(shè)備部署中,以構(gòu)建先進(jìn)的神經(jīng)網(wǎng)絡(luò)加速器。
圖丨孫仲課題組(來源:該團(tuán)隊(duì))
北京航空航天大學(xué)康旺教授對(duì)該研究評(píng)價(jià)稱,該團(tuán)隊(duì)提出并演示了一種用于矩陣向量乘法的全存內(nèi)計(jì)算新方法,使得參與運(yùn)算的權(quán)重矩陣和向量都可以存儲(chǔ)在陣列中并參與原位計(jì)算,從而有望完全消除數(shù)據(jù)移動(dòng),提高存內(nèi)計(jì)算的能效。
他指出,“該工作雖然目前僅展示了較小規(guī)模的演示,但理論上可以擴(kuò)展到更大規(guī)模陣列。這是一個(gè)很新穎的想法,相信未來它會(huì)對(duì)存內(nèi)計(jì)算領(lǐng)域(學(xué)術(shù)界和業(yè)界)產(chǎn)生實(shí)際的影響!
近日,相關(guān)論文以《用于加速神經(jīng)網(wǎng)絡(luò)的矩陣-向量乘法的雙存內(nèi)計(jì)算》(Dual in-memory computing of matrix-vector multiplication for accelerating neural networks)為題發(fā)表在 Cell 子刊 Device 上 [1]。
北京大學(xué)博士研究生王識(shí)清是論文第一作者,孫仲研究員擔(dān)任通訊作者。
圖丨相關(guān)論文(來源:Device)
目前,神經(jīng)網(wǎng)絡(luò)計(jì)算加速是發(fā)展計(jì)算范式和架構(gòu)的主要驅(qū)動(dòng)力。在神經(jīng)網(wǎng)絡(luò)的推理和訓(xùn)練過程中,計(jì)算量最大的操作為 MVM。因此,利用非易失性存儲(chǔ)器加速 MVM 成為當(dāng)下學(xué)術(shù)界和工業(yè)界關(guān)注的熱點(diǎn)方向。
圖丨存內(nèi)計(jì)算技術(shù)全譜(來源:Nature Electronics)
但是,在加速 MVM 的傳統(tǒng)存內(nèi)計(jì)算架構(gòu)中,只有一個(gè)輸入操作數(shù),即權(quán)重矩陣存儲(chǔ)在內(nèi)存陣列中,而另一個(gè)輸入操作數(shù),即輸入向量仍然要在傳統(tǒng)的馮諾依曼架構(gòu)中流動(dòng)。
這需要通過訪存片外主存和片上緩存,再經(jīng)過數(shù)模轉(zhuǎn)換之后作為模擬電壓向量輸入到陣列中進(jìn)行 MVM 計(jì)算。
也就是說,傳統(tǒng)的 single-IMC 僅部分地解決了馮諾伊曼瓶頸問題,其仍然會(huì)帶來數(shù)據(jù)搬運(yùn)和數(shù)模轉(zhuǎn)換的沉重負(fù)擔(dān),這從根本上限制了計(jì)算性能的提高。
此外,為了保證高計(jì)算并行度,計(jì)算時(shí)要同時(shí)開啟多行字線,這會(huì)導(dǎo)致陣列中產(chǎn)生較大的電流,這是 single-IMC 架構(gòu)的另一個(gè)缺點(diǎn)。
圖丨傳統(tǒng)的單存內(nèi)計(jì)算(single-IMC)架構(gòu)(來源:Device)
2023 年,孫仲課題組與合作者在 Nature Electronics 上發(fā)表論文,提出存內(nèi)計(jì)算技術(shù)全譜的概念,并對(duì)所有類型的存內(nèi)計(jì)算技術(shù)進(jìn)行了原理性的分類 [2]。
此外,該團(tuán)隊(duì)還在 Science Advances 報(bào)道了一種基于阻變存儲(chǔ)器陣列的新型模擬計(jì)算電路,使微秒級(jí)一步求解復(fù)雜的壓縮感知還原成為可能 [3]。
受存內(nèi)計(jì)算技術(shù)全譜概念的啟發(fā),研究人員設(shè)計(jì)了將兩個(gè)輸入操作數(shù)都存儲(chǔ)在內(nèi)存中的 dual-IMC 架構(gòu),其中矩陣(神經(jīng)網(wǎng)絡(luò)權(quán)重)和向量(神經(jīng)網(wǎng)絡(luò)輸入)都存儲(chǔ)在同一陣列中,以參與加速 MVM 的原位計(jì)算。
雙存內(nèi)計(jì)算架構(gòu)基于團(tuán)隊(duì)在壓縮感知還原電路設(shè)計(jì)中原創(chuàng)的電導(dǎo)補(bǔ)償原理設(shè)計(jì),僅需要施加極為簡(jiǎn)單的獨(dú)熱編碼的數(shù)字電壓,就可以完成 MVM 計(jì)算。
計(jì)算過程中無需數(shù)模轉(zhuǎn)換器,從而進(jìn)一步節(jié)省芯片面積,優(yōu)化了計(jì)算的延時(shí)和功耗。此外,每次 MVM 計(jì)算僅激活存儲(chǔ)器陣列的一行字線,這能夠減少陣列中累積的電流。
因此,dual-CIM 架構(gòu)完全消除了片外動(dòng)態(tài)隨機(jī)存取存儲(chǔ)器(DRAM,Dynamic Random Access Memory)和片上靜態(tài)隨機(jī)存取存儲(chǔ)器(SRAM,Static Random-Access Memory)訪存造成的額外延時(shí)和功耗,同時(shí)也避免了這些易失性存儲(chǔ)器的靜態(tài)功耗。
王識(shí)清表示:“這一創(chuàng)新的技術(shù)路徑不僅簡(jiǎn)化了硬件結(jié)構(gòu),而且在性能上也取得了顯著的提升。即便在最壞情況,在需要對(duì)特殊介質(zhì)進(jìn)行寫入時(shí),雙層存內(nèi)計(jì)算架構(gòu)仍能提供數(shù)倍的性能提升!
圖丨雙存內(nèi)計(jì)算(dual-IMC)架構(gòu)(來源:Device)
基于制備的阻變存儲(chǔ)器陣列,該團(tuán)隊(duì)對(duì) dual-IMC 架構(gòu)進(jìn)行了概念性的實(shí)驗(yàn)驗(yàn)證,并演示了該架構(gòu)在壓縮信號(hào)還原、卷積神經(jīng)網(wǎng)絡(luò)和二值神經(jīng)網(wǎng)絡(luò)中的應(yīng)用。
總的來說,該研究為后摩爾時(shí)代的計(jì)算性能提升提供了一種全新的技術(shù)方案,通過完全在存儲(chǔ)器內(nèi)部進(jìn)行的矩陣-向量乘法操作,實(shí)現(xiàn)了顯著的加速和能效優(yōu)化,為神經(jīng)網(wǎng)絡(luò)和其他重要算法的硬件實(shí)現(xiàn)提供了新的可能性。
參考資料:
1.Wang,S.,Sun,Z. Dual in-memory computing of matrix-vector multiplication for accelerating neural networks. Device(2024). https://doi.org/10.1016/j.device.2024.100546
2.Sun, Z., Kvatinsky, S., Si, X. et al. A full spectrum of computing-in-memory technologies. Nature Electronics 6, 823835 (2023). https://doi.org/10.1038/s41928-023-01053-4
3.Wang,S. et al. In-memory analog solution of compressed sensing recovery in one step. Science Advances 9,50(2023). https://www.science.org/doi/10.1126/sciadv.adj2908
排版:劉雅坤