就在前天,國內最高規(guī)格的AI產業(yè)盛會第七屆世界人工智能大會(WAIC 2024)開幕,展區(qū)已成“大模型”主場,各路玩家隔空斗法。
既有聞名業(yè)界的通用大模型大秀生成、理解能力,在金融、醫(yī)療等諸多領域施展拳腳的行業(yè)大模型,還有能直接部署在PC、服務器等邊緣設備的端側大模型效果驚艷。
可以看到從去年至今,大模型產業(yè)的發(fā)展焦點正在從技術突破向落地應用外延。一方面,通用大模型表現驚艷,另一方面,距離用戶更近且性能已經足夠強大的端側大模型呈現出規(guī);瘧脻摿。
在這之中,隨著技術的成熟和應用場景的拓展,端側大模型市場已經成為AI領域的一個重要增長點,而端側大模型走向落地部署背后的一個關鍵角色就是底層芯片玩家。
WAIC上,一家清華系GPGPU創(chuàng)企的展臺上,我們看到其AI加速卡AzureBlade K340l已經可以支撐大模型跑在AI PC等設備上,并已經適配Llama 3-8B、Stable Diffusion、通義千問等開源模型。
這家創(chuàng)企的技術實力不容小覷。本月初,芯動力科技團隊聯手帝國理工、劍橋大學、清華大學、中山大學等頂尖學府的計算機架構團隊,共同撰寫的論文《Circular Reconfigurable Parallel Processor for Edge Computing》(RPP芯片架構)成功被第51屆計算機體系結構國際研討會(ISCA 2024)的Industry Track收錄。
據了解,Industry Track的錄取接收率僅為15.3%。同時,芯動力科技還受邀在ISCA 2024會議上發(fā)表演講,與Intel、AMD等國際知名企業(yè)同臺交流。
在WAIC上,我們可以看到以芯動力科技為代表的國內AI芯片玩家,已經亮出了諸多技術成果與案例演示,為端側大模型部署落地裝上了加速引擎。
一、“六邊形戰(zhàn)士”RPP架構,破局邊緣大模型落地
大模型加速落地應用現在已經成為共識,不過通用大模型很難理解企業(yè)的真實痛點,讓企業(yè)真正用上大模型實現降本增效是當前的重中之重。
但相比于面向消費者的AI工具,企業(yè)對于大模型能力的要求更高,除了大模型本身的性能表現需要足夠優(yōu)越外,還有更為重要的幾點就是數據安全、響應夠快,這也是跑在云上的大模型缺少的。
因此邊緣大模型脫穎而出,因為邊緣設備距離企業(yè)的業(yè)務或者用戶本身距離更近,且能夠支持本地私有化部署保證用戶的數據安全。與此同時,底層的AI芯片就稱為AI落地邊緣端的必要條件。
這也導致邊緣大模型部署對AI加速卡的特性提出了更高要求。因為邊緣端往往只有一個獨立設備,因此就需要芯片需要同時兼顧體積孝性能強、功耗低。當下Llama系列、通義千問等開源模型,已經在較小的參數規(guī)模下達到了較好的性能,能夠實現很好的文升文、文生圖效果。這也為大模型在端側落地提供了機會。
還有更為重要的一點是,大模型的技術突破仍在不斷革新。為了讓大模型在資源有限的設備上部署,大模型量化部署精度正在從8bit向4bit支持,大模型的快速演變對芯片研發(fā)的長周期,大投入提出了不小的挑戰(zhàn)。
這些難題在對芯片的性能及靈活性提出不小挑戰(zhàn)的同時,也是大模型落地的必要條件。對于眾多專用芯片來講,這意味著需要開展全新的芯片設計工作,而對芯動力科技可重構并行處理器架構(RPP)來講,則僅需進行一次軟件開發(fā)即可。在面對邊緣大模型落地所面臨的難題時,芯動力科技的RPP架構展現出其固有的天然優(yōu)勢。
在生成式AI日新月異的應用場景中,唯一不變的就是變化本身。芯動力構建的通用性生態(tài)決定了,未來若出現除transformer以外的新型算法基底,RPP架構將能夠迅速完成算法的兼容與優(yōu)化,而無需改變硬件架構。這使得RPP架構擁有更持久的生命力和更廣闊的市場前景。
RPP架構是針對并行計算設計的芯片架構,芯動力將其稱作“六邊形戰(zhàn)士”。這一架構既結合了NPU的高效率與GPU的高通用性優(yōu)勢,更具備DSP的低延時,可滿足高效并行計算及AI計算應用,如圖像計算、視覺計算、信號處理計算等,大大提高了系統(tǒng)的實時性和響應速度。
芯動力首款基于可重構架構的GPGPU芯片RPP-R8每顆芯片內含有1024個計算核,相比傳統(tǒng)GPU架構在同樣的算力占用更小的芯片面積,實現了低功耗和高能效的有效平衡。RPP-R8除了具備專用芯片所沒有的通用編程性,面積效率比可達到同類產品的7~10倍,能效比也超過3倍。
除了芯片本身外,芯動力科技還會為企業(yè)提供相應的軟件幫助其部署集成。
二、文圖生成+安防、工業(yè)、醫(yī)療,讓AI在邊緣端大展拳腳
相比于云端大模型,端側大模型能夠根據用戶的行為和偏好提供更加個性化的服務,極大提升用戶體驗。一方面端側大模型性能水平直追云端,另一方面參數規(guī)模小的端側大模型部署成本正不斷降低。
因此,WAIC展區(qū)內單純展現通用大模型本身性能表現的廠商少之又少,更多是豐富的行業(yè)應用、創(chuàng)新工具等。這也使得大模型落地應用的場景,以及有哪些驚艷的效果成為WAIC的重點。
單在芯動力科技一家的展區(qū)里,就可以看到邊緣大模型的文生文、文生圖、泛安防、機器視覺、醫(yī)療影像等諸多演示案例。
面向邊緣大模型市場潛力急速增長的背景,芯動力科技已經構建起了豐富的產品體系。其中,在RPP架構的加持下,芯動力科技AzureBlade K340l中集成的芯片AE7100,以17mmx17mm的面積大概半張名片的大小就實現了32 TOPs的算力與60GB/s的內存帶寬。
▲芯動力科技AzureBlade K340l
同時,這一加速卡采用完全可編程設計,兼容CUDA+ONNX,已經可以廣泛應用于AI PC、機器視覺、泛安防、醫(yī)療影像等諸多領域。
基于AzureBlade K340l,芯動力科技現場演示的AI PC適配了通義千問的7B模型,在文生文的演示中,文字對話的生成速度很快,能滿足基本的辦公、生活需求。
在文生圖演示中,現場基于加速卡適配的是Stable Diffusion模型,因此僅支持英文輸入,據現場工作人員介紹,目前文生圖的平均生成速度在12s左右。當輸入“生成一張含有帥氣男子的海報”,模型僅用了將近10s的時間就很好消化了提示詞中的元素。
除了這些邊緣大模型部署,芯動力科技在泛安防領域的實現了姿勢檢測,據工作人員介紹,芯動力科技的芯片可以應用于養(yǎng)老院場景中,老年人摔倒預防等,可以基于攝像頭的姿態(tài)識別能力快速檢測出是否有老人摔倒并聯動采取措施。
在機器視覺、信號處理、醫(yī)療影像領域,芯動力科技的芯片可以用于瑕疵判斷以及醫(yī)療圖像增強等。
此前,工業(yè)場景下的工業(yè)器件瑕疵檢測往往依靠大量人工通過肉眼識別,這不僅效率低下且消耗了大量的人力物力。基于AI機器視覺不僅可以加速這一流程,且識別結果能更加精準。
在醫(yī)療影像方面,基于機器視覺可以增強患者的影像圖片效果,幫助醫(yī)生快速進行判斷。
面向邊緣大模型部署以及邊緣設備的智能化升級,芯動力科技已經形成了芯片、AI加速卡、邊緣服務器等全套產品體系,為邊緣市場的爆發(fā)提供強勁的動力。
三、邊緣大模型戰(zhàn)事正酣,芯動力科技瞄準下一增長點
即便當下端側大模型的性能等已經呈現出實際應用的能力,但芯動力科技要做的事遠不止于此。
一定程度上,參數規(guī)模越大大模型所呈現出的效果更好。因此,在邊緣設備上部署的大模型參數規(guī)模未來也會有繼續(xù)增長的可能。
另一方面,如今圖片、音頻、視頻、3D等多模態(tài)大模型層出不窮,這些能力對于用戶而言也至關重要,因此邊緣大模型的部署不會滿足于簡單的文生文、文生文。
還有更多創(chuàng)新算法的出現,都會對芯片本身的靈活性、適配性提出更高的要求。
因此,始終堅持與邊緣端設備企業(yè)協(xié)同突破的芯動力科技率先看到了這些挑戰(zhàn),并正在以RPP架構這一“六邊形戰(zhàn)士”為核心持續(xù)突破技術瓶頸。
大模型、創(chuàng)新算法層出不窮,RPP架構天然擁有的通用性優(yōu)勢,能夠讓芯動力科技更快支持新算法。對于大模型在邊緣端落地,性價比高、功耗低、成本可控、靈活度高缺一不可,而恰好RPP架構都能滿足。
與此同時,芯動力科技還有一大差異化優(yōu)勢就是,能與邊緣端的設備玩家持續(xù)協(xié)同優(yōu)化芯片、軟件,以跟得上大模型產業(yè)的迭代速度。
這背后也會反推用戶進一步看到大模型的實際價值。隨著邊緣大模型在設備上的落地增多,真正落地的步伐加快,使得用戶的付費意愿增強,進一步有了商業(yè)化、規(guī);瘧玫臐摿Α
對于芯動力科技而言,他們看到了企業(yè)在邊緣大模型上加速推進產品的決心。邊緣企業(yè)對于大模型的看法已經發(fā)生變化,從讓大模型跑起來到如何真正實現商業(yè)化演進。
因此,一方面,芯動力科技專注于邊緣大模型的落地應用,另一方面也關注到了邊緣端設備的智能化升級演進,也就是既看到潛力絕大的市場,也關注需求旺盛但產業(yè)發(fā)展仍處于初期的玩家。
眼光以及目標都更加長遠的芯動力科技,站在大模型產業(yè)突飛猛進的當下,已經找到了自己的正確站位,以更高性價比的方式讓大模型在邊緣端的價值被釋放出來,同時也向后看到了下一個邊緣設備市場的爆發(fā)點。
結語:邊緣大模型崛起,芯動力科技已先行一步
國內AI大模型的研發(fā)雖然起步較晚,前沿技術相比國外有一定差距,但在應用落地端,國內進展已經風起云涌。物流、金融、醫(yī)療等行業(yè)都開始探索大模型的深度應用。
更靠近數據源、能實現更快響應和更低延遲的邊緣大模型出現了越來越多的技術演進和創(chuàng)新突破,其面臨的功耗、成本等諸多難題正在被以芯動力科技為代表的玩家逐一擊破。
目前,邊緣大模型規(guī);涞氐臐摿σ呀浲癸@,芯動力科技的產品布局已經初見成效。伴隨著這一領域的技術進步與行業(yè)需求增長,率先出手的芯動力科技能夠搶占先機,找到大模型深入行業(yè)的更大價值。