展會(huì)信息港展會(huì)大全

高通發(fā)布解讀 AI 技術(shù)白皮書:異構(gòu)計(jì)算背后的技術(shù)奧秘
來源:互聯(lián)網(wǎng)   發(fā)布日期:2024-03-11 16:07:52   瀏覽:10536次  

導(dǎo)讀:過去一年,生成式 AI 賽道持續(xù)火熱,到今天,All in AI已經(jīng)成為幾乎所有科技企業(yè)的共識(shí),互聯(lián)網(wǎng)企業(yè)在用 AI 重新打造業(yè)務(wù)和軟件,終端廠商在用 AI 重塑產(chǎn)品,搶灘AI 手機(jī)、AI PC,上游的芯片和解決方案提供商,則也在用 AI 重新定義芯片。 在此背景下,作為...

過去一年,生成式 AI 賽道持續(xù)火熱,到今天,“All in AI”已經(jīng)成為幾乎所有科技企業(yè)的共識(shí),互聯(lián)網(wǎng)企業(yè)在用 AI 重新打造業(yè)務(wù)和軟件,終端廠商在用 AI 重塑產(chǎn)品,搶灘“AI 手機(jī)”、“AI PC”,上游的芯片和解決方案提供商,則也在用 AI 重新定義芯片。

在此背景下,作為很早就在底層芯片技術(shù)層面布局終端側(cè) AI 的高通,最近發(fā)布了《通過 NPU 和異構(gòu)計(jì)算開啟終端側(cè)生成式 AI》白皮書。在這份白皮書中,高通詳細(xì)解讀了在生成式 AI 需求愈發(fā)旺盛的趨勢(shì)下,他們是如何利用 NPU 和異構(gòu)計(jì)算,開啟終端側(cè)的豐富生成式 AI 用例的。

異構(gòu)計(jì)算滿足生成式 AI 的多樣化需求

具體來說,高通的異構(gòu)計(jì)算引擎也就是高通 AI 引擎,包含不同的處理器組件,分別是 CPU、GPU、NPU 以及高通傳感器中樞等,他們共同協(xié)作以打造出色的體驗(yàn),而在每一代產(chǎn)品上,高通都會(huì)不斷升級(jí)上述所有組件的能力。

這其中,不同的處理器組件扮演不同的角色,各有擅長(zhǎng)的處理任務(wù)。

CPU 擅長(zhǎng)順序控制,非常適用于需要低時(shí)延的應(yīng)用場(chǎng)景,因此高通會(huì)在對(duì)時(shí)延要求非常高的用例中使用 CPU。CPU 也適用于相對(duì)較小的傳統(tǒng)模型,如卷積神經(jīng)網(wǎng)絡(luò)模型(CNN),或一些特定的大語言模型(LLM)。

此外 CPU 能力還取決于特定的產(chǎn)品類型。如果是傳統(tǒng)的 PC 芯片,其 CPU 功能會(huì)十分強(qiáng)大;如果是車用芯片,則會(huì)更加注重 NPU 能力。

GPU 相信大家也比較清楚,主要擅長(zhǎng)面向高精度格式的并行處理,比如對(duì)畫質(zhì)要求非常高的圖像以及視頻處理。

而 NPU,則主要是在持續(xù)型用例中,需要以低功耗實(shí)現(xiàn)持續(xù)穩(wěn)定的高峰值性能,可以發(fā)揮其最大優(yōu)勢(shì)。

在基于 LLM 和大視覺模型(LVM)的不同用例,例如 Stable Diffusion 或其他擴(kuò)散模型中,NPU 的每瓦特性能表現(xiàn)會(huì)十分出色。

高通表示,選擇合適的處理器處理相關(guān)任務(wù)至關(guān)重要,但同時(shí)也要關(guān)注 SoC 整體的工作負(fù)載情況。例如你在玩一款重負(fù)載游戲,此時(shí) GPU 會(huì)被完全占用,而如果是在瀏覽多個(gè)網(wǎng)頁,CPU 可能會(huì)占用過高,此時(shí) NPU 作為真正的 AI 專用引擎就會(huì)體現(xiàn)出非常大的優(yōu)勢(shì),能夠確保我們?cè)?AI 用例中獲得出色體驗(yàn)。

Hexagon NPU 的過去,現(xiàn)在和未來

高通 AI 引擎中的 NPU,就是我們熟知的 Hexagon NPU,它擁有強(qiáng)大的差異化優(yōu)勢(shì)和業(yè)界領(lǐng)先的 AI 處理能力。

Hexagon NPU 的發(fā)展,也是一個(gè)長(zhǎng)期演進(jìn),循序漸進(jìn)的過程。

高通在 2015 年推出的第一代 AI 引擎時(shí),其 Hexagon NPU 主要集成了標(biāo)量和向量運(yùn)算擴(kuò)展,2016-2022 年之間,高通則將研究方向拓展至 AI 影像和視頻處理,以實(shí)現(xiàn)增強(qiáng)的影像能力,同時(shí)他們還在這一時(shí)期引入 Transforme 層處理,并且在 NPU 中增加了張量運(yùn)算核心(Tensor Core)。

從 2023 年開始,Hexagon NPU 實(shí)現(xiàn)了對(duì) LLM 和 LVM 的支持,高通在 NPU 中增加了 Transformer 支持,以更好地處理基于 Transformer 的模型,F(xiàn)在,Hexagon NPU 能夠在終端側(cè)運(yùn)行高達(dá) 100 億參數(shù)的模型,無論是首個(gè) token 的生成速度還是每秒生成 token 的速率,都處在業(yè)界領(lǐng)先水平。

此外,高通還引入了微切片推理技術(shù),增加了能夠支持所有引擎組件的大共享內(nèi)存,以實(shí)現(xiàn)領(lǐng)先的 LLM 處理能力。

而接下來,Hexagon NPU 則會(huì)朝著對(duì)模態(tài)生成式 AI 的方向努力,比如在最近的 MWC 2024 上,高通展示了在終端上運(yùn)行的多模態(tài)生成式 AI 模型,具體來說,是在第三代驍龍 8 上運(yùn)行的首個(gè)大語言和視覺助理大模型(LLaVA),其能夠基于圖像輸入解答用戶的相關(guān)問題。這將為終端產(chǎn)品帶來全新的能力,例如視障人士或?qū)⒛軌蚪柚@樣的功能在城市內(nèi)進(jìn)行導(dǎo)航,通過將圖像信息轉(zhuǎn)換成音頻或語音,使得他們能夠了解周圍的事物。

同時(shí),高通還在 MWC 上展示了基于驍龍 X Elite 計(jì)算平臺(tái)、全球首個(gè)在終端側(cè)運(yùn)行的超過 70 億參數(shù)的大型多模態(tài)語言模型(LMM),可接受文本和音頻輸入(如音樂、交通環(huán)境音頻等),并基于音頻內(nèi)容生成多輪對(duì)話。

這也正是高通所寄予希望的未來發(fā)展方向,終端側(cè)將能夠處理豐富的感官信息,為用戶帶來完整的體驗(yàn)。

NPU 加持的異構(gòu)計(jì)算,是這樣完成 AI 應(yīng)用需求的

接下來,高通更進(jìn)一步,解讀了驍龍 Hexagon NPU 以及 AI 引擎整體的異構(gòu)計(jì)算,是如何在具體的 AI 用例中工作、運(yùn)行的。

在解讀中,他們以第三代驍龍 8 移動(dòng)平臺(tái)為例,在該平臺(tái)中全新的 Hexagon NPU 擁有 98% 的張量運(yùn)算核心的峰值性能提升,同時(shí)標(biāo)量和向量運(yùn)算性能也得到了提升,并在 NPU 中集成了用于圖像處理的分割網(wǎng)絡(luò)(Segmentation Network)模塊。

同時(shí)高通還增加了面向 AI 處理中非線性功能的硬件加速能力。憑借微切片推理技術(shù),可以把一個(gè)神經(jīng)網(wǎng)絡(luò)層分割成多個(gè)小切片,可以在最多十層的深度上做融合,而市面上的其他 AI 引擎則必須要逐層進(jìn)行推理。

此外,第三代驍龍 8 的 Hexagon NPU 還擁有大共享內(nèi)存,提供加速器專用電源傳輸軌道,也為大共享內(nèi)存帶來更大的帶寬。

基于上述性能提升,高通打造了面向生成式 AI 處理的行業(yè)領(lǐng)先 NPU。

在具體用例中,高通以 AI 旅行助手為例,用戶可以直接對(duì)模型提出規(guī)劃旅游行程的需求。AI 助手能夠立刻給到航班行程建議,并與用戶進(jìn)行語音對(duì)話調(diào)整行程,最后通過 Skyscanner 插件創(chuàng)建完整航班日程,給用戶帶來一步到位的使用體驗(yàn)。

在這個(gè)過程中,首先,用戶的語音輸入需要通過自動(dòng)語音識(shí)別(ASR)模型 Whisper 轉(zhuǎn)化為文本,Whisper 是 OpenAI 發(fā)布的一個(gè)約 2.4 億參數(shù)的模型,它主要在高通傳感器中樞上運(yùn)行。

接下來利用 Llama 2 或百川大語言模型基于文本內(nèi)容生成文本回復(fù),這一模型在 Hexagon NPU 上運(yùn)行。之后需要通過在 CPU 上運(yùn)行的開源 TTS(Text to Speech)模型將文本轉(zhuǎn)化為語音。

最后,通過高通的調(diào)制解調(diào)器技術(shù)進(jìn)行網(wǎng)絡(luò)連接,使用 Skyscanner 插件完成訂票操作。這一流程展示了如何通過選擇合適的處理器進(jìn)行異構(gòu)計(jì)算,并最終形成完整的使用體驗(yàn)。

在上述所有的硬件 AI 能力之上,高通還打造了高通 AI 軟件棧(Qualcomm AI Stack)。它能夠支持目前所有的主流 AI 框架,包括 TensorFlow、PyTorch、ONNX、Keras;它還支持所有主流的 AI runtime,包括 DirectML、TFLite、ONNX Runtime、ExecuTorch,以及支持不同的編譯器、數(shù)學(xué)庫等 AI 工具。

此外他們還推出了 Qualcomm AI studio,為開發(fā)者提供開發(fā)過程中需要用到的相關(guān)工具,其中包括支持模型量化和壓縮的高通 AI 模型增效工具包(AIMET),能夠讓模型運(yùn)行更加高效。高通 AI 軟件棧是當(dāng)前邊緣側(cè)的業(yè)界領(lǐng)先解決方案。

正是基于高通 AI 軟件棧和核心硬件 IP,高通才能跨過所有不同產(chǎn)品線,將應(yīng)用規(guī)模化擴(kuò)展到不同類型的終端,從智能手機(jī)到 PC、物聯(lián)網(wǎng)終端、汽車等等。這無疑為其合作伙伴以及用戶帶來顯著優(yōu)勢(shì),開發(fā)一次就能覆蓋高通不同芯片組解決方案的不同產(chǎn)品和細(xì)分領(lǐng)域進(jìn)行部署。

總體來說,通過這份生成式 AI 的白皮書,我們能夠看到高通在終端側(cè)生成式 AI 的全鏈路部署、Hexagon NPU 在終端側(cè)生成式 AI 方面展現(xiàn)出的領(lǐng)先實(shí)力及其背后豐富的技術(shù)細(xì)節(jié)?梢哉f,利用多種處理器進(jìn)行異構(gòu)計(jì)算,特別是 NPU 的表現(xiàn),對(duì)于實(shí)現(xiàn)生成式 AI 應(yīng)用最佳性能和能效至關(guān)重要,同時(shí),終端側(cè) AI 正成為全行業(yè)關(guān)注的焦點(diǎn),其在成本、能效、可靠性、安全性等方面的優(yōu)勢(shì)都可以成為云端 AI 的絕佳拍檔,而高通在終端側(cè)生成式 AI 方面已經(jīng)有著多年的積累,并展現(xiàn)出領(lǐng)先的技術(shù)領(lǐng)導(dǎo)力和出色的生態(tài)系統(tǒng)建設(shè)成果,相信他們能夠在未來持續(xù)通過產(chǎn)品技術(shù)和生態(tài)合作,真正賦能終端側(cè)生成式 AI 的規(guī)模化擴(kuò)展。

贊助本站

人工智能實(shí)驗(yàn)室
相關(guān)內(nèi)容
AiLab云推薦
推薦內(nèi)容
展開

熱門欄目HotCates

Copyright © 2010-2024 AiLab Team. 人工智能實(shí)驗(yàn)室 版權(quán)所有    關(guān)于我們 | 聯(lián)系我們 | 廣告服務(wù) | 公司動(dòng)態(tài) | 免責(zé)聲明 | 隱私條款 | 工作機(jī)會(huì) | 展會(huì)港