當(dāng)前位置：人工智能實驗室> 人工智能動態(tài) > 誰說CPU跑不好AI，看阿里云和英特爾如何另辟蹊徑

誰說CPU跑不好AI，看阿里云和英特爾如何另辟蹊徑
來源：互聯(lián)網(wǎng) 發(fā)布日期：2024-01-16 09:20:40 瀏覽：6803次

導(dǎo)讀：火了一年的大模型，正在衍生出更多細(xì)分的技術(shù)與應(yīng)用，例如對大模型進(jìn)行行業(yè)定制，以及開發(fā)面向特定場景的小模型等需求，因此，大模型在 2024 年將繼續(xù)深刻滲透和重構(gòu)企業(yè)的各個業(yè)務(wù)環(huán)節(jié)，為企業(yè)智能化升級提供強勁動能。與此同時，承載訓(xùn)練及推理這些龐大模...

火了一年的大模型，正在衍生出更多細(xì)分的技術(shù)與應(yīng)用，例如對大模型進(jìn)行行業(yè)定制，以及開發(fā)面向特定場景的“小模型”等需求，因此，大模型在 2024 年將繼續(xù)深刻滲透和重構(gòu)企業(yè)的各個業(yè)務(wù)環(huán)節(jié)，為企業(yè)智能化升級提供強勁動能。

與此同時，承載訓(xùn)練及推理這些龐大模型的算力基礎(chǔ)設(shè)施，也將成為 2024 年企業(yè)必然需要面對的挑戰(zhàn)。大模型海量參數(shù)、復(fù)雜計算將對算力需求提出更高要求，算力成本也隨之水漲船高。在大模型帶來智能化紅利的同時，如何在GPU算力緊張的情況獲得充足AI算力，將是企業(yè)在新一年中的重中之重。

AI 算力需求再次爆發(fā)

阿里云 ECS g8i 以 CPU 算力 hold 住大模型

因 AI 受到追捧搶購、甚至需要囤貨的 GPU，一直是 AI 行業(yè)里解決算力問題的關(guān)鍵因素。不過芯片巨頭英特爾另辟蹊徑，創(chuàng)新性地在 CPU 平臺上應(yīng)用了用于矩陣運算的單元，滿足大數(shù)據(jù)、人工智能等數(shù)據(jù)密集型的業(yè)務(wù)算力要求。從去年英特爾高級矩陣擴(kuò)展（以下簡稱 AMX）就已經(jīng)運行在了阿里達(dá)摩院和阿里手機(jī)淘寶的 AI 應(yīng)用中。

近期，阿里云推出國內(nèi)首款搭載第五代英特爾至強可擴(kuò)展處理器（代號 EMR）的云計算產(chǎn)品第八代企業(yè)級通用計算實例 ECS g8i，其中的性能硬核實力包括有：產(chǎn)品的整機(jī)性能最高提升 85%，AI 推理性能最高提升 7 倍，可支撐高達(dá) 72B 參數(shù)的大語言模型。從阿里系內(nèi)部運行到阿里云正式推出云計算產(chǎn)品，讓業(yè)界進(jìn)一步看到，以 CPU 為中心的計算體系同樣具備加速 AI 推理的巨大潛力。

同時，本次發(fā)布的新實例產(chǎn)品還提供了端到端安全防護(hù)，為企業(yè)構(gòu)建可信 AI 應(yīng)用提供隱私增強算力支撐。該產(chǎn)品的發(fā)布證明了公共云不僅可勝任超大規(guī)模的 AI 模型，也為 AI 應(yīng)用加速落地開辟了新途徑。這對于人工智能的發(fā)展和應(yīng)用具有重要意義，更會推動 AI 技術(shù)的進(jìn)一步普及和應(yīng)用。

通用算力性能升級背后

芯片、虛擬機(jī)、操作系統(tǒng)全棧優(yōu)化

作為企業(yè)級通用計算實例，ECS g8i實例在計算、存儲、網(wǎng)絡(luò)和安全等能力得到了全方位提升。具體來說：

計算能力：ECS g8i 實例的 L3 緩存容量提升 3 倍，達(dá)到 320MB，內(nèi)存速率高達(dá) 5600MT/s。整機(jī)性能提升 85%，單核性能提升 25%。這些提升意味著更高的計算效率和速度，對于 AI 應(yīng)用尤其重要。

存儲能力：ESSD 云盤提供 100 萬 IOPS，全面搭載 NVMe，存儲延遲低至百微秒。這意味著數(shù)據(jù)讀寫速度非�？�，對于需要處理大量數(shù)據(jù)的應(yīng)用來說非常有利。

網(wǎng)絡(luò)能力：PPS 高達(dá) 3000 萬，標(biāo)配阿里云自研 eRDMA 大規(guī)模加速能力，時延低至 8 微秒。這意味著數(shù)據(jù)傳輸速度非�？�，這對于遠(yuǎn)程數(shù)據(jù)傳輸、云計算和分布式計算都非常重要。

安全能力：g8i 支持可信計算與加密計算等特性，全球首發(fā)支持虛擬機(jī)層的機(jī)密技術(shù)英特爾可信域拓展( TDX)，構(gòu)建了全面的安全防護(hù)。這表明 ECS g8i 不僅有強大的數(shù)據(jù)加密功能，還能保護(hù)云上數(shù)據(jù)的安全，這是現(xiàn)代數(shù)據(jù)中心和云計算的重要要求。

值得一提的是，阿里云還將第五代英特爾至強可擴(kuò)展處理器的各類加速器能力融入到自研的虛擬化技術(shù)并實現(xiàn)性能零損耗，用戶以最小規(guī)格2vCPU即可啟用加速器能力。同時，阿里云自研Alibaba Cloud Linux3操作系統(tǒng)是業(yè)界首家全量優(yōu)化適配英特爾加速器，真正實現(xiàn)從芯片、虛擬化再到操作系統(tǒng)的整體優(yōu)化，進(jìn)一步降低加速器技術(shù)門檻，讓用戶真正享受技術(shù)普惠。

CPU 為 AI 算力提速

ECS g8i滿足從小模型到超大規(guī)模各類需求

生成式 AI 掀起的技術(shù)革命，正在推動計算的范式發(fā)生根本性的變化。本次阿里云 ECS g8i 最硬核的技術(shù)實力，就是以 CPU 為核心的計算體系去滿足 AI 對算力的需求。當(dāng)前，AI大模型推理在算力上依然面臨諸多挑戰(zhàn)，例如首包延遲受限于并行處理能力與浮點運算能力，吞吐性能則受限于內(nèi)存帶寬和網(wǎng)絡(luò)延遲。

ECS g8i 通過優(yōu)化其內(nèi)置指令集，利用 Intel AMX 高級矩陣擴(kuò)展加速技術(shù)，提升了生成式 AI 的運算速度，從而減少了首包延遲。使用AMX加速，當(dāng)進(jìn)行 int 8 矩陣計算時，性能提升更是達(dá)到了 7 倍。這些優(yōu)化措施不僅提高了 AI 應(yīng)用的運行速度，還為生成式 AI 的廣泛應(yīng)用打下了堅實的基矗

ECS g8i 在響應(yīng)中小規(guī)模參數(shù)模型（如 6B、13B 數(shù)量級）方面具有更迅速的能力，在運行知識檢索、問答系統(tǒng)及摘要生成等 AI 工作負(fù)載時，起建成本相對傳統(tǒng)GPU方案大幅降低。同時，通過配合阿里云平臺的 Spot 搶占式實例，成本優(yōu)勢將進(jìn)一步凸顯，進(jìn)一步降低 AI 推理成本。這種成本優(yōu)勢和效率提升對于許多應(yīng)用場景來說都是非常重要的。

對于超大規(guī)模參數(shù)模型來講，ECS g8i 實例集群通過利用阿里云自研的 eRDMA 超低延時彈性網(wǎng)絡(luò)，能夠支撐 72B 參數(shù)級別的大語言模型分布式推理。這種低延遲和高彈性使得 ECS g8i 實例集群在處理大規(guī)模 AI 模型時，隨著集群規(guī)模的擴(kuò)大，AI推理性能相對VPC網(wǎng)絡(luò)接近線性提升。

據(jù)介紹，當(dāng)前 ECS g8i 實例集群可支持超過 32 batch size 的 AI 模型負(fù)載，運行各種 AI場景工作負(fù)載，如AI 生成代碼、虛擬助手以及創(chuàng)意輔助工具等。

以阿里云開源的 Qwen-72B 大模型為例，ECS g8i 實例 eRDMA 網(wǎng)絡(luò)構(gòu)建的集群能夠?qū)崿F(xiàn)高效運行。這種高效運行表現(xiàn)為在輸入在500字以內(nèi)，首包延時可以做到3秒以內(nèi)，每秒可生成 7 個 Token。這種性能表現(xiàn)證明了 ECS g8i 實例集群在處理超大規(guī)模 AI 模型的高潛力。

基于自研 CIPU 構(gòu)建端到端安全防護(hù)

確保模型云上安全

在大模型大規(guī)模應(yīng)用時，確保數(shù)據(jù)安全也是同等重要的工作之一。針對模型數(shù)據(jù)安全，阿里云基于自研的云基礎(chǔ)設(shè)施處理器 CIPU，全產(chǎn)品線構(gòu)建了端到端的安全防護(hù)，確保數(shù)據(jù)存儲、數(shù)據(jù)傳輸和數(shù)據(jù)計算使用的全流程安全。

可信啟動：在底層，CIPU 的安全架構(gòu)搭載了安全芯片 TPM 作為硬件可信根，實現(xiàn)了服務(wù)器的可信啟動，確保零篡改。這種可信啟動機(jī)制確保了服務(wù)器的安全啟動，避免了在啟動過程中可能出現(xiàn)的惡意篡改。

虛擬可信：在虛擬化層面，阿里云支持虛擬可信能力 vTPM，提供實例啟動過程核心組件的校驗?zāi)芰�。這種校驗機(jī)制可以驗證實例啟動過程中的核心組件是否被篡改或損壞，進(jìn)一步增強了實例的安全性。

機(jī)密計算：在實例可信的基礎(chǔ)上，阿里云還支持不同平臺的機(jī)密計算能力。這種機(jī)密計算能力可以在運行態(tài)時實現(xiàn)內(nèi)存數(shù)據(jù)的隔離和加密保護(hù)。通過內(nèi)存數(shù)據(jù)的隔離，可以防止不同實例之間的數(shù)據(jù)泄露；通過內(nèi)存數(shù)據(jù)的加密，可以確保即使在數(shù)據(jù)傳輸過程中被截獲，也無法被輕易解密。

通過以上技術(shù)我們能看到，阿里云 ECS g8i 基于飛天云操作系統(tǒng)+云基礎(chǔ)設(shè)施處理器 CIPU 全新計算架構(gòu)體系，證明了 CPU 為核心的算力，也可以運行AI工作負(fù)載，尤其是在 AI 推理領(lǐng)域?qū)崿F(xiàn)了顯著的技術(shù)突破，將助力 2024 年大模型與 AI 應(yīng)用的加速落地和創(chuàng)新，也必將推進(jìn) AI 算力發(fā)展，實現(xiàn) AI 普惠。