展會信息港展會大全

誰說CPU跑不好AI,看阿里云和英特爾如何另辟蹊徑
來源:互聯(lián)網(wǎng)   發(fā)布日期:2024-01-16 09:20:40   瀏覽:6803次  

導(dǎo)讀:火了一年的大模型,正在衍生出更多細(xì)分的技術(shù)與應(yīng)用,例如對大模型進(jìn)行行業(yè)定制,以及開發(fā)面向特定場景的小模型等需求,因此,大模型在 2024 年將繼續(xù)深刻滲透和重構(gòu)企業(yè)的各個業(yè)務(wù)環(huán)節(jié),為企業(yè)智能化升級提供強勁動能。 與此同時,承載訓(xùn)練及推理這些龐大模...

火了一年的大模型,正在衍生出更多細(xì)分的技術(shù)與應(yīng)用,例如對大模型進(jìn)行行業(yè)定制,以及開發(fā)面向特定場景的“小模型”等需求,因此,大模型在 2024 年將繼續(xù)深刻滲透和重構(gòu)企業(yè)的各個業(yè)務(wù)環(huán)節(jié),為企業(yè)智能化升級提供強勁動能。

與此同時,承載訓(xùn)練及推理這些龐大模型的算力基礎(chǔ)設(shè)施,也將成為 2024 年企業(yè)必然需要面對的挑戰(zhàn)。大模型海量參數(shù)、復(fù)雜計算將對算力需求提出更高要求,算力成本也隨之水漲船高。在大模型帶來智能化紅利的同時,如何在GPU算力緊張的情況獲得充足AI算力,將是企業(yè)在新一年中的重中之重。

AI 算力需求再次爆發(fā)

阿里云 ECS g8i 以 CPU 算力 hold 住大模型

因 AI 受到追捧搶購、甚至需要囤貨的 GPU,一直是 AI 行業(yè)里解決算力問題的關(guān)鍵因素。不過芯片巨頭英特爾另辟蹊徑,創(chuàng)新性地在 CPU 平臺上應(yīng)用了用于矩陣運算的單元,滿足大數(shù)據(jù)、人工智能等數(shù)據(jù)密集型的業(yè)務(wù)算力要求。從去年英特爾 高級矩陣擴(kuò)展(以下簡稱 AMX)就已經(jīng)運行在了阿里達(dá)摩院和阿里手機(jī)淘寶的 AI 應(yīng)用中。

近期,阿里云推出國內(nèi)首款搭載第五代英特爾至強可擴(kuò)展處理器(代號 EMR)的云計算產(chǎn)品第八代企業(yè)級通用計算實例 ECS g8i,其中的性能硬核實力包括有:產(chǎn)品的整機(jī)性能最高提升 85%,AI 推理性能最高提升 7 倍,可支撐高達(dá) 72B 參數(shù)的大語言模型。從阿里系內(nèi)部運行到阿里云正式推出云計算產(chǎn)品,讓業(yè)界進(jìn)一步看到,以 CPU 為中心的計算體系同樣具備加速 AI 推理的巨大潛力。

同時,本次發(fā)布的新實例產(chǎn)品還提供了端到端安全防護(hù),為企業(yè)構(gòu)建可信 AI 應(yīng)用提供隱私增強算力支撐。該產(chǎn)品的發(fā)布證明了公共云不僅可勝任超大規(guī)模的 AI 模型,也為 AI 應(yīng)用加速落地開辟了新途徑。這對于人工智能的發(fā)展和應(yīng)用具有重要意義,更會推動 AI 技術(shù)的進(jìn)一步普及和應(yīng)用。

通用算力性能升級背后

芯片、虛擬機(jī)、操作系統(tǒng)全棧優(yōu)化

作為企業(yè)級通用計算實例,ECS g8i實例在計算、存儲、網(wǎng)絡(luò)和安全等能力得到了全方位提升。具體來說:

計算能力:ECS g8i 實例的 L3 緩存容量提升 3 倍,達(dá)到 320MB,內(nèi)存速率高達(dá) 5600MT/s。整機(jī)性能提升 85%,單核性能提升 25%。這些提升意味著更高的計算效率和速度,對于 AI 應(yīng)用尤其重要。

存儲能力:ESSD 云盤提供 100 萬 IOPS,全面搭載 NVMe,存儲延遲低至百微秒。這意味著數(shù)據(jù)讀寫速度非?,對于需要處理大量數(shù)據(jù)的應(yīng)用來說非常有利。

網(wǎng)絡(luò)能力:PPS 高達(dá) 3000 萬,標(biāo)配阿里云自研 eRDMA 大規(guī)模加速能力,時延低至 8 微秒。這意味著數(shù)據(jù)傳輸速度非?,這對于遠(yuǎn)程數(shù)據(jù)傳輸、云計算和分布式計算都非常重要。

安全能力:g8i 支持可信計算與加密計算等特性,全球首發(fā)支持虛擬機(jī)層的機(jī)密技術(shù)英特爾 可信域拓展( TDX),構(gòu)建了全面的安全防護(hù)。這表明 ECS g8i 不僅有強大的數(shù)據(jù)加密功能,還能保護(hù)云上數(shù)據(jù)的安全,這是現(xiàn)代數(shù)據(jù)中心和云計算的重要要求。

值得一提的是,阿里云還將第五代英特爾至強可擴(kuò)展處理器的各類加速器能力融入到自研的虛擬化技術(shù)并實現(xiàn)性能零損耗,用戶以最小規(guī)格2vCPU即可啟用加速器能力。同時,阿里云自研Alibaba Cloud Linux3操作系統(tǒng)是業(yè)界首家全量優(yōu)化適配英特爾加速器,真正實現(xiàn)從芯片、虛擬化再到操作系統(tǒng)的整體優(yōu)化,進(jìn)一步降低加速器技術(shù)門檻,讓用戶真正享受技術(shù)普惠。

CPU 為 AI 算力提速

ECS g8i滿足從小模型到超大規(guī)模各類需求

生成式 AI 掀起的技術(shù)革命,正在推動計算的范式發(fā)生根本性的變化。本次阿里云 ECS g8i 最硬核的技術(shù)實力,就是以 CPU 為核心的計算體系去滿足 AI 對算力的需求。當(dāng)前,AI大模型推理在算力上依然面臨諸多挑戰(zhàn),例如首包延遲受限于并行處理能力與浮點運算能力,吞吐性能則受限于內(nèi)存帶寬和網(wǎng)絡(luò)延遲。

ECS g8i 通過優(yōu)化其內(nèi)置指令集,利用 Intel AMX 高級矩陣擴(kuò)展加速技術(shù),提升了生成式 AI 的運算速度,從而減少了首包延遲。使用AMX加速,當(dāng)進(jìn)行 int 8 矩陣計算時,性能提升更是達(dá)到了 7 倍。這些優(yōu)化措施不僅提高了 AI 應(yīng)用的運行速度,還為生成式 AI 的廣泛應(yīng)用打下了堅實的基矗

ECS g8i 在響應(yīng)中小規(guī)模參數(shù)模型(如 6B、13B 數(shù)量級)方面具有更迅速的能力, 在運行知識檢索、問答系統(tǒng)及摘要生成等 AI 工作負(fù)載時,起建成本相對傳統(tǒng)GPU方案大幅降低。同時,通過配合阿里云平臺的 Spot 搶占式實例,成本優(yōu)勢將進(jìn)一步凸顯,進(jìn)一步降低 AI 推理成本。這種成本優(yōu)勢和效率提升對于許多應(yīng)用場景來說都是非常重要的。

對于超大規(guī)模參數(shù)模型來講,ECS g8i 實例集群通過利用阿里云自研的 eRDMA 超低延時彈性網(wǎng)絡(luò),能夠支撐 72B 參數(shù)級別的大語言模型分布式推理。這種低延遲和高彈性使得 ECS g8i 實例集群在處理大規(guī)模 AI 模型時,隨著集群規(guī)模的擴(kuò)大,AI推理性能相對VPC網(wǎng)絡(luò)接近線性提升。

據(jù)介紹,當(dāng)前 ECS g8i 實例集群可支持超過 32 batch size 的 AI 模型負(fù)載,運行各種 AI場景 工作負(fù)載,如AI 生成代碼、虛擬助手以及創(chuàng)意輔助工具等。

以阿里云開源的 Qwen-72B 大模型為例,ECS g8i 實例 eRDMA 網(wǎng)絡(luò)構(gòu)建的集群能夠?qū)崿F(xiàn)高效運行。這種高效運行表現(xiàn)為在輸入在500字以內(nèi),首包延時可以做到3秒以內(nèi),每秒可生成 7 個 Token。這種性能表現(xiàn)證明了 ECS g8i 實例集群在處理超大規(guī)模 AI 模型的高潛力。

基于自研 CIPU 構(gòu)建端到端安全防護(hù)

確保模型云上安全

在大模型大規(guī)模應(yīng)用時,確保數(shù)據(jù)安全也是同等重要的工作之一。針對模型數(shù)據(jù)安全,阿里云基于自研的云基礎(chǔ)設(shè)施處理器 CIPU,全產(chǎn)品線構(gòu)建了端到端的安全防護(hù),確保數(shù)據(jù)存儲、數(shù)據(jù)傳輸和數(shù)據(jù)計算使用的全流程安全。

可信啟動:在底層,CIPU 的安全架構(gòu)搭載了安全芯片 TPM 作為硬件可信根,實現(xiàn)了服務(wù)器的可信啟動,確保零篡改。這種可信啟動機(jī)制確保了服務(wù)器的安全啟動,避免了在啟動過程中可能出現(xiàn)的惡意篡改。

虛擬可信:在虛擬化層面,阿里云支持虛擬可信能力 vTPM,提供實例啟動過程核心組件的校驗?zāi)芰。這種校驗機(jī)制可以驗證實例啟動過程中的核心組件是否被篡改或損壞,進(jìn)一步增強了實例的安全性。

機(jī)密計算:在實例可信的基礎(chǔ)上,阿里云還支持不同平臺的機(jī)密計算能力。這種機(jī)密計算能力可以在運行態(tài)時實現(xiàn)內(nèi)存數(shù)據(jù)的隔離和加密保護(hù)。通過內(nèi)存數(shù)據(jù)的隔離,可以防止不同實例之間的數(shù)據(jù)泄露;通過內(nèi)存數(shù)據(jù)的加密,可以確保即使在數(shù)據(jù)傳輸過程中被截獲,也無法被輕易解密。

通過以上技術(shù)我們能看到,阿里云 ECS g8i 基于飛天云操作系統(tǒng)+云基礎(chǔ)設(shè)施處理器 CIPU 全新計算架構(gòu)體系,證明了 CPU 為核心的算力,也可以運行AI工作負(fù)載,尤其是在 AI 推理領(lǐng)域?qū)崿F(xiàn)了顯著的技術(shù)突破,將助力 2024 年大模型與 AI 應(yīng)用的加速落地和創(chuàng)新,也必將推進(jìn) AI 算力發(fā)展,實現(xiàn) AI 普惠。

贊助本站

人工智能實驗室
相關(guān)內(nèi)容
AiLab云推薦
推薦內(nèi)容
展開

熱門欄目HotCates

Copyright © 2010-2024 AiLab Team. 人工智能實驗室 版權(quán)所有    關(guān)于我們 | 聯(lián)系我們 | 廣告服務(wù) | 公司動態(tài) | 免責(zé)聲明 | 隱私條款 | 工作機(jī)會 | 展會港