展會(huì)信息港展會(huì)大全

成本直降70%的秘密:這些企業(yè)找到了一種高性價(jià)比的AI打開方式
來源:互聯(lián)網(wǎng)   發(fā)布日期:2023-06-30 15:00:30   瀏覽:5575次  

導(dǎo)讀:機(jī)器之心原創(chuàng) 作者:吳昕 這些公司正在用CPU承載AI任務(wù)。 近半年來,ChatGPT 所帶來的 AI 熱度是大家能直觀感受到的。 其實(shí),在不那么直觀的地方,數(shù)據(jù)也在悄然發(fā)生變化:斯坦福大學(xué)發(fā)布的「2023 年 AI 指數(shù)報(bào)告」顯示,2022 年采用 AI 的公司比例自 2017 年...

機(jī)器之心原創(chuàng)

作者:吳昕

這些公司正在用CPU承載AI任務(wù)。

近半年來,ChatGPT 所帶來的 AI 熱度是大家能直觀感受到的。

其實(shí),在不那么直觀的地方,數(shù)據(jù)也在悄然發(fā)生變化:斯坦福大學(xué)發(fā)布的「2023 年 AI 指數(shù)報(bào)告」顯示,2022 年采用 AI 的公司比例自 2017 年以來翻了一番以上。這些公司報(bào)告稱,采用 AI 之后,它們實(shí)現(xiàn)了顯著的成本降低和收入增加。

雖然 2023 年的數(shù)據(jù)還沒出來,但僅憑被 ChatGPT 帶火的 AIGC 領(lǐng)域就不難推測,上述數(shù)字將在今年迎來新的拐點(diǎn)。AIGC 大有掀起第四次產(chǎn)業(yè)革命之勢。

但與此同時(shí),這些企業(yè)在構(gòu)建 AI 基礎(chǔ)設(shè)施方面也迎來了新的挑戰(zhàn)。

首先,就算力而言,AI 領(lǐng)域算力需求激增和供給不足形成的矛盾在今年變得尤其激烈,就連 OpenAI CEO Sam Altman 都坦言自家公司正被算力短缺問題困擾,其 API 的可靠性和速度問題屢遭投訴。此外,大批公司還面臨這波需求高漲帶來的算力成本上升問題。

其次,在模型的選擇上,不少企業(yè)發(fā)現(xiàn),當(dāng)前討論熱度最高的大模型其實(shí)還沒有一個(gè)成熟的商業(yè)模式,其安全性等方面還存在問題。以三星設(shè)備解決方案部門為例,他們?cè)趩⒂?ChatGPT 不到一個(gè)月的時(shí)間內(nèi),就發(fā)生了三起數(shù)據(jù)泄露事件,這讓原本打算直接調(diào)用 OpenAI API 的企業(yè)打了退堂鼓。此外,自己訓(xùn)練、部署超大模型同樣很勸退:想象一下,僅僅簡單地向一個(gè)大模型發(fā)送一次請(qǐng)求,可能就需要昂貴的 GPU 卡進(jìn)行獨(dú)占性的運(yùn)算,這是很多企業(yè)都難以承受的。

不過,話說回來,像 ChatGPT 那樣「無所不知」的超大模型真的是企業(yè)所必需的嗎?運(yùn)行 AI 模型輔助業(yè)務(wù)就意味要瘋狂擴(kuò)充 GPU 規(guī)模嗎?那些已經(jīng)利用 AI 提升效益的企業(yè)是怎么做的?在分析了一些企業(yè)的最佳實(shí)踐之后,我們找到了一些參考答案。

那些已經(jīng)用上 AI 的公司:性能與成本的艱難抉擇

如果要分析最早應(yīng)用人工智能提升效益的行業(yè),互聯(lián)網(wǎng)是繞不開的一個(gè),其典型工作負(fù)載 推薦系統(tǒng)、視覺處理、自然語言處理等 的優(yōu)化都離不開 AI。不過,隨著業(yè)務(wù)量的激增,他們也在性能和成本等層面面臨著不同的挑戰(zhàn)。

首先看推薦系統(tǒng)。推薦系統(tǒng)在電子商務(wù)、社交媒體、音視頻流媒體等許多領(lǐng)域都有廣泛的應(yīng)用。以電子商務(wù)為例,在每年的 618、雙十一等購物高峰,阿里巴巴等頭部電商企業(yè)都會(huì)面臨全球龐大客戶群發(fā)出的數(shù)億實(shí)時(shí)請(qǐng)求,因此他們希望滿足 AI 推理在吞吐量與時(shí)延方面的要求,同時(shí)又能確保 AI 推理精確性,保證推薦質(zhì)量。

接下來看視覺處理,僅美團(tuán)一家,我們就能找到智能圖片處理、商戶入駐證照識(shí)別、掃碼開單車、掃藥盒買藥等多個(gè)應(yīng)用場景。AI 已經(jīng)成為其業(yè)務(wù)版圖中很重要的一部分。不過,隨著美團(tuán)業(yè)務(wù)與用戶量的高速增長,越來越多的應(yīng)用需要通過視覺 AI 構(gòu)建智能化流程,美團(tuán)需要在保證視覺 AI 推理精度的同時(shí),提升視覺 AI 推理的吞吐率,以支撐更多的智能化業(yè)務(wù)。

最后看自然語言處理。得益于 ChatGPT 帶來的熱度,自然語言處理正獲得前所未有的市場關(guān)注與技術(shù)追蹤。作為國內(nèi) NLP 技術(shù)研究的先行者,百度已在該領(lǐng)域構(gòu)建起完整的產(chǎn)品體系與技術(shù)組合。ERNIE 3.0 作為其飛槳文心·NLP 大模型的重要組成部分,也在各種 NLP 應(yīng)用場景,尤其是中文自然語言理解和生成任務(wù)中展現(xiàn)出卓越的性能。不過,隨著 NLP 在更多行業(yè)中實(shí)現(xiàn)商業(yè)化落地,用戶對(duì) ERNIE 3.0 也提出了更多細(xì)分需求,例如更高的處理效率和更廣泛的部署場景等。

所有這些問題的解決都離不開大規(guī)模的基礎(chǔ)設(shè)施投入,但困擾這些企業(yè)的共同問題是:獨(dú)立 GPU 雖然可以滿足性能所需,但是成本壓力較大,因此一味擴(kuò)充 GPU 規(guī)模并不是一個(gè)最佳選項(xiàng)

高性價(jià)比的解決方案:英特爾第四代至強(qiáng)可擴(kuò)展處理器

AI 社區(qū)存在一個(gè)刻板印象:CPU 不適合承載 AI 任務(wù)。但 Hugging Face 首席傳播官 Julien Simon 的一項(xiàng)展示打破了這種刻板印象。他所在的公司和英特爾合作打造了一個(gè)名為 Q8-Chat 的生成式 AI 應(yīng)用,該應(yīng)用能夠提供類似 ChatGPT 的聊天體驗(yàn),但僅需一個(gè) 32 核英特爾 至強(qiáng) 處理器就能運(yùn)行。

就像這個(gè)例子所展示的,用 CPU 承載 AI 任務(wù)(尤其是推理任務(wù))其實(shí)在產(chǎn)業(yè)界非常普遍,阿里巴巴、美團(tuán)、百度都用相關(guān)方案緩解了算力問題。

阿里巴巴:用 CPU 助力下一代電商推薦系統(tǒng),成功應(yīng)對(duì)雙十一峰值負(fù)載壓力

前面提到,阿里巴巴在電商推薦系統(tǒng)業(yè)務(wù)中面臨 AI 吞吐量、時(shí)延、推理精確性等方面的多重考驗(yàn)。為了實(shí)現(xiàn)性能與成本的平衡,他們選擇用 CPU 來處理 AI 推理等工作負(fù)載。

那么,什么樣的 CPU 能同時(shí)頂住多重考驗(yàn)?答案自然是英特爾 第四代至強(qiáng) 可擴(kuò)展處理器。

這款處理器于今年年初正式發(fā)布,除了一系列微架構(gòu)的革新和技術(shù)規(guī)格的升級(jí)外,新 CPU 對(duì) AI 運(yùn)算「更上層樓」的支持也格外引人關(guān)注,尤其是英特爾在這代產(chǎn)品中增添的全新內(nèi)置 AI 加速器 英特爾高級(jí)矩陣擴(kuò)展(AMX)。

在實(shí)際的工作負(fù)載中,英特爾 AMX 能夠同時(shí)支持 BF16 和 INT8 數(shù)據(jù)類型,能夠確保該 CPU 像高端通用圖形處理器(GPGPU)一樣處理 DNN 工作負(fù)載。BF16 動(dòng)態(tài)范圍與標(biāo)準(zhǔn) IEEE-FP32 相同,但精度較 FP32 變低。在大多數(shù)情況下,BF16 與 FP32 格式的模型推理結(jié)果一樣準(zhǔn)確,但是由于 BF16 只需要處理 FP32 一半尺寸的數(shù)據(jù),因此 BF16 吞吐量遠(yuǎn)高于 FP32,內(nèi)存需求也大幅降低。

當(dāng)然,AMX 本身的架構(gòu)也是為加速 AI 計(jì)算所設(shè)計(jì)的。該架構(gòu)由兩部分組件構(gòu)成:2D 寄存器文件(TILE)和 TILE 矩陣乘法單元(TMUL),前者可存儲(chǔ)更大的數(shù)據(jù)塊,后者是對(duì) TILE 進(jìn)行處理的加速單元,可在單次運(yùn)算中計(jì)算更大矩陣的指令。

憑借這種新的架構(gòu),英特爾 AMX 實(shí)現(xiàn)了大幅代際性能提升。與運(yùn)行英特爾 高級(jí)矢量擴(kuò)展 512 神經(jīng)網(wǎng)絡(luò)指令(AVX-512 VNNI)的第三代英特爾 至強(qiáng) 可擴(kuò)展處理器相比,運(yùn)行英特爾 AMX 的第四代英特爾 至強(qiáng) 可擴(kuò)展處理器將單位計(jì)算周期內(nèi)執(zhí)行 INT8 運(yùn)算的次數(shù)從 256 次提高至 2048 次,執(zhí)行 BF16 運(yùn)算的次數(shù)為 1024 次 ,而第三代英特爾 至強(qiáng) 可擴(kuò)展處理器執(zhí)行 FP32 運(yùn)算的次數(shù)僅為 64 次。

英特爾 AMX 的高級(jí)硬件特性為阿里巴巴的核心推薦模型帶來了 AI 推理性能突破,并保證了足夠的精度。此外,阿里巴巴還使用英特爾 oneAPI 深度神經(jīng)網(wǎng)絡(luò)庫 (英特爾 oneDNN),將 CPU 微調(diào)到峰值效率。

下圖顯示,在 AMX、BF16 混合精度、8 通道 DDR5、更大高速緩存、更多內(nèi)核、高效的內(nèi)核到內(nèi)核通信和軟件優(yōu)化的配合下,主流的 48 核第四代英特爾 至強(qiáng) 可擴(kuò)展處理器可以將代理模型的吞吐量提升到 2.89 倍,超過主流的 32 核第三代英特爾 至強(qiáng) 可擴(kuò)展處理器,同時(shí)將時(shí)延嚴(yán)格保持在 15 毫秒以下,推理精度依然能夠滿足需求。

優(yōu)化后的軟件和硬件已經(jīng)部署在阿里巴巴的真實(shí)業(yè)務(wù)環(huán)境中, 它們成功通過了一系列驗(yàn)證,符合阿里巴巴的生產(chǎn)標(biāo)準(zhǔn),包括應(yīng)對(duì)阿里巴巴雙十一購物節(jié)期間的峰值負(fù)載壓力。

而且,阿里巴巴發(fā)現(xiàn),升級(jí)為第四代英特爾 至強(qiáng) 可擴(kuò)展處理器帶來的性能收益遠(yuǎn)高于硬件成本,投資收益非常明顯。

美團(tuán):用 CPU 承載低流量長尾視覺 AI 推理,服務(wù)成本直降 70%

前面提到,美團(tuán)在業(yè)務(wù)擴(kuò)展中面臨視覺 AI 推理服務(wù)成本較高的挑戰(zhàn)。其實(shí),這個(gè)問題并非鐵板一塊:部分低流量長尾模型推理服務(wù)的負(fù)載壓力與時(shí)延要求是相對(duì)較低的,完全可以用 CPU 來承載。

在多個(gè)視覺 AI 模型中,美團(tuán)通過采用英特爾 AMX 加速技術(shù),動(dòng)態(tài)將模型數(shù)據(jù)類型從 FP32 轉(zhuǎn)換為 BF16,從而在可接受的精度損失下,增加吞吐量并加速推理。

為了驗(yàn)證優(yōu)化后的性能提升,美團(tuán)將使用英特爾 AMX 加速技術(shù)轉(zhuǎn)換后的 BF16 模型,與基準(zhǔn) FP32 模型的推理性能進(jìn)行了比較。測試數(shù)據(jù)下圖所示,在將模型轉(zhuǎn)化為 BF16 之后,模型推理性能可實(shí)現(xiàn) 3.38-4.13 倍的提升,同時(shí) Top1 和 Top5 精度損失大部分可以控制在 0.01%-0.03%。

得益于性能的提升,美團(tuán)能夠更加充分地釋放現(xiàn)有基礎(chǔ)設(shè)施的潛能,降低在 GPU 部署與運(yùn)維方面的高昂成本,并節(jié)省 70% 的服務(wù)成本。

百度:將蒸餾后的模型跑在 CPU 上,解鎖更多行業(yè)、場景

眾所周知,模型中更多的層數(shù)、參數(shù)意味著更大的模型體積、更強(qiáng)的計(jì)算資源需求以及更長的推理耗時(shí),對(duì)于業(yè)務(wù)響應(yīng)速度和構(gòu)建成本敏感的用戶而言,無疑提高了引入和使用門檻。因此,在 NLP 領(lǐng)域,模型小型化是一個(gè)常見的優(yōu)化方向。

百度也采用了這一做法,借助模型輕量化技術(shù)對(duì) ERNIE 3.0 大模型進(jìn)行蒸餾壓縮,從而將其推廣到更多行業(yè)與場景 。這些輕量版的模型(ERNIE-Tiny)不僅響應(yīng)迅速,還有一個(gè)重要優(yōu)勢:無需昂貴的專用 AI 算力設(shè)備就能部署。因此,引入更強(qiáng)的通用計(jì)算平臺(tái)和優(yōu)化方案,就成了助力 ERNIE-Tiny 獲得更優(yōu)效率的另一項(xiàng)重要手段。

為此,百度與英特爾展開深度技術(shù)合作:一方面將第四代英特爾 至強(qiáng) 可擴(kuò)展處理器引入 ERNIE-Tiny 的推理計(jì)算過程;另一方面,也推進(jìn)了多項(xiàng)優(yōu)化措施,例如通過英特爾 oneAPI 深度神經(jīng)網(wǎng)絡(luò)庫來調(diào)用英特爾 AMX 指令等,以確保 ERNIE-Tiny 可以更為充分地利用 AMX 帶來的性能加速紅利。

來自對(duì)比測試的數(shù)據(jù)表明,相比通過英特爾 AVX-512_VNNI 技術(shù)來實(shí)現(xiàn) AI 加速的、面向單路和雙路的第三代英特爾 至強(qiáng) 可擴(kuò)展處理器,ERNIE-Tiny 在升級(jí)使用內(nèi)置英特爾 AMX 技術(shù)的第四代英特爾 至強(qiáng) 可擴(kuò)展處理器后,其整體性能提升高達(dá) 2.66 倍,取得了令人滿意的效果。

目前,各個(gè) ERNIE-Tiny 不僅已部署在零門檻 AI 開發(fā)平臺(tái) EasyDL、全功能 AI 開發(fā)平臺(tái) BML 和 ERNIEKit (旗艦版) 產(chǎn)品中,它們也將與平臺(tái)和產(chǎn)品的其它能力一起協(xié)同,在基于第四代英特爾 至強(qiáng) 可擴(kuò)展處理器的基礎(chǔ)設(shè)施上,為 使用者提供文本分類、關(guān)系抽娶文本生成以及問答等能力。

從阿里巴巴、美團(tuán)、百度的實(shí)踐經(jīng)驗(yàn)可以看到,在真實(shí)的生產(chǎn)環(huán)境中,真正發(fā)揮作用的依然是一些規(guī)模沒那么大的 AI 模型。這些模型的部署已經(jīng)有了可借鑒的成熟方案,可以借助英特爾 至強(qiáng) CPU 以及配套的軟硬件加速方案獲得顯著的成本效益。

當(dāng)然,隨著 AIGC 的強(qiáng)勢崛起,不少企業(yè)也將目光瞄準(zhǔn)了這類大一些的模型。但正如前面所討論過的,無論是調(diào)用超大模型 API 還是自己訓(xùn)練、部署都有各自的問題,如何選擇一種經(jīng)濟(jì)、高效又安全的解決方案是擺在企業(yè)面前的棘手難題。

AIGC 時(shí)代已來,企業(yè)如何應(yīng)對(duì)?

企業(yè)擁抱 AIGC 就意味著一定要有一個(gè)「無所不知」的超大模型嗎?對(duì)此,波士頓咨詢公司(BCG)給出的答案是否定的。

他們選擇的解決方案是利用自己的數(shù)據(jù)訓(xùn)練一個(gè)行業(yè)專用模型。這個(gè)模型可能沒有那么大,但可以洞察 BCG 過去 50 多年中高度保密的專有數(shù)據(jù)。同時(shí),所有的 AI 訓(xùn)練和推理都完全符合 BCG 的安全標(biāo)準(zhǔn)。

這套解決方案的背后是一臺(tái)英特爾 AI 超級(jí)計(jì)算機(jī),該計(jì)算機(jī)搭載英特爾第四代至強(qiáng) 可擴(kuò)展處理器和 Habana Gaudi2 AI 硬件加速器,前者在 PyTorch 上的 AI 訓(xùn)練性能最高能提升到上一代產(chǎn)品的 10 倍,后者在計(jì)算機(jī)視覺(ResNet-50)和自然語言處理(BERT 微調(diào))方面的表現(xiàn)優(yōu)于英偉達(dá) A100,在計(jì)算機(jī)視覺方面幾乎與 H100 不分伯仲。二者強(qiáng)強(qiáng)聯(lián)合,為 BCG 提供了一套經(jīng)濟(jì)高效的 AIGC 解決方案。

在一個(gè)聊天機(jī)器人界面上,BCG 員工能夠從冗長的多頁文檔列表中,通過語義搜索來檢索、提取并匯總有效信息。BCG 報(bào)告稱,這與現(xiàn)有的關(guān)鍵字搜索解決方案相比,其用戶滿意度提高了 41%,結(jié)果準(zhǔn)確性增長了 25%,工作完成率提高了 39%

由此可見,無論是傳統(tǒng)的中小規(guī)模 AI,還是當(dāng)前頗有前景的 AIGC 行業(yè)大模型,GPU 都不是 AI 加速的唯一選擇。但無論是何種規(guī)模的模型,英特爾都給出了頗具性價(jià)比的軟硬件組合解決方案。

對(duì)于想要應(yīng)用 AI 提升效益的企業(yè)來說,選擇何種規(guī)模的模型、搭建怎樣的軟硬件基礎(chǔ)設(shè)施都沒有標(biāo)準(zhǔn)答案,所謂的超大模型、超大 GPU 算力集群可能都非必需。根據(jù)業(yè)務(wù)特點(diǎn)和屬性選擇適合自己的技術(shù)方案才是實(shí)現(xiàn)最優(yōu)解的重要因素。

參考鏈接:

https://www.intel.cn/content/www/cn/zh/artificial-intelligence/amx-tencent-bert-model-search-applications.html

https://www.intel.cn/content/www/cn/zh/cloud-computing/alibaba-e-comm-recommendation-system-enhancement.html

贊助本站

人工智能實(shí)驗(yàn)室
相關(guān)內(nèi)容
AiLab云推薦
推薦內(nèi)容
展開

熱門欄目HotCates

Copyright © 2010-2024 AiLab Team. 人工智能實(shí)驗(yàn)室 版權(quán)所有    關(guān)于我們 | 聯(lián)系我們 | 廣告服務(wù) | 公司動(dòng)態(tài) | 免責(zé)聲明 | 隱私條款 | 工作機(jī)會(huì) | 展會(huì)港