當(dāng)前位置：人工智能實(shí)驗(yàn)室> 人工智能應(yīng)用 > 成本直降70％的秘密：這些企業(yè)找到了一種高性價(jià)比的AI打開方式

成本直降70％的秘密：這些企業(yè)找到了一種高性價(jià)比的AI打開方式
來源：互聯(lián)網(wǎng) 發(fā)布日期：2023-06-30 15:00:30 瀏覽：5575次

導(dǎo)讀：機(jī)器之心原創(chuàng) 作者：吳昕這些公司正在用CPU承載AI任務(wù)。近半年來，ChatGPT 所帶來的 AI 熱度是大家能直觀感受到的。其實(shí)，在不那么直觀的地方，數(shù)據(jù)也在悄然發(fā)生變化：斯坦福大學(xué)發(fā)布的「2023 年 AI 指數(shù)報(bào)告」顯示，2022 年采用 AI 的公司比例自 2017 年...

機(jī)器之心原創(chuàng)

作者：吳昕

這些公司正在用CPU承載AI任務(wù)。

近半年來，ChatGPT 所帶來的 AI 熱度是大家能直觀感受到的。

其實(shí)，在不那么直觀的地方，數(shù)據(jù)也在悄然發(fā)生變化：斯坦福大學(xué)發(fā)布的「2023 年 AI 指數(shù)報(bào)告」顯示，2022 年采用 AI 的公司比例自 2017 年以來翻了一番以上。這些公司報(bào)告稱，采用 AI 之后，它們實(shí)現(xiàn)了顯著的成本降低和收入增加。

雖然 2023 年的數(shù)據(jù)還沒出來，但僅憑被 ChatGPT 帶火的 AIGC 領(lǐng)域就不難推測，上述數(shù)字將在今年迎來新的拐點(diǎn)。AIGC 大有掀起第四次產(chǎn)業(yè)革命之勢。

但與此同時(shí)，這些企業(yè)在構(gòu)建 AI 基礎(chǔ)設(shè)施方面也迎來了新的挑戰(zhàn)。

首先，就算力而言，AI 領(lǐng)域算力需求激增和供給不足形成的矛盾在今年變得尤其激烈，就連 OpenAI CEO Sam Altman 都坦言自家公司正被算力短缺問題困擾，其 API 的可靠性和速度問題屢遭投訴。此外，大批公司還面臨這波需求高漲帶來的算力成本上升問題。

其次，在模型的選擇上，不少企業(yè)發(fā)現(xiàn)，當(dāng)前討論熱度最高的大模型其實(shí)還沒有一個(gè)成熟的商業(yè)模式，其安全性等方面還存在問題。以三星設(shè)備解決方案部門為例，他們?cè)趩⒂?ChatGPT 不到一個(gè)月的時(shí)間內(nèi)，就發(fā)生了三起數(shù)據(jù)泄露事件，這讓原本打算直接調(diào)用 OpenAI API 的企業(yè)打了退堂鼓。此外，自己訓(xùn)練、部署超大模型同樣很勸退：想象一下，僅僅簡單地向一個(gè)大模型發(fā)送一次請(qǐng)求，可能就需要昂貴的 GPU 卡進(jìn)行獨(dú)占性的運(yùn)算，這是很多企業(yè)都難以承受的。

不過，話說回來，像 ChatGPT 那樣「無所不知」的超大模型真的是企業(yè)所必需的嗎？運(yùn)行 AI 模型輔助業(yè)務(wù)就意味要瘋狂擴(kuò)充 GPU 規(guī)模嗎？那些已經(jīng)利用 AI 提升效益的企業(yè)是怎么做的？在分析了一些企業(yè)的最佳實(shí)踐之后，我們找到了一些參考答案。

那些已經(jīng)用上 AI 的公司：性能與成本的艱難抉擇

如果要分析最早應(yīng)用人工智能提升效益的行業(yè)，互聯(lián)網(wǎng)是繞不開的一個(gè)，其典型工作負(fù)載推薦系統(tǒng)、視覺處理、自然語言處理等的優(yōu)化都離不開 AI。不過，隨著業(yè)務(wù)量的激增，他們也在性能和成本等層面面臨著不同的挑戰(zhàn)。

首先看推薦系統(tǒng)。推薦系統(tǒng)在電子商務(wù)、社交媒體、音視頻流媒體等許多領(lǐng)域都有廣泛的應(yīng)用。以電子商務(wù)為例，在每年的 618、雙十一等購物高峰，阿里巴巴等頭部電商企業(yè)都會(huì)面臨全球龐大客戶群發(fā)出的數(shù)億實(shí)時(shí)請(qǐng)求，因此他們希望滿足 AI 推理在吞吐量與時(shí)延方面的要求，同時(shí)又能確保 AI 推理精確性，保證推薦質(zhì)量。

接下來看視覺處理，僅美團(tuán)一家，我們就能找到智能圖片處理、商戶入駐證照識(shí)別、掃碼開單車、掃藥盒買藥等多個(gè)應(yīng)用場景。AI 已經(jīng)成為其業(yè)務(wù)版圖中很重要的一部分。不過，隨著美團(tuán)業(yè)務(wù)與用戶量的高速增長，越來越多的應(yīng)用需要通過視覺 AI 構(gòu)建智能化流程，美團(tuán)需要在保證視覺 AI 推理精度的同時(shí)，提升視覺 AI 推理的吞吐率，以支撐更多的智能化業(yè)務(wù)。

最后看自然語言處理。得益于 ChatGPT 帶來的熱度，自然語言處理正獲得前所未有的市場關(guān)注與技術(shù)追蹤。作為國內(nèi) NLP 技術(shù)研究的先行者，百度已在該領(lǐng)域構(gòu)建起完整的產(chǎn)品體系與技術(shù)組合。ERNIE 3.0 作為其飛槳文心·NLP 大模型的重要組成部分，也在各種 NLP 應(yīng)用場景，尤其是中文自然語言理解和生成任務(wù)中展現(xiàn)出卓越的性能。不過，隨著 NLP 在更多行業(yè)中實(shí)現(xiàn)商業(yè)化落地，用戶對(duì) ERNIE 3.0 也提出了更多細(xì)分需求，例如更高的處理效率和更廣泛的部署場景等。

所有這些問題的解決都離不開大規(guī)模的基礎(chǔ)設(shè)施投入，但困擾這些企業(yè)的共同問題是：獨(dú)立 GPU 雖然可以滿足性能所需，但是成本壓力較大，因此一味擴(kuò)充 GPU 規(guī)模并不是一個(gè)最佳選項(xiàng)。

高性價(jià)比的解決方案：英特爾第四代至強(qiáng)可擴(kuò)展處理器

AI 社區(qū)存在一個(gè)刻板印象：CPU 不適合承載 AI 任務(wù)。但 Hugging Face 首席傳播官 Julien Simon 的一項(xiàng)展示打破了這種刻板印象。他所在的公司和英特爾合作打造了一個(gè)名為 Q8-Chat 的生成式 AI 應(yīng)用，該應(yīng)用能夠提供類似 ChatGPT 的聊天體驗(yàn)，但僅需一個(gè) 32 核英特爾至強(qiáng) 處理器就能運(yùn)行。

就像這個(gè)例子所展示的，用 CPU 承載 AI 任務(wù)（尤其是推理任務(wù)）其實(shí)在產(chǎn)業(yè)界非常普遍，阿里巴巴、美團(tuán)、百度都用相關(guān)方案緩解了算力問題。

阿里巴巴：用 CPU 助力下一代電商推薦系統(tǒng)，成功應(yīng)對(duì)雙十一峰值負(fù)載壓力

前面提到，阿里巴巴在電商推薦系統(tǒng)業(yè)務(wù)中面臨 AI 吞吐量、時(shí)延、推理精確性等方面的多重考驗(yàn)。為了實(shí)現(xiàn)性能與成本的平衡，他們選擇用 CPU 來處理 AI 推理等工作負(fù)載。

那么，什么樣的 CPU 能同時(shí)頂住多重考驗(yàn)？答案自然是英特爾第四代至強(qiáng) 可擴(kuò)展處理器。

這款處理器于今年年初正式發(fā)布，除了一系列微架構(gòu)的革新和技術(shù)規(guī)格的升級(jí)外，新 CPU 對(duì) AI 運(yùn)算「更上層樓」的支持也格外引人關(guān)注，尤其是英特爾在這代產(chǎn)品中增添的全新內(nèi)置 AI 加速器英特爾高級(jí)矩陣擴(kuò)展（AMX）。

在實(shí)際的工作負(fù)載中，英特爾 AMX 能夠同時(shí)支持 BF16 和 INT8 數(shù)據(jù)類型，能夠確保該 CPU 像高端通用圖形處理器（GPGPU）一樣處理 DNN 工作負(fù)載。BF16 動(dòng)態(tài)范圍與標(biāo)準(zhǔn) IEEE-FP32 相同，但精度較 FP32 變低。在大多數(shù)情況下，BF16 與 FP32 格式的模型推理結(jié)果一樣準(zhǔn)確，但是由于 BF16 只需要處理 FP32 一半尺寸的數(shù)據(jù)，因此 BF16 吞吐量遠(yuǎn)高于 FP32，內(nèi)存需求也大幅降低。

當(dāng)然，AMX 本身的架構(gòu)也是為加速 AI 計(jì)算所設(shè)計(jì)的。該架構(gòu)由兩部分組件構(gòu)成：2D 寄存器文件（TILE）和 TILE 矩陣乘法單元（TMUL），前者可存儲(chǔ)更大的數(shù)據(jù)塊，后者是對(duì) TILE 進(jìn)行處理的加速單元，可在單次運(yùn)算中計(jì)算更大矩陣的指令。

憑借這種新的架構(gòu)，英特爾 AMX 實(shí)現(xiàn)了大幅代際性能提升。與運(yùn)行英特爾高級(jí)矢量擴(kuò)展 512 神經(jīng)網(wǎng)絡(luò)指令（AVX-512 VNNI）的第三代英特爾至強(qiáng) 可擴(kuò)展處理器相比，運(yùn)行英特爾 AMX 的第四代英特爾至強(qiáng) 可擴(kuò)展處理器將單位計(jì)算周期內(nèi)執(zhí)行 INT8 運(yùn)算的次數(shù)從 256 次提高至 2048 次，執(zhí)行 BF16 運(yùn)算的次數(shù)為 1024 次，而第三代英特爾至強(qiáng) 可擴(kuò)展處理器執(zhí)行 FP32 運(yùn)算的次數(shù)僅為 64 次。

英特爾 AMX 的高級(jí)硬件特性為阿里巴巴的核心推薦模型帶來了 AI 推理性能突破，并保證了足夠的精度。此外，阿里巴巴還使用英特爾 oneAPI 深度神經(jīng)網(wǎng)絡(luò)庫 (英特爾 oneDNN)，將 CPU 微調(diào)到峰值效率。

下圖顯示，在 AMX、BF16 混合精度、8 通道 DDR5、更大高速緩存、更多內(nèi)核、高效的內(nèi)核到內(nèi)核通信和軟件優(yōu)化的配合下，主流的 48 核第四代英特爾至強(qiáng) 可擴(kuò)展處理器可以將代理模型的吞吐量提升到 2.89 倍，超過主流的 32 核第三代英特爾至強(qiáng) 可擴(kuò)展處理器，同時(shí)將時(shí)延嚴(yán)格保持在 15 毫秒以下，推理精度依然能夠滿足需求。

優(yōu)化后的軟件和硬件已經(jīng)部署在阿里巴巴的真實(shí)業(yè)務(wù)環(huán)境中，它們成功通過了一系列驗(yàn)證，符合阿里巴巴的生產(chǎn)標(biāo)準(zhǔn)，包括應(yīng)對(duì)阿里巴巴雙十一購物節(jié)期間的峰值負(fù)載壓力。

而且，阿里巴巴發(fā)現(xiàn)，升級(jí)為第四代英特爾至強(qiáng) 可擴(kuò)展處理器帶來的性能收益遠(yuǎn)高于硬件成本，投資收益非常明顯。

美團(tuán)：用 CPU 承載低流量長尾視覺 AI 推理，服務(wù)成本直降 70%

前面提到，美團(tuán)在業(yè)務(wù)擴(kuò)展中面臨視覺 AI 推理服務(wù)成本較高的挑戰(zhàn)。其實(shí)，這個(gè)問題并非鐵板一塊：部分低流量長尾模型推理服務(wù)的負(fù)載壓力與時(shí)延要求是相對(duì)較低的，完全可以用 CPU 來承載。

在多個(gè)視覺 AI 模型中，美團(tuán)通過采用英特爾 AMX 加速技術(shù)，動(dòng)態(tài)將模型數(shù)據(jù)類型從 FP32 轉(zhuǎn)換為 BF16，從而在可接受的精度損失下，增加吞吐量并加速推理。

為了驗(yàn)證優(yōu)化后的性能提升，美團(tuán)將使用英特爾 AMX 加速技術(shù)轉(zhuǎn)換后的 BF16 模型，與基準(zhǔn) FP32 模型的推理性能進(jìn)行了比較。測試數(shù)據(jù)下圖所示，在將模型轉(zhuǎn)化為 BF16 之后，模型推理性能可實(shí)現(xiàn) 3.38-4.13 倍的提升，同時(shí) Top1 和 Top5 精度損失大部分可以控制在 0.01%-0.03%。

得益于性能的提升，美團(tuán)能夠更加充分地釋放現(xiàn)有基礎(chǔ)設(shè)施的潛能，降低在 GPU 部署與運(yùn)維方面的高昂成本，并節(jié)省 70% 的服務(wù)成本。

百度：將蒸餾后的模型跑在 CPU 上，解鎖更多行業(yè)、場景

眾所周知，模型中更多的層數(shù)、參數(shù)意味著更大的模型體積、更強(qiáng)的計(jì)算資源需求以及更長的推理耗時(shí)，對(duì)于業(yè)務(wù)響應(yīng)速度和構(gòu)建成本敏感的用戶而言，無疑提高了引入和使用門檻。因此，在 NLP 領(lǐng)域，模型小型化是一個(gè)常見的優(yōu)化方向。

百度也采用了這一做法，借助模型輕量化技術(shù)對(duì) ERNIE 3.0 大模型進(jìn)行蒸餾壓縮，從而將其推廣到更多行業(yè)與場景。這些輕量版的模型（ERNIE-Tiny）不僅響應(yīng)迅速，還有一個(gè)重要優(yōu)勢：無需昂貴的專用 AI 算力設(shè)備就能部署。因此，引入更強(qiáng)的通用計(jì)算平臺(tái)和優(yōu)化方案，就成了助力 ERNIE-Tiny 獲得更優(yōu)效率的另一項(xiàng)重要手段。

為此，百度與英特爾展開深度技術(shù)合作：一方面將第四代英特爾至強(qiáng) 可擴(kuò)展處理器引入 ERNIE-Tiny 的推理計(jì)算過程；另一方面，也推進(jìn)了多項(xiàng)優(yōu)化措施，例如通過英特爾 oneAPI 深度神經(jīng)網(wǎng)絡(luò)庫來調(diào)用英特爾 AMX 指令等，以確保 ERNIE-Tiny 可以更為充分地利用 AMX 帶來的性能加速紅利。

來自對(duì)比測試的數(shù)據(jù)表明，相比通過英特爾 AVX-512_VNNI 技術(shù)來實(shí)現(xiàn) AI 加速的、面向單路和雙路的第三代英特爾至強(qiáng) 可擴(kuò)展處理器，ERNIE-Tiny 在升級(jí)使用內(nèi)置英特爾 AMX 技術(shù)的第四代英特爾至強(qiáng) 可擴(kuò)展處理器后，其整體性能提升高達(dá) 2.66 倍，取得了令人滿意的效果。

目前，各個(gè) ERNIE-Tiny 不僅已部署在零門檻 AI 開發(fā)平臺(tái) EasyDL、全功能 AI 開發(fā)平臺(tái) BML 和 ERNIEKit (旗艦版) 產(chǎn)品中，它們也將與平臺(tái)和產(chǎn)品的其它能力一起協(xié)同，在基于第四代英特爾至強(qiáng) 可擴(kuò)展處理器的基礎(chǔ)設(shè)施上，為使用者提供文本分類、關(guān)系抽娶文本生成以及問答等能力。

從阿里巴巴、美團(tuán)、百度的實(shí)踐經(jīng)驗(yàn)可以看到，在真實(shí)的生產(chǎn)環(huán)境中，真正發(fā)揮作用的依然是一些規(guī)模沒那么大的 AI 模型。這些模型的部署已經(jīng)有了可借鑒的成熟方案，可以借助英特爾至強(qiáng) CPU 以及配套的軟硬件加速方案獲得顯著的成本效益。

當(dāng)然，隨著 AIGC 的強(qiáng)勢崛起，不少企業(yè)也將目光瞄準(zhǔn)了這類大一些的模型。但正如前面所討論過的，無論是調(diào)用超大模型 API 還是自己訓(xùn)練、部署都有各自的問題，如何選擇一種經(jīng)濟(jì)、高效又安全的解決方案是擺在企業(yè)面前的棘手難題。

AIGC 時(shí)代已來，企業(yè)如何應(yīng)對(duì)？

企業(yè)擁抱 AIGC 就意味著一定要有一個(gè)「無所不知」的超大模型嗎？對(duì)此，波士頓咨詢公司（BCG）給出的答案是否定的。

他們選擇的解決方案是利用自己的數(shù)據(jù)訓(xùn)練一個(gè)行業(yè)專用模型。這個(gè)模型可能沒有那么大，但可以洞察 BCG 過去 50 多年中高度保密的專有數(shù)據(jù)。同時(shí)，所有的 AI 訓(xùn)練和推理都完全符合 BCG 的安全標(biāo)準(zhǔn)。

這套解決方案的背后是一臺(tái)英特爾 AI 超級(jí)計(jì)算機(jī)，該計(jì)算機(jī)搭載英特爾第四代至強(qiáng) 可擴(kuò)展處理器和 Habana Gaudi2 AI 硬件加速器，前者在 PyTorch 上的 AI 訓(xùn)練性能最高能提升到上一代產(chǎn)品的 10 倍，后者在計(jì)算機(jī)視覺（ResNet-50）和自然語言處理（BERT 微調(diào)）方面的表現(xiàn)優(yōu)于英偉達(dá) A100，在計(jì)算機(jī)視覺方面幾乎與 H100 不分伯仲。二者強(qiáng)強(qiáng)聯(lián)合，為 BCG 提供了一套經(jīng)濟(jì)高效的 AIGC 解決方案。

在一個(gè)聊天機(jī)器人界面上，BCG 員工能夠從冗長的多頁文檔列表中，通過語義搜索來檢索、提取并匯總有效信息。BCG 報(bào)告稱，這與現(xiàn)有的關(guān)鍵字搜索解決方案相比，其用戶滿意度提高了 41%，結(jié)果準(zhǔn)確性增長了 25%，工作完成率提高了 39%。

由此可見，無論是傳統(tǒng)的中小規(guī)模 AI，還是當(dāng)前頗有前景的 AIGC 行業(yè)大模型，GPU 都不是 AI 加速的唯一選擇。但無論是何種規(guī)模的模型，英特爾都給出了頗具性價(jià)比的軟硬件組合解決方案。

對(duì)于想要應(yīng)用 AI 提升效益的企業(yè)來說，選擇何種規(guī)模的模型、搭建怎樣的軟硬件基礎(chǔ)設(shè)施都沒有標(biāo)準(zhǔn)答案，所謂的超大模型、超大 GPU 算力集群可能都非必需。根據(jù)業(yè)務(wù)特點(diǎn)和屬性選擇適合自己的技術(shù)方案才是實(shí)現(xiàn)最優(yōu)解的重要因素。

參考鏈接：

https://www.intel.cn/content/www/cn/zh/artificial-intelligence/amx-tencent-bert-model-search-applications.html

https://www.intel.cn/content/www/cn/zh/cloud-computing/alibaba-e-comm-recommendation-system-enhancement.html