當前位置：人工智能實驗室> 人工智能動態(tài) > 萬卡算力和萬億參數大模型時代，AI存儲何時爆發(fā)？| ToB產業(yè)觀察

萬卡算力和萬億參數大模型時代，AI存儲何時爆發(fā)？| ToB產業(yè)觀察
來源：互聯(lián)網發(fā)布日期：2024-11-20 12:47:23 瀏覽：0次

導讀：圖片系AI生成當前，大模型最顯著的特征之一就是參數量呈指數級增長。根據Scaling Law（尺度定律）的規(guī)則，人工智能神經網絡的參數量越多，模型越大，對于知識的總結歸納和推理泛化能力就越強。因而，從ChatGPT出現驗證了“涌現”能力，到如今的兩年里，業(yè)內首要關注的就是算力，怎樣突破硬件算力，怎樣以盡可能少的Token數量訓練好一個模型。但在這一顯著挑戰(zhàn)之外，數據量猛增 ......

萬卡算力和萬億參數大模型時代，AI存儲何時爆發(fā)？| ToB產業(yè)觀察

圖片系AI生成

當前，大模型最顯著的特征之一就是參數量呈指數級增長。根據Scaling Law（尺度定律）的規(guī)則，人工智能神經網絡的參數量越多，模型越大，對于知識的總結歸納和推理泛化能力就越強。因而，從ChatGPT出現驗證了“涌現”能力，到如今的兩年里，業(yè)內首要關注的就是算力，怎樣突破硬件算力，怎樣以盡可能少的Token數量訓練好一個模型。但在這一顯著挑戰(zhàn)之外，數據量猛增帶來的數據存儲，可能是僅次于算力的另一大技術難點。

大模型“卷”向存儲

年初，一位長期關注AI大模型應用的CTO與鈦媒體APP交流中表示：“企業(yè)使用外部數據訓練大模型，長文本是關鍵思路之一。但問題是，長文本處理特別消耗內存和硬件，因為模型訓練和推理的內存變大，模型效果才能更好。這也導致在其每次查詢的成本高于GPT-4，而后者基于微調。這不是ToB企業(yè)能夠負擔得其起的�！�

他對鈦媒體APP解釋：微軟提出了大模型的“不可能三角”，如果希望模型的微調能力很強，那么模型參數就不會很大，或者小樣本的學習能力不會很強。長文本的邏輯是，讓小樣本學習的能力變強，同時放棄微調，這樣模型參數肯定就會相應擴大。

彼時，正值國內長文本熱潮。除了最早的Kimi，阿里巴巴、百度、360等眾多廠商相繼宣布進軍長文本，從最初的可處理200萬字上下文，迅速擴張至1000萬字長文本能力。而在這股熱潮中，也同樣遺留了諸多待解決的問題。

根據技術博客Medium上一位AI工程師Szymon Palucha的記錄：

以阿里開源的Qwen2-7B（7億參數）大模型為例。目前GPU顯存大小基本在80GB（以英偉達A100為例），那么如果拿不到更好的A100時，他根據公式：參數模型內存=7B*32位=7B*32/8字節(jié)=28B字節(jié)=28GB，測算出運行該模型至少還需要28GB內存，這還不算推理過程中對存儲產生的額外開銷。

為此，最簡單的辦法是降低參數精度，因為現在多數大模型可以半精度使用，而不會顯著影響準確性。這意味著大模型在實際運行時，需要一定的內存或存儲空間來存儲和處理數據，大模型所需的內存量會根據上下文窗口的大小而變化。窗口越大，所占用的內存也就越多。

鈦媒體注意到，這也是當下大模型應用廠商在破解算力問題之外，遇到的另一大技術困難點，去年還沒有太多人關注數據量猛增帶來的數據存儲、內存帶寬、時延等一系列問題。并且隨著需求的爆發(fā)，已經帶來一些技術側產品側的演進。

支持萬卡算力和萬億參數LLM，存儲兩道檻

目前全球的科技巨頭都在布局萬卡算力集群和萬億參數規(guī)模的大模型訓練，對于這些集群而言，高性能的計算、存儲和網絡缺一不可。從存儲層面來看如何提供支撐？一是要至少達到TB級帶寬、百萬級IOPS的存儲性能，未來可能會演變?yōu)閿凳甌B、上億級IOPS的需求；二是要提升數據跨域調度、數據安全、數據可持續(xù)性訪問等能力。

回顧過去兩年間大模型帶來的存儲挑戰(zhàn)，可以從三個階段總結：

2022年初：大模型爆發(fā)初期，國內有超過100家的大模型公司開始迅速進行市場布局。在這個階段，模型訓練追求的就是“快”，通過IT基礎設施的方案優(yōu)化，有效地提升GPU效率，加速模型的訓練并得到市場認可，即可搶占市場先機。

為此，模型訓練的數據加載、模型訓練過程中的斷點續(xù)訓要盡可能地降低對計算時間的占用，在萬卡算力集群萬億參數的大模型的快速訓練時，小于1分鐘斷點續(xù)訓，需要存儲提供TB級的帶寬，同時小模型的訓練推理則對IOPS提出更高要求，存儲系統(tǒng)需提供超過百萬級的IOPS。

2023年底到2024年初：隨著模型在各行業(yè)落地的需求，在很多的行業(yè)場景里，行業(yè)數據缺少積累，過去分散在各終端、地域數據的夸協(xié)議、夸地域高效率共享整合。這就要求存儲具備數據跨域調度，通過異構納管實現全局命名空間管理，提升數據匯集、分析的效率。

2024年下半年開始：模型的真實落地，對數據質量要求更高，語料公司需要將數據匯集并進行精加工。大模型的行業(yè)化落地過程中，為了提升通用模型的專業(yè)化能力，訓練出精度更高的模型，要求有更高質量的數據集。為得到高質量數據，原始數據要經過粗加工、精加工等多個作業(yè)環(huán)節(jié)。這個階段，對數據的安全存儲和數據可持續(xù)性訪問提出了更高要求。

浪潮信息存儲產品線副總經理劉希猛指出，模型參數量、訓練數據量、GPU算力、網卡性能、GPU規(guī)模近些年均在飛速增長，原有存儲不足以應對AI的快速發(fā)展。無論是海量訓練數據加載、PB級檢查點斷點續(xù)訓，還是高并發(fā)推理問答等，存儲性能直接決定了整個訓練推理過程中的GPU利用率。特別在萬卡集群規(guī)模下，較差的存儲性能會嚴重增加GPU閑置時間，導致模型落地困難、業(yè)務成本劇增。因此，現代存儲已經由傳統(tǒng)的數據載體和數據倉儲，轉化為AI發(fā)展的關鍵組件。存儲系統(tǒng)正逐漸演進到提供更高的吞吐量，更低的時延，更高效的數據管理。

AI存儲何時爆發(fā)？

既然針對AI場景的存儲系統(tǒng)在前幾年并沒有得到太多重視，從需求側，何時會迎來新的爆發(fā)點？“過去一年，存儲的增量市場基本全部來自于AI場景�！眲⑾Ｃ蛯︹伱襟wAPP解釋。

如果將未來的AI市場分為大致兩類：一類是AI產業(yè)化的市場，在AI產業(yè)化進程中，更多的關注點可能集中在了模型訓練，緊隨其后的是語料生產，然后是算法優(yōu)化。那么，存儲首先就會在模型訓練、語料生產領域產生價值，特別是語料，從今年開始就已有跡象，并在接下來兩年里實現快速增長。

在劉希猛看來，從目前來看，大模型訓練中最緊缺的是數據，各行業(yè)在可能都會開始著手收集各自領域的數據，并進行相應的數據加工處理。算力方面，盡管有人認為算力建設已接近泡沫階段，甚至有些用力過猛。這一判斷可能在一定程度上具有方向性的正確性。接下來，算力的發(fā)展可能會進入一個相對平穩(wěn)的階段。

第二類是產業(yè)的AI化，即大模型真正落地到行業(yè)并產業(yè)實際價值，可以觀察到一些領域已經先行一步。例如，金融領域的量化交易、證券交易，在科研領域，AI也開始被用來輔助科研工作。此外，制造業(yè)也是AI應用的一個重要領域。這兩方面都會對AI存儲市場帶來比較好的促進作用。

劉希猛還指出，當前AI存儲面臨的挑戰(zhàn)尚未完全解決，若繼續(xù)向前發(fā)展，其實還是要從性能、效率以及可靠性三方面入手。一是高性能，以解決混合AI負載對存儲讀寫帶寬、IOPS，以及低時延的要求；二是高效率，通過存儲支持文件、對象、大數據等非結構化協(xié)議融合互通，全局命名空間等，減少多份數據重復存儲，以及數據夸協(xié)議、夸區(qū)域、夸系統(tǒng)調度檢索的問題；三是高韌性，通過故障的快速恢復、故障前的精準預測降低系統(tǒng)異常時的性能影響，以及服務的連續(xù)性，同時強化數據保護與安全防護能力，保證數據的完整、一致、持續(xù)可訪問。

目前國內外在建千卡集群、萬卡集群，且未來可能還會出現更大規(guī)模的集群。想要達到同等算力，若是采用國產GPU，可能需要不僅達到十萬卡規(guī)模，而是更為龐大的集群。

隨著集群規(guī)模的擴大，除了存儲本身面臨的挑戰(zhàn)外，還將帶來存儲整體方案的挑戰(zhàn)。這涉及從存儲到前端網絡，再到算力節(jié)點的整個鏈條。其中，網絡的選擇成為一個關鍵問題。國內之所以更多地使用RoCE網絡，是因為國內的集群規(guī)模需求更大，而IB網絡在擴展規(guī)模上有所限制。RoCE網絡與存儲及上層之間的協(xié)同性，尤其是超大規(guī)模集群的協(xié)同性上，可能會成為新的關注點。

鈦媒體注意到，RDMA(Remote Direct Memory Access)全稱遠程內存直接訪問技術，是一種數據傳輸技術。目前算力集群對網絡的建設在2022年之前基本會選擇“二層虛擬網絡”，隨著AI應用的爆發(fā)，2023年至今已經在嘗試智能無損網絡和以太網，并且往往圍繞性能、成本、生態(tài)系統(tǒng)和兼容性等方面進行權衡。RoCE就是一項基于以太網的RDMA技術。

甲骨文公司中國區(qū)技術咨詢部高級總監(jiān)嵇小峰與鈦媒體APP交流中同樣指出，大規(guī)模集群除了GPU數量多之外，同時具備網絡低延時和高帶寬的特性。從基礎設施角度來看，大量GPU集中部署會帶來供電和冷卻方面的巨大挑戰(zhàn)。同時，在訓練過程中，對存儲的需求同樣至關重要。因為訓練往往涉及成千上萬塊GPU的協(xié)同作業(yè)，一旦有少數GPU（如一塊或兩塊）出現故障，整個訓練進度可能會因此延誤。

例如，今年9月亮相的Oracle Zettascale算力集群，目前可提供13萬多顆GPU，相當于可提供2.4 ZFLOPS的云端算力。為進一步增強網絡的低延遲和高帶寬，Oracle采用支持兩種網絡協(xié)議：InfiniBand和RoCEv2，這是一種增強版的以太網。這兩種技術均具備一種核心繞行機制，能讓網絡流量避開常規(guī)路徑中必須穿越的某些組件，以實現更迅速的傳輸至目標地。這樣的設計促進了數據更快地抵達GPU，進而提升了處理效率。

隨著AI存儲需求的不斷涌現，包括GPU、模型架構、存儲解決方案及網絡技術的各大廠商，正紛紛加速布局，力求在構建超大規(guī)模集群的浪潮中搶占先機。（本文首發(fā)于鈦媒體APP，作者 | 楊麗，編輯 | 蓋虹達）

相關熱詞： 存儲算力英偉達模型萬卡

上一篇：人工智能大模型怎樣投喂數據？人工智能頭部企業(yè)為何紛紛選擇落戶四川自貢？

下一篇：Meta為法國、意大利等歐洲四國用戶推出雷朋AI眼鏡

萬卡算力和萬億參數大模型時代，AI存儲何時爆發(fā)？| ToB產業(yè)觀察
來源：互聯(lián)網發(fā)布日期：2024-11-20 12:47:23 瀏覽：0次

相關內容

AiLab云推薦

最新資訊

本月熱點

熱門排行

推薦內容

在線客服

熱門欄目HotCates

關于我們

版權聲明

萬卡算力和萬億參數大模型時代，AI存儲何時爆發(fā)？| ToB產業(yè)觀察 來源：互聯(lián)網 發(fā)布日期：2024-11-20 12:47:23 瀏覽：0次

相關內容

AiLab云推薦

最新資訊

本月熱點

熱門排行

推薦內容

在線客服

熱門欄目HotCates

關于我們

版權聲明

萬卡算力和萬億參數大模型時代，AI存儲何時爆發(fā)？| ToB產業(yè)觀察
來源：互聯(lián)網發(fā)布日期：2024-11-20 12:47:23 瀏覽：0次