當(dāng)前位置：人工智能實(shí)驗(yàn)室> 云計(jì)算 > AIGC時(shí)代，需要什么樣的云存儲(chǔ)？

AIGC時(shí)代，需要什么樣的云存儲(chǔ)？
來(lái)源：互聯(lián)網(wǎng) 發(fā)布日期：2024-04-11 09:15:30 瀏覽：10165次

導(dǎo)讀：文｜白鴿編｜王一粟 AIGC狂飆一年，算法進(jìn)步和應(yīng)用落地的爆發(fā)，讓中國(guó)云計(jì)算廠商感受著切實(shí)的變化。今年一季度，大模型企業(yè)在云存儲(chǔ)的消耗同比在增加。 4月8日，在騰訊云AIGC云存儲(chǔ)解決方案升級(jí)發(fā)布會(huì)上，騰訊云存儲(chǔ)總經(jīng)理馬文霜同時(shí)預(yù)計(jì)，今年AIGC對(duì)于云...

文｜白鴿

編｜王一粟

AIGC狂飆一年，算法進(jìn)步和應(yīng)用落地的爆發(fā)，讓中國(guó)云計(jì)算廠商感受著切實(shí)的變化。

“今年一季度，大模型企業(yè)在云存儲(chǔ)的消耗同比在增加。”

4月8日，在騰訊云AIGC云存儲(chǔ)解決方案升級(jí)發(fā)布會(huì)上，騰訊云存儲(chǔ)總經(jīng)理馬文霜同時(shí)預(yù)計(jì)，今年AIGC對(duì)于云端的調(diào)用量一定是爆發(fā)式的增長(zhǎng)。

馬文霜還開半玩笑地說(shuō)，“可能這些企業(yè)拿到的投資更多了”。

隨著多模態(tài)技術(shù)的進(jìn)化和落地應(yīng)用的逐漸爆發(fā)，讓大模型的訓(xùn)練和推理迎來(lái)了一些新的挑戰(zhàn)。

事實(shí)上，從語(yǔ)言和圖像為主的GPT，到視頻生成模型Sora，大模型參數(shù)正在指數(shù)級(jí)增長(zhǎng)。比如ChatGPT在GPT-2時(shí)是10億參數(shù)量，到現(xiàn)在GPT-4已經(jīng)有1.8萬(wàn)億參數(shù)。Sora為主的多模態(tài)技術(shù)，更會(huì)讓需要處理的數(shù)據(jù)量急劇增加，而這才剛剛是視頻生成模型的GPT-1.0時(shí)代。

參數(shù)越大，對(duì)云存儲(chǔ)的需求就會(huì)越高，包括云存儲(chǔ)的數(shù)據(jù)量以及吞吐量等，如果云存儲(chǔ)能力不能夠滿足大模型的需求，則會(huì)直接影響到大模型的訓(xùn)練速度和推理效率。

在大模型加速發(fā)展的階段，大模型企業(yè)也越來(lái)越重視云存儲(chǔ)這一重要的底層基礎(chǔ)設(shè)施能力。但AIGC時(shí)代，究竟需要什么樣的云存儲(chǔ)技術(shù)？

AIGC數(shù)據(jù)訓(xùn)練的新需求，云存儲(chǔ)的新挑戰(zhàn)

“內(nèi)卷”之下，大模型企業(yè)開始拼算力、拼參數(shù)，更拼大模型的更新速度。

如百川智能，前期平均一個(gè)月發(fā)布升級(jí)一款大模型，百度文心一言在發(fā)布之初，甚至一個(gè)月內(nèi)就完成了4次技術(shù)版本的升級(jí)。

想要保持大模型的更新頻率和速度，就要保證整個(gè)大模型數(shù)據(jù)訓(xùn)練過(guò)程的高效，其中某一個(gè)環(huán)節(jié)出現(xiàn)問(wèn)題，就可能會(huì)拉長(zhǎng)整個(gè)訓(xùn)練時(shí)長(zhǎng)，增加訓(xùn)練成本。

因此，作為整個(gè)大模型數(shù)據(jù)訓(xùn)練的底座，云存儲(chǔ)的重要性日益凸顯。那么，AIGC時(shí)代到底需要什么樣的云存儲(chǔ)技術(shù)？

存儲(chǔ)作為數(shù)據(jù)的載體，現(xiàn)如今已經(jīng)不僅僅只承擔(dān)“存”的作用，更需要打通數(shù)據(jù)從“存”到“用”的最后一公里。

始于19年前QQ空間的騰訊云存儲(chǔ)，如今在國(guó)內(nèi)云廠商中存儲(chǔ)能力一直處于領(lǐng)導(dǎo)者象限（沙利文報(bào)告），他們的做法對(duì)行業(yè)頗有借鑒意義。

馬文霜向光錐智能提到，在AIGC數(shù)據(jù)訓(xùn)練的4個(gè)環(huán)節(jié)中，存儲(chǔ)需要提供的具體能力，包括：

數(shù)據(jù)采集階段，需要一個(gè)大容量、低成本、高可靠的數(shù)據(jù)存儲(chǔ)底座；

數(shù)據(jù)清洗階段，需要提供更多協(xié)議的支持，以及至少GB甚至TB級(jí)的數(shù)據(jù)訪問(wèn)性能；

數(shù)據(jù)訓(xùn)練階段，作為大模型訓(xùn)練的關(guān)鍵環(huán)節(jié)，則需要一個(gè)TB級(jí)的帶寬存儲(chǔ)保證訓(xùn)練過(guò)程中Checkpoint能夠快速保存，以便于保障訓(xùn)練的連續(xù)性和提升CPU的有效使用時(shí)長(zhǎng)，也需要存儲(chǔ)提供百萬(wàn)級(jí)IOPS能力，來(lái)保證訓(xùn)練時(shí)海量小樣本讀取不會(huì)成為訓(xùn)練瓶頸；

數(shù)據(jù)應(yīng)用階段，則需要存儲(chǔ)提供比較豐富的數(shù)據(jù)審核能力，來(lái)滿足鑒黃、鑒暴等安全合規(guī)的訴求，保證大模型生成的內(nèi)容以合法、合規(guī)的方式使用；

在這4個(gè)環(huán)節(jié)中，騰訊云AIGC云存儲(chǔ)解決方案，分別由4款產(chǎn)品提供專屬服務(wù)，包括對(duì)象存儲(chǔ)COS、高性能并行文件存儲(chǔ)CFS Turbo、數(shù)據(jù)加速器GooseFS和數(shù)據(jù)萬(wàn)象CI。

而這次騰訊云存儲(chǔ)面向AIGC場(chǎng)景的升級(jí)，就是基于上述4款產(chǎn)品將大模型的數(shù)據(jù)清洗和訓(xùn)練效率提升1倍，整體訓(xùn)練時(shí)長(zhǎng)縮短一半。

首先，在數(shù)據(jù)采集環(huán)節(jié)，基于自研的對(duì)象存儲(chǔ)引擎YottaStore，騰訊云對(duì)象存儲(chǔ)COS可支持單集群管理百EB級(jí)別存儲(chǔ)規(guī)模，多種協(xié)議和不同數(shù)據(jù)公網(wǎng)接入能力，可以讓采集的原始數(shù)據(jù)便捷入湖。

數(shù)據(jù)清洗環(huán)節(jié)，COS訪問(wèn)鏈路比較長(zhǎng)，數(shù)據(jù)讀取效率并不高，所以騰訊云在這中間添加了一層自研的數(shù)據(jù)加速器GooseFS。

COS通過(guò)自研數(shù)據(jù)加速器GooseFS提升數(shù)據(jù)訪問(wèn)性能，可實(shí)現(xiàn)高達(dá)數(shù)TBps的讀取帶寬，提供亞毫秒級(jí)的數(shù)據(jù)訪問(wèn)延遲、百萬(wàn)級(jí)的IOPS和TBps級(jí)別的吞吐能力。

“這讓單次數(shù)據(jù)清洗任務(wù)耗時(shí)減少一半。”馬文霜說(shuō)道。

相比采集和清潔，大模型的訓(xùn)練則更加耗時(shí)，短則數(shù)周、長(zhǎng)則數(shù)月，這期間如果任何一個(gè)CPU/GPU的節(jié)點(diǎn)掉線，都會(huì)導(dǎo)致整個(gè)訓(xùn)練前功盡棄。

業(yè)內(nèi)通常會(huì)采用2～4個(gè)小時(shí)保存一次訓(xùn)練成果，即Checkpoint（檢查點(diǎn)），以便能在GPU故障時(shí)能回滾。

此時(shí)則需要將保存的Checkpoint時(shí)間縮短到越短越好，但數(shù)千上萬(wàn)個(gè)節(jié)點(diǎn)都需要保存Checkpoint，這就對(duì)文件存儲(chǔ)的讀寫吞吐提出了非常高的要求。

馬文霜表示：“兩年前我們發(fā)布高性能并行文件存儲(chǔ)CFS Turbo第一個(gè)版本，是100GB的讀寫吞吐，當(dāng)時(shí)覺(jué)得這個(gè)讀寫吞吐已經(jīng)足夠大，很多業(yè)務(wù)用不到。但去年大模型出來(lái)以后，用CFS Turbo再去寫Checkpoint，我們發(fā)現(xiàn)100G還遠(yuǎn)遠(yuǎn)不夠。”

CFS Turbo底層技術(shù)來(lái)自于騰訊云自研的引擎Histor。此次升級(jí)，騰訊云將CFS Turbo的讀寫吞吐能力從100GB直接升級(jí)至TiB/s級(jí)別，讓3TB checkpoint 寫入時(shí)間從10分鐘，縮短至10秒內(nèi)，時(shí)間降低90%，大幅提升大模型訓(xùn)練效率。

針對(duì)數(shù)據(jù)訪問(wèn)延遲問(wèn)題，騰訊云引擎Histor可支持單個(gè)節(jié)點(diǎn)GPU與所有存儲(chǔ)節(jié)點(diǎn)進(jìn)行通信，進(jìn)行并行數(shù)據(jù)訪問(wèn)。“另外，我們通過(guò)RDMA（遠(yuǎn)程直接地址訪問(wèn)）等技術(shù)不斷優(yōu)化數(shù)據(jù)訪問(wèn)延遲，縮短IO路徑，最終可做到亞毫秒級(jí)訪問(wèn)延遲。”馬文霜說(shuō)道。

同時(shí)，騰訊云Histor還可以將元數(shù)據(jù)目錄打散至所有存儲(chǔ)節(jié)點(diǎn)上，提供線性擴(kuò)張能力，從而實(shí)現(xiàn)文件打開、讀娶刪除的百萬(wàn)級(jí)IOPS能力。

應(yīng)用階段，大模型推理場(chǎng)景則對(duì)數(shù)據(jù)安全與可追溯性提出更高要求。騰訊云數(shù)據(jù)萬(wàn)象CI是一站式內(nèi)容治理服務(wù)平臺(tái)，它可以對(duì)AI生成的內(nèi)容進(jìn)行一站式管理，可以提供圖片隱式水英AIGC內(nèi)容審核、智能數(shù)據(jù)檢索MetaInsight等能力。

此次升級(jí)，騰訊云重點(diǎn)講述了智能數(shù)據(jù)檢索MetaInsight，其能夠基于大模型和向量數(shù)據(jù)庫(kù)進(jìn)行跨模態(tài)搜索服務(wù)，也就是可以文搜圖、文搜視頻、圖搜圖、視頻搜視頻，并憑借95%以上的召回率，可以幫助用戶快速鎖定目標(biāo)內(nèi)容，提升審核效率。

基于這套AIGC云存儲(chǔ)技術(shù)底座，騰訊云存儲(chǔ)總經(jīng)理陳崢表示，騰訊自研項(xiàng)目（比如混元大模型）的整體效率至少提升了2倍以上。

目前，除騰訊自己的混元大模型，數(shù)據(jù)顯示，已有80%的頭部大模型企業(yè)使用了這套AIGC云存儲(chǔ)解決方案，包括百川智能、智譜、元象等明星大模型企業(yè)。

而針對(duì)解決方案升級(jí)后的產(chǎn)品價(jià)格，馬文霜?jiǎng)t表示，“不會(huì)有變化”。在阿里云和京東云都宣布降價(jià)時(shí)，騰訊云并沒(méi)有選擇降價(jià)，而是“加量不加價(jià)”。

“穩(wěn)定性、高性能，以及性價(jià)比，是大模型時(shí)代云存儲(chǔ)的核心。”騰訊云智能存儲(chǔ)總監(jiān)葉嘉梁說(shuō)道。

當(dāng)然，在AIGC時(shí)代，云廠商都想抓住這一次用云需求爆發(fā)的機(jī)會(huì)。除了騰訊云外，阿里云、華為云等其他云廠商在AIGC云存儲(chǔ)領(lǐng)域也都有相應(yīng)的布局。

比如2023年，華為云針對(duì)大模型時(shí)代的云存儲(chǔ)發(fā)布了OceanStor A310 深度學(xué)習(xí)數(shù)據(jù)湖存儲(chǔ)和FusionCube A3000 訓(xùn)/推超融合一體機(jī)兩款產(chǎn)品。

阿里云面向AI時(shí)代的云存儲(chǔ)解決方案，也覆蓋了底層對(duì)象存儲(chǔ) OSS數(shù)據(jù)湖、高性能文件存儲(chǔ)、并行文件存儲(chǔ) CPFS、PAI-靈駿智算服務(wù)以及智能媒體管理IMM平臺(tái)等產(chǎn)品。

可以看到，圍繞AIGC的需求，云廠商在云存儲(chǔ)領(lǐng)域迅速更新?lián)Q代。阿里云的思路與騰訊云非常接近，而華為云則加入了自己在硬件方面的優(yōu)勢(shì)。

云存儲(chǔ)技術(shù)僅是云計(jì)算眾多底層核心技術(shù)之一，隨著大模型深度發(fā)展，云廠商們已經(jīng)開始在整個(gè)PaaS層、IaaS層、MaaS層，都在圍繞AIGC進(jìn)行迭代升級(jí)，為行業(yè)提供全鏈路大模型云服務(wù)。

云廠商狂飆，爭(zhēng)做“最適合大模型”的云

云已經(jīng)成為大模型的最佳載體，大模型也正在重塑云服務(wù)的形態(tài)。

馬文霜認(rèn)為，云上豐富的資源、計(jì)算、存儲(chǔ)、網(wǎng)絡(luò)、容器技術(shù)和PaaS，都能夠解決AIGC在各個(gè)環(huán)節(jié)上對(duì)資源的訴求。云還能夠給AIGC提供成熟的方案和豐富的生態(tài)支持，讓客戶可以聚焦在自己產(chǎn)品競(jìng)爭(zhēng)力的方向進(jìn)行開發(fā)，加速整體研發(fā)效率以及應(yīng)用落地的速度。

面對(duì)AIGC帶來(lái)的大模型發(fā)展浪潮，騰訊集團(tuán)副總裁、騰訊云與智慧產(chǎn)業(yè)事業(yè)群COO兼騰訊云總裁邱躍鵬曾表示，大模型將開創(chuàng)下一代云服務(wù)，騰訊云要打造“最適合大模型的云”。

自從大模型熱潮爆發(fā)以來(lái)，騰訊云在大模型業(yè)務(wù)推出上不是最快的一個(gè)，但卻是最扎實(shí)的一個(gè)。

在2023年9月的騰訊全球數(shù)字生態(tài)大會(huì)上，騰訊云面向AIGC場(chǎng)景推出了基于星脈網(wǎng)絡(luò)的大模型訓(xùn)練集群HCC、向量數(shù)據(jù)庫(kù)以及行業(yè)大模型的MaaS服務(wù)。

也就是說(shuō)，騰訊云從底層智算能力，到中間件，再到上層MaaS，已經(jīng)實(shí)現(xiàn)了全鏈路大模型云化能力升級(jí)迭代，每個(gè)業(yè)務(wù)都很務(wù)實(shí)。

比如，針對(duì)大模型對(duì)算力的迫切需求，騰訊云高性能計(jì)算集群HCC為大模型訓(xùn)練提供高性能、高帶寬、低延遲的智能算力支撐。通過(guò)自研星脈網(wǎng)絡(luò)，能提升40%GPU利用率，節(jié)省30%~60%模型訓(xùn)練成本，提升AI大模型10倍通信性能。利用星星海自研服務(wù)器的6U超高密度設(shè)計(jì)和并行計(jì)算理念，確保高性能計(jì)算。

針對(duì)在中間層對(duì)數(shù)據(jù)調(diào)度應(yīng)用的需求，騰訊云向量數(shù)據(jù)庫(kù)，可為多維向量數(shù)據(jù)提供高效存儲(chǔ)、檢索和分析能力�？蛻艨蓪⑺接袛�(shù)據(jù)經(jīng)過(guò)文本處理和向量化后，存儲(chǔ)至騰訊云向量數(shù)據(jù)庫(kù)，從而創(chuàng)建一個(gè)定制化外部知識(shí)庫(kù)。在后續(xù)查詢?nèi)蝿?wù)中，這個(gè)知識(shí)庫(kù)也能為大模型提供必要的提示，輔助AIGC應(yīng)用產(chǎn)生更精確的輸出。

而針對(duì)行業(yè)大模型開發(fā)與落地應(yīng)用服務(wù)，騰訊云則在整個(gè)云底座之上推出了MaaS服務(wù)解決方案，為企業(yè)客戶提供涵蓋模型預(yù)訓(xùn)練、模型精調(diào)、智能應(yīng)用開發(fā)等一站式行業(yè)大模型解決方案。

其中，值得一提的是騰訊云是業(yè)界最早提出走“向量數(shù)據(jù)庫(kù)”路線的云廠商，在大家對(duì)大模型部署還尚有技術(shù)路線爭(zhēng)議之初，騰訊就做了這個(gè)選擇。目前，向量數(shù)據(jù)庫(kù)+RAG（檢索增強(qiáng)）也已經(jīng)成為業(yè)內(nèi)使用頻率最多的大模型部署路線。

可以看到，在回歸“產(chǎn)品優(yōu)先”戰(zhàn)略后，騰訊云在大模型時(shí)代的打法也逐漸清晰不盲目追隨行業(yè)，而是基于對(duì)AIGC的理解，做自己的產(chǎn)品迭代。

不過(guò)，面對(duì)十年一遇的大模型機(jī)會(huì)，華為云、阿里云、百度云等云廠商也都在2023年?duì)幭瓤趾蟮夭季�，騰訊云的壓力并不校

過(guò)去一年，華為云構(gòu)建了包括以華為云騰AI云服務(wù)為算力底座、行業(yè)首個(gè)大模型混合云Stack 8.3，在MaaS層用盤古大模型在千行百業(yè)中落地。華為云還上線了騰AI云服務(wù)百模千態(tài)專區(qū)，收錄了業(yè)界主流開源大模型。可以看到，華為云集成了算力、政企、行業(yè)、生態(tài)等多方面的優(yōu)勢(shì)，可謂火力全開。

阿里云則是國(guó)內(nèi)大廠中唯一做開源大模型的公司，說(shuō)明心態(tài)最為開放、做平臺(tái)的決心最強(qiáng)。阿里云在智能算力底座之上，打造了以機(jī)器學(xué)習(xí)平臺(tái)PAI為核心的PaaS服務(wù)，以及上層MaaS服務(wù)。其中，在開發(fā)者生態(tài)層，截至2023年11月1日，阿里云發(fā)起的AI模型社區(qū)魔搭已經(jīng)有超過(guò)2300個(gè)模型，開發(fā)者超過(guò)280萬(wàn)，模型下載次數(shù)也超過(guò)了1億多次。

云廠商們掀起了新一輪廝殺，是因?yàn)榇竽Ｐ偷募t利。

AI的發(fā)展正在帶動(dòng)用云需求的增長(zhǎng)，并已成為云計(jì)算產(chǎn)業(yè)發(fā)展的第二增長(zhǎng)曲線。畢竟，大模型的算力使用幾乎可以說(shuō)是“無(wú)底洞”，此前業(yè)界曾預(yù)測(cè)OpenAI訓(xùn)練GPT-4可能使用了大約10000-25000張GPU，以及微軟的云上算力支撐。

因此，在AIGC時(shí)代，各大云廠商都在探索如何基于AI重塑云計(jì)算技術(shù)和服務(wù)體系，開辟全新的服務(wù)場(chǎng)景和服務(wù)內(nèi)容，從而能夠抓住這輪AI大模型升級(jí)發(fā)展所帶來(lái)的機(jī)會(huì)。

大趨勢(shì)下，Cloud for AI不僅是云廠商的新機(jī)會(huì)，也是必答題。陳崢也表示，云廠商現(xiàn)階段所能夠做的就是提前進(jìn)行技術(shù)產(chǎn)品布局，并將整個(gè)數(shù)據(jù)價(jià)值開放給客戶，從而讓客戶更好的利用數(shù)據(jù)。