展會(huì)信息港展會(huì)大全

AIGC時(shí)代,需要什么樣的云存儲(chǔ)?
來(lái)源:互聯(lián)網(wǎng)   發(fā)布日期:2024-04-11 09:15:30   瀏覽:10165次  

導(dǎo)讀:文|白 鴿 編|王一粟 AIGC狂飆一年,算法進(jìn)步和應(yīng)用落地的爆發(fā),讓中國(guó)云計(jì)算廠商感受著切實(shí)的變化。 今年一季度,大模型企業(yè)在云存儲(chǔ)的消耗同比在增加。 4月8日,在騰訊云AIGC云存儲(chǔ)解決方案升級(jí)發(fā)布會(huì)上,騰訊云存儲(chǔ)總經(jīng)理馬文霜同時(shí)預(yù)計(jì),今年AIGC對(duì)于云...

文|白 鴿

編|王一粟

AIGC狂飆一年,算法進(jìn)步和應(yīng)用落地的爆發(fā),讓中國(guó)云計(jì)算廠商感受著切實(shí)的變化。

“今年一季度,大模型企業(yè)在云存儲(chǔ)的消耗同比在增加。”

4月8日,在騰訊云AIGC云存儲(chǔ)解決方案升級(jí)發(fā)布會(huì)上,騰訊云存儲(chǔ)總經(jīng)理馬文霜同時(shí)預(yù)計(jì),今年AIGC對(duì)于云端的調(diào)用量一定是爆發(fā)式的增長(zhǎng)。

馬文霜還開半玩笑地說(shuō),“可能這些企業(yè)拿到的投資更多了”。

隨著多模態(tài)技術(shù)的進(jìn)化和落地應(yīng)用的逐漸爆發(fā),讓大模型的訓(xùn)練和推理迎來(lái)了一些新的挑戰(zhàn)。

事實(shí)上,從語(yǔ)言和圖像為主的GPT,到視頻生成模型Sora,大模型參數(shù)正在指數(shù)級(jí)增長(zhǎng)。比如ChatGPT在GPT-2時(shí)是10億參數(shù)量,到現(xiàn)在GPT-4已經(jīng)有1.8萬(wàn)億參數(shù)。Sora為主的多模態(tài)技術(shù),更會(huì)讓需要處理的數(shù)據(jù)量急劇增加,而這才剛剛是視頻生成模型的GPT-1.0時(shí)代。

參數(shù)越大,對(duì)云存儲(chǔ)的需求就會(huì)越高,包括云存儲(chǔ)的數(shù)據(jù)量以及吞吐量等,如果云存儲(chǔ)能力不能夠滿足大模型的需求,則會(huì)直接影響到大模型的訓(xùn)練速度和推理效率。

在大模型加速發(fā)展的階段,大模型企業(yè)也越來(lái)越重視云存儲(chǔ)這一重要的底層基礎(chǔ)設(shè)施能力。但AIGC時(shí)代,究竟需要什么樣的云存儲(chǔ)技術(shù)?

AIGC數(shù)據(jù)訓(xùn)練的新需求,云存儲(chǔ)的新挑戰(zhàn)

“內(nèi)卷”之下,大模型企業(yè)開始拼算力、拼參數(shù),更拼大模型的更新速度。

如百川智能,前期平均一個(gè)月發(fā)布升級(jí)一款大模型,百度文心一言在發(fā)布之初,甚至一個(gè)月內(nèi)就完成了4次技術(shù)版本的升級(jí)。

想要保持大模型的更新頻率和速度,就要保證整個(gè)大模型數(shù)據(jù)訓(xùn)練過(guò)程的高效,其中某一個(gè)環(huán)節(jié)出現(xiàn)問(wèn)題,就可能會(huì)拉長(zhǎng)整個(gè)訓(xùn)練時(shí)長(zhǎng),增加訓(xùn)練成本。

因此,作為整個(gè)大模型數(shù)據(jù)訓(xùn)練的底座,云存儲(chǔ)的重要性日益凸顯。那么,AIGC時(shí)代到底需要什么樣的云存儲(chǔ)技術(shù)?

存儲(chǔ)作為數(shù)據(jù)的載體,現(xiàn)如今已經(jīng)不僅僅只承擔(dān)“存”的作用,更需要打通數(shù)據(jù)從“存”到“用”的最后一公里。

始于19年前QQ空間的騰訊云存儲(chǔ),如今在國(guó)內(nèi)云廠商中存儲(chǔ)能力一直處于領(lǐng)導(dǎo)者象限(沙利文報(bào)告),他們的做法對(duì)行業(yè)頗有借鑒意義。

馬文霜向光錐智能提到,在AIGC數(shù)據(jù)訓(xùn)練的4個(gè)環(huán)節(jié)中,存儲(chǔ)需要提供的具體能力,包括:

數(shù)據(jù)采集階段,需要一個(gè)大容量、低成本、高可靠的數(shù)據(jù)存儲(chǔ)底座;

數(shù)據(jù)清洗階段,需要提供更多協(xié)議的支持,以及至少GB甚至TB級(jí)的數(shù)據(jù)訪問(wèn)性能;

數(shù)據(jù)訓(xùn)練階段,作為大模型訓(xùn)練的關(guān)鍵環(huán)節(jié),則需要一個(gè)TB級(jí)的帶寬存儲(chǔ)保證訓(xùn)練過(guò)程中Checkpoint能夠快速保存,以便于保障訓(xùn)練的連續(xù)性和提升CPU的有效使用時(shí)長(zhǎng),也需要存儲(chǔ)提供百萬(wàn)級(jí)IOPS能力,來(lái)保證訓(xùn)練時(shí)海量小樣本讀取不會(huì)成為訓(xùn)練瓶頸;

數(shù)據(jù)應(yīng)用階段,則需要存儲(chǔ)提供比較豐富的數(shù)據(jù)審核能力,來(lái)滿足鑒黃、鑒暴等安全合規(guī)的訴求,保證大模型生成的內(nèi)容以合法、合規(guī)的方式使用;

在這4個(gè)環(huán)節(jié)中,騰訊云AIGC云存儲(chǔ)解決方案,分別由4款產(chǎn)品提供專屬服務(wù),包括對(duì)象存儲(chǔ)COS、高性能并行文件存儲(chǔ)CFS Turbo、數(shù)據(jù)加速器GooseFS和數(shù)據(jù)萬(wàn)象CI。

而這次騰訊云存儲(chǔ)面向AIGC場(chǎng)景的升級(jí),就是基于上述4款產(chǎn)品將大模型的數(shù)據(jù)清洗和訓(xùn)練效率提升1倍,整體訓(xùn)練時(shí)長(zhǎng)縮短一半。

首先,在數(shù)據(jù)采集環(huán)節(jié),基于自研的對(duì)象存儲(chǔ)引擎YottaStore,騰訊云對(duì)象存儲(chǔ)COS可支持單集群管理百EB級(jí)別存儲(chǔ)規(guī)模,多種協(xié)議和不同數(shù)據(jù)公網(wǎng)接入能力,可以讓采集的原始數(shù)據(jù)便捷入湖。

數(shù)據(jù)清洗環(huán)節(jié),COS訪問(wèn)鏈路比較長(zhǎng),數(shù)據(jù)讀取效率并不高,所以騰訊云在這中間添加了一層自研的數(shù)據(jù)加速器GooseFS。

COS通過(guò)自研數(shù)據(jù)加速器GooseFS提升數(shù)據(jù)訪問(wèn)性能,可實(shí)現(xiàn)高達(dá)數(shù)TBps的讀取帶寬,提供亞毫秒級(jí)的數(shù)據(jù)訪問(wèn)延遲、百萬(wàn)級(jí)的IOPS和TBps級(jí)別的吞吐能力。

“這讓單次數(shù)據(jù)清洗任務(wù)耗時(shí)減少一半。”馬文霜說(shuō)道。

相比采集和清潔,大模型的訓(xùn)練則更加耗時(shí),短則數(shù)周、長(zhǎng)則數(shù)月,這期間如果任何一個(gè)CPU/GPU的節(jié)點(diǎn)掉線,都會(huì)導(dǎo)致整個(gè)訓(xùn)練前功盡棄。

業(yè)內(nèi)通常會(huì)采用2~4個(gè)小時(shí)保存一次訓(xùn)練成果,即Checkpoint(檢查點(diǎn)),以便能在GPU故障時(shí)能回滾。

此時(shí)則需要將保存的Checkpoint時(shí)間縮短到越短越好,但數(shù)千上萬(wàn)個(gè)節(jié)點(diǎn)都需要保存Checkpoint,這就對(duì)文件存儲(chǔ)的讀寫吞吐提出了非常高的要求。

馬文霜表示:“兩年前我們發(fā)布高性能并行文件存儲(chǔ)CFS Turbo第一個(gè)版本,是100GB的讀寫吞吐,當(dāng)時(shí)覺(jué)得這個(gè)讀寫吞吐已經(jīng)足夠大,很多業(yè)務(wù)用不到。但去年大模型出來(lái)以后,用CFS Turbo再去寫Checkpoint,我們發(fā)現(xiàn)100G還遠(yuǎn)遠(yuǎn)不夠。”

CFS Turbo底層技術(shù)來(lái)自于騰訊云自研的引擎Histor。此次升級(jí),騰訊云將CFS Turbo的讀寫吞吐能力從100GB直接升級(jí)至TiB/s級(jí)別,讓3TB checkpoint 寫入時(shí)間從10分鐘,縮短至10秒內(nèi),時(shí)間降低90%,大幅提升大模型訓(xùn)練效率。

針對(duì)數(shù)據(jù)訪問(wèn)延遲問(wèn)題,騰訊云引擎Histor可支持單個(gè)節(jié)點(diǎn)GPU與所有存儲(chǔ)節(jié)點(diǎn)進(jìn)行通信,進(jìn)行并行數(shù)據(jù)訪問(wèn)。“另外,我們通過(guò)RDMA(遠(yuǎn)程直接地址訪問(wèn))等技術(shù)不斷優(yōu)化數(shù)據(jù)訪問(wèn)延遲,縮短IO路徑,最終可做到亞毫秒級(jí)訪問(wèn)延遲。”馬文霜說(shuō)道。

同時(shí),騰訊云Histor還可以將元數(shù)據(jù)目錄打散至所有存儲(chǔ)節(jié)點(diǎn)上,提供線性擴(kuò)張能力,從而實(shí)現(xiàn)文件打開、讀娶刪除的百萬(wàn)級(jí)IOPS能力。

應(yīng)用階段,大模型推理場(chǎng)景則對(duì)數(shù)據(jù)安全與可追溯性提出更高要求。騰訊云數(shù)據(jù)萬(wàn)象CI是一站式內(nèi)容治理服務(wù)平臺(tái),它可以對(duì)AI生成的內(nèi)容進(jìn)行一站式管理,可以提供圖片隱式水英AIGC內(nèi)容審核、智能數(shù)據(jù)檢索MetaInsight等能力。

此次升級(jí),騰訊云重點(diǎn)講述了智能數(shù)據(jù)檢索MetaInsight,其能夠基于大模型和向量數(shù)據(jù)庫(kù)進(jìn)行跨模態(tài)搜索服務(wù),也就是可以文搜圖、文搜視頻、圖搜圖、視頻搜視頻,并憑借95%以上的召回率,可以幫助用戶快速鎖定目標(biāo)內(nèi)容,提升審核效率。

基于這套AIGC云存儲(chǔ)技術(shù)底座,騰訊云存儲(chǔ)總經(jīng)理陳崢表示,騰訊自研項(xiàng)目(比如混元大模型)的整體效率至少提升了2倍以上。

目前,除騰訊自己的混元大模型,數(shù)據(jù)顯示,已有80%的頭部大模型企業(yè)使用了這套AIGC云存儲(chǔ)解決方案,包括百川智能、智譜、元象等明星大模型企業(yè)。

而針對(duì)解決方案升級(jí)后的產(chǎn)品價(jià)格,馬文霜?jiǎng)t表示,“不會(huì)有變化”。在阿里云和京東云都宣布降價(jià)時(shí),騰訊云并沒(méi)有選擇降價(jià),而是“加量不加價(jià)”。

“穩(wěn)定性、高性能,以及性價(jià)比,是大模型時(shí)代云存儲(chǔ)的核心。”騰訊云智能存儲(chǔ)總監(jiān)葉嘉梁說(shuō)道。

當(dāng)然,在AIGC時(shí)代,云廠商都想抓住這一次用云需求爆發(fā)的機(jī)會(huì)。除了騰訊云外,阿里云、華為云等其他云廠商在AIGC云存儲(chǔ)領(lǐng)域也都有相應(yīng)的布局。

比如2023年,華為云針對(duì)大模型時(shí)代的云存儲(chǔ)發(fā)布了OceanStor A310 深度學(xué)習(xí)數(shù)據(jù)湖存儲(chǔ)和FusionCube A3000 訓(xùn)/推超融合一體機(jī)兩款產(chǎn)品。

阿里云面向AI時(shí)代的云存儲(chǔ)解決方案,也覆蓋了底層對(duì)象存儲(chǔ) OSS數(shù)據(jù)湖、高性能文件存儲(chǔ)、并行文件存儲(chǔ) CPFS、PAI-靈駿智算服務(wù)以及智能媒體管理IMM平臺(tái)等產(chǎn)品。

可以看到,圍繞AIGC的需求,云廠商在云存儲(chǔ)領(lǐng)域迅速更新?lián)Q代。阿里云的思路與騰訊云非常接近,而華為云則加入了自己在硬件方面的優(yōu)勢(shì)。

云存儲(chǔ)技術(shù)僅是云計(jì)算眾多底層核心技術(shù)之一,隨著大模型深度發(fā)展,云廠商們已經(jīng)開始在整個(gè)PaaS層、IaaS層、MaaS層,都在圍繞AIGC進(jìn)行迭代升級(jí),為行業(yè)提供全鏈路大模型云服務(wù)。

云廠商狂飆,爭(zhēng)做“最適合大模型”的云

云已經(jīng)成為大模型的最佳載體,大模型也正在重塑云服務(wù)的形態(tài)。

馬文霜認(rèn)為,云上豐富的資源、計(jì)算、存儲(chǔ)、網(wǎng)絡(luò)、容器技術(shù)和PaaS,都能夠解決AIGC在各個(gè)環(huán)節(jié)上對(duì)資源的訴求。云還能夠給AIGC提供成熟的方案和豐富的生態(tài)支持,讓客戶可以聚焦在自己產(chǎn)品競(jìng)爭(zhēng)力的方向進(jìn)行開發(fā),加速整體研發(fā)效率以及應(yīng)用落地的速度。

面對(duì)AIGC帶來(lái)的大模型發(fā)展浪潮,騰訊集團(tuán)副總裁、騰訊云與智慧產(chǎn)業(yè)事業(yè)群COO兼騰訊云總裁邱躍鵬曾表示,大模型將開創(chuàng)下一代云服務(wù),騰訊云要打造“最適合大模型的云”。

自從大模型熱潮爆發(fā)以來(lái),騰訊云在大模型業(yè)務(wù)推出上不是最快的一個(gè),但卻是最扎實(shí)的一個(gè)。

在2023年9月的騰訊全球數(shù)字生態(tài)大會(huì)上,騰訊云面向AIGC場(chǎng)景推出了基于星脈網(wǎng)絡(luò)的大模型訓(xùn)練集群HCC、向量數(shù)據(jù)庫(kù)以及行業(yè)大模型的MaaS服務(wù)。

也就是說(shuō),騰訊云從底層智算能力,到中間件,再到上層MaaS,已經(jīng)實(shí)現(xiàn)了全鏈路大模型云化能力升級(jí)迭代,每個(gè)業(yè)務(wù)都很務(wù)實(shí)。

比如,針對(duì)大模型對(duì)算力的迫切需求,騰訊云高性能計(jì)算集群HCC為大模型訓(xùn)練提供高性能、高帶寬、低延遲的智能算力支撐。通過(guò)自研星脈網(wǎng)絡(luò),能提升40%GPU利用率,節(jié)省30%~60%模型訓(xùn)練成本,提升AI大模型10倍通信性能。利用星星海自研服務(wù)器的6U超高密度設(shè)計(jì)和并行計(jì)算理念,確保高性能計(jì)算。

針對(duì)在中間層對(duì)數(shù)據(jù)調(diào)度應(yīng)用的需求,騰訊云向量數(shù)據(jù)庫(kù),可為多維向量數(shù)據(jù)提供高效存儲(chǔ)、檢索和分析能力?蛻艨蓪⑺接袛(shù)據(jù)經(jīng)過(guò)文本處理和向量化后,存儲(chǔ)至騰訊云向量數(shù)據(jù)庫(kù),從而創(chuàng)建一個(gè)定制化外部知識(shí)庫(kù)。在后續(xù)查詢?nèi)蝿?wù)中,這個(gè)知識(shí)庫(kù)也能為大模型提供必要的提示,輔助AIGC應(yīng)用產(chǎn)生更精確的輸出。

而針對(duì)行業(yè)大模型開發(fā)與落地應(yīng)用服務(wù),騰訊云則在整個(gè)云底座之上推出了MaaS服務(wù)解決方案,為企業(yè)客戶提供涵蓋模型預(yù)訓(xùn)練、模型精調(diào)、智能應(yīng)用開發(fā)等一站式行業(yè)大模型解決方案。

其中,值得一提的是騰訊云是業(yè)界最早提出走“向量數(shù)據(jù)庫(kù)”路線的云廠商,在大家對(duì)大模型部署還尚有技術(shù)路線爭(zhēng)議之初,騰訊就做了這個(gè)選擇。目前,向量數(shù)據(jù)庫(kù)+RAG(檢索增強(qiáng))也已經(jīng)成為業(yè)內(nèi)使用頻率最多的大模型部署路線。

可以看到,在回歸“產(chǎn)品優(yōu)先”戰(zhàn)略后,騰訊云在大模型時(shí)代的打法也逐漸清晰不盲目追隨行業(yè),而是基于對(duì)AIGC的理解,做自己的產(chǎn)品迭代。

不過(guò),面對(duì)十年一遇的大模型機(jī)會(huì),華為云、阿里云、百度云等云廠商也都在2023年?duì)幭瓤趾蟮夭季,騰訊云的壓力并不校

過(guò)去一年,華為云構(gòu)建了包括以華為云騰AI云服務(wù)為算力底座、行業(yè)首個(gè)大模型混合云Stack 8.3,在MaaS層用盤古大模型在千行百業(yè)中落地。華為云還上線了騰AI云服務(wù)百模千態(tài)專區(qū),收錄了業(yè)界主流開源大模型。可以看到,華為云集成了算力、政企、行業(yè)、生態(tài)等多方面的優(yōu)勢(shì),可謂火力全開。

阿里云則是國(guó)內(nèi)大廠中唯一做開源大模型的公司,說(shuō)明心態(tài)最為開放、做平臺(tái)的決心最強(qiáng)。阿里云在智能算力底座之上,打造了以機(jī)器學(xué)習(xí)平臺(tái)PAI為核心的PaaS服務(wù),以及上層MaaS服務(wù)。其中,在開發(fā)者生態(tài)層,截至2023年11月1日,阿里云發(fā)起的AI模型社區(qū)魔搭已經(jīng)有超過(guò)2300個(gè)模型,開發(fā)者超過(guò)280萬(wàn),模型下載次數(shù)也超過(guò)了1億多次。

云廠商們掀起了新一輪廝殺,是因?yàn)榇竽P偷募t利。

AI的發(fā)展正在帶動(dòng)用云需求的增長(zhǎng),并已成為云計(jì)算產(chǎn)業(yè)發(fā)展的第二增長(zhǎng)曲線。畢竟,大模型的算力使用幾乎可以說(shuō)是“無(wú)底洞”,此前業(yè)界曾預(yù)測(cè)OpenAI訓(xùn)練GPT-4可能使用了大約10000-25000張GPU,以及微軟的云上算力支撐。

因此,在AIGC時(shí)代,各大云廠商都在探索如何基于AI重塑云計(jì)算技術(shù)和服務(wù)體系,開辟全新的服務(wù)場(chǎng)景和服務(wù)內(nèi)容,從而能夠抓住這輪AI大模型升級(jí)發(fā)展所帶來(lái)的機(jī)會(huì)。

大趨勢(shì)下,Cloud for AI不僅是云廠商的新機(jī)會(huì),也是必答題。陳崢也表示,云廠商現(xiàn)階段所能夠做的就是提前進(jìn)行技術(shù)產(chǎn)品布局,并將整個(gè)數(shù)據(jù)價(jià)值開放給客戶,從而讓客戶更好的利用數(shù)據(jù)。

贊助本站

人工智能實(shí)驗(yàn)室

相關(guān)熱詞: AIGC 時(shí)代 需要 什么樣 存儲(chǔ)

相關(guān)內(nèi)容
AiLab云推薦
推薦內(nèi)容
展開

熱門欄目HotCates

Copyright © 2010-2024 AiLab Team. 人工智能實(shí)驗(yàn)室 版權(quán)所有    關(guān)于我們 | 聯(lián)系我們 | 廣告服務(wù) | 公司動(dòng)態(tài) | 免責(zé)聲明 | 隱私條款 | 工作機(jī)會(huì) | 展會(huì)港