當(dāng)前位置：人工智能實(shí)驗(yàn)室> 人工智能動(dòng)態(tài) > AI狂飆突進(jìn)，存力需作先鋒

AI狂飆突進(jìn)，存力需作先鋒
來(lái)源：互聯(lián)網(wǎng) 發(fā)布日期：2023-06-03 17:56:51 瀏覽：6332次

導(dǎo)讀：5月30日，在2023中關(guān)村論壇成果發(fā)布會(huì)上，《北京市加快建設(shè)具有全球影響力的人工智能創(chuàng)新策源地實(shí)施方案（2023-2025年）》正式發(fā)布�！秾�(shí)施方案》要求，支持創(chuàng)新主體重點(diǎn)突破分布式高效深度學(xué)習(xí)框架、大模型新型基礎(chǔ)架構(gòu)等技術(shù)，著力推動(dòng)大模型相關(guān)技術(shù)創(chuàng)新...

5月30日，在2023中關(guān)村論壇成果發(fā)布會(huì)上，《北京市加快建設(shè)具有全球影響力的人工智能創(chuàng)新策源地實(shí)施方案（2023-2025年）》正式發(fā)布�！秾�(shí)施方案》要求，支持創(chuàng)新主體重點(diǎn)突破分布式高效深度學(xué)習(xí)框架、大模型新型基礎(chǔ)架構(gòu)等技術(shù)，著力推動(dòng)大模型相關(guān)技術(shù)創(chuàng)新。

這被業(yè)界視為中國(guó)將強(qiáng)力推動(dòng)大模型發(fā)展的又一力證。事實(shí)上，近期從中央各部委到地方盛市，對(duì)于發(fā)展AI技術(shù)，把握大模型機(jī)遇的政策傾斜度不斷上升，無(wú)論是政策出臺(tái)密度還是整體戰(zhàn)略高度，都達(dá)到了驚人的水平。

有理由相信，中國(guó)將實(shí)現(xiàn)一場(chǎng)以大模型為突破點(diǎn)的AI狂飆突進(jìn)。自2017年開(kāi)啟新一代人工智能發(fā)展戰(zhàn)略以來(lái)，中國(guó)將在目前機(jī)遇窗口中得到再發(fā)展，推動(dòng)AI產(chǎn)業(yè)全面爆發(fā)。

我們都知道，抓住AI發(fā)展機(jī)遇，需要以技術(shù)突破與基礎(chǔ)設(shè)施建設(shè)為基礎(chǔ)，而提到AI產(chǎn)業(yè)的基礎(chǔ)設(shè)施，普遍會(huì)提到AI芯片、深度學(xué)習(xí)框架、預(yù)訓(xùn)練大模型，卻經(jīng)常會(huì)忽略另一個(gè)關(guān)鍵問(wèn)題：大模型將帶來(lái)巨大的數(shù)據(jù)壓力，數(shù)據(jù)存儲(chǔ)也是AI發(fā)展進(jìn)程中的支柱。

ChatGPT是這一輪AI爆發(fā)的引線，而接下來(lái)大模型規(guī)�；瘧�(yīng)用帶來(lái)的數(shù)據(jù)難題，其實(shí)也早已寫(xiě)在了ChatGPT當(dāng)中。

面對(duì)這種即將到來(lái)的壓力，中國(guó)存力準(zhǔn)備好了嗎？

從ChatGPT看AI崛起帶來(lái)的數(shù)據(jù)挑戰(zhàn)

從2018年谷歌發(fā)布BERT，業(yè)界開(kāi)啟了預(yù)訓(xùn)練大模型之路。大模型的特點(diǎn)是訓(xùn)練數(shù)據(jù)規(guī)模與模型參數(shù)龐大，這將給存儲(chǔ)帶來(lái)嚴(yán)峻考驗(yàn)，這一點(diǎn)在ChaGPT中也展現(xiàn)無(wú)疑。

預(yù)訓(xùn)練大模型所謂的“大”，體現(xiàn)在模型的深度學(xué)習(xí)網(wǎng)絡(luò)層數(shù)多、鏈接多、參數(shù)復(fù)雜，以及訓(xùn)練所用數(shù)據(jù)集種類更復(fù)雜，數(shù)據(jù)數(shù)量更豐富。在深度學(xué)習(xí)算法剛剛誕生時(shí)，主流模型只有幾百萬(wàn)參數(shù)，而B(niǎo)ERT發(fā)布時(shí)模型參數(shù)就已經(jīng)過(guò)億，將深度學(xué)習(xí)推進(jìn)到了大模型階段。到了ChatGPT這個(gè)階段，主流模型已經(jīng)有幾千億參數(shù)，甚至業(yè)界已經(jīng)開(kāi)始規(guī)劃萬(wàn)億模型。幾年時(shí)間里，AI模型的參數(shù)提升幾千倍，如此龐大的數(shù)據(jù)與模型都需要進(jìn)行存儲(chǔ)，這就成了AI爆發(fā)給存儲(chǔ)的第一大考驗(yàn)。

此外，大家目前會(huì)廣泛提到AI大模型采用了全新的模型結(jié)構(gòu)，因此對(duì)非結(jié)構(gòu)化數(shù)據(jù)會(huì)有更好的吸收效果與魯棒性，這對(duì)于AI最終效果非常重要，但也帶來(lái)一個(gè)衍生問(wèn)題：我們需要妥善處理存儲(chǔ)和調(diào)用海量的非結(jié)構(gòu)化數(shù)據(jù)。比如說(shuō)，ChatGPT在升級(jí)后加入了識(shí)圖等多模態(tài)能力，因此其訓(xùn)練數(shù)據(jù)也需要在文本基礎(chǔ)上加入大量圖片，再比如自動(dòng)駕駛車(chē)輛，每天要將大量實(shí)地測(cè)試視頻存儲(chǔ)起來(lái)作為模型訓(xùn)練依據(jù)。這些非結(jié)構(gòu)化數(shù)據(jù)，帶來(lái)了AI相關(guān)數(shù)據(jù)的海量增長(zhǎng)，也帶來(lái)了存儲(chǔ)和處理這些數(shù)據(jù)的難題。

據(jù)統(tǒng)計(jì)，當(dāng)前全球新增數(shù)據(jù)有80%都是非結(jié)構(gòu)化數(shù)據(jù)，年復(fù)合增長(zhǎng)率達(dá)到38%，應(yīng)對(duì)多元化的數(shù)據(jù)激增，已經(jīng)成為大模型時(shí)代必須克服的困難。

還有一個(gè)問(wèn)題，大模型往往需要頻繁讀取和調(diào)用數(shù)據(jù)。ChatGPT的數(shù)據(jù)訪問(wèn)使用量達(dá)到單月17.6億次，平均響應(yīng)速度在10秒以內(nèi)，并且AI模型的工作流程包括采集、準(zhǔn)備、訓(xùn)練、推理四部分，每個(gè)階段需要讀寫(xiě)不同類型的數(shù)據(jù)。因此，大模型對(duì)存儲(chǔ)性能也帶來(lái)了要求。

此外，圍繞ChatGPT展開(kāi)的一系列數(shù)據(jù)主權(quán)、數(shù)據(jù)保護(hù)爭(zhēng)議，也提醒我們AI大模型帶來(lái)了數(shù)據(jù)安全方面新的風(fēng)險(xiǎn)。試想一下，如果不法分子攻擊數(shù)據(jù)庫(kù)，從而令大語(yǔ)言模型生成錯(cuò)誤信息欺騙用戶，其危害結(jié)果既嚴(yán)重且隱蔽。

綜合來(lái)看，ChatGPT雖好，但其對(duì)數(shù)據(jù)存儲(chǔ)的規(guī)模、性能、安全等方面都提出了挑戰(zhàn)。當(dāng)我們致力于發(fā)展大模型和類ChatGPT應(yīng)用的時(shí)候，存儲(chǔ)這關(guān)不得不過(guò)。

中國(guó)存力，準(zhǔn)備好了嗎？

最近幾年，我們都在說(shuō)算力就是生產(chǎn)力。但有算就要有存，存力的極限，也決定了數(shù)字化生產(chǎn)力發(fā)展的上限。

那么，在接下來(lái)必然出現(xiàn)的中國(guó)大模型狂飆突進(jìn)中，中國(guó)存力是否已經(jīng)做好準(zhǔn)備了呢？很遺憾，從幾個(gè)方面來(lái)看，今天中國(guó)存力的準(zhǔn)備依舊不充分，需要進(jìn)一步升級(jí)和發(fā)展。我們可以一同來(lái)關(guān)注一下中國(guó)存力存在的幾個(gè)問(wèn)題，看看他們是否對(duì)應(yīng)了大模型帶來(lái)的數(shù)據(jù)壓力。

1.存力規(guī)模不足，限制AI產(chǎn)業(yè)發(fā)展上限

大模型將帶來(lái)海量數(shù)據(jù)，那么第一要?jiǎng)?wù)就是將這些數(shù)據(jù)進(jìn)行妥善存儲(chǔ)。但在目前階段，中國(guó)依舊有著存力不夠，大量數(shù)據(jù)甚至無(wú)法進(jìn)入存儲(chǔ)階段的問(wèn)題。從2022年數(shù)據(jù)來(lái)看，中國(guó)數(shù)據(jù)生產(chǎn)量已經(jīng)達(dá)到了驚人的8.1ZB，位居全球第二。但中國(guó)存力規(guī)模只有1000EB左右，這意味著數(shù)據(jù)可存儲(chǔ)率僅為12%，絕大多數(shù)數(shù)據(jù)無(wú)法得到有效保存。當(dāng)中國(guó)已經(jīng)明確數(shù)據(jù)作為第五生產(chǎn)要素的地位，智能化發(fā)展需要依靠數(shù)據(jù)、充分利用數(shù)據(jù)，卻有海量數(shù)據(jù)難以完成保存，這之間的問(wèn)題不可謂不嚴(yán)重。中國(guó)仍然需要保持高速、大規(guī)模的存力增長(zhǎng)，才能把握大模型帶來(lái)的AI技術(shù)發(fā)展機(jī)遇。

2.海量數(shù)據(jù)沖擊下，管理效率和存取效率低

上文討論過(guò)，AI大模型帶來(lái)的主要數(shù)據(jù)挑戰(zhàn)，是海量數(shù)據(jù)的管理效率和處理存取效率低。提升存取效率，要求數(shù)據(jù)以高效率、低能耗的方式完成存寫(xiě)，但目前在中國(guó)仍然有75%的數(shù)據(jù)在使用機(jī)械硬盤(pán)。相對(duì)于閃存盤(pán)，機(jī)械硬盤(pán)容量密度低、數(shù)據(jù)讀取慢、能耗高、可靠性差，相對(duì)來(lái)說(shuō)，全閃存具有高密度、低能耗、高性能、高可靠的一系列優(yōu)點(diǎn)，但中國(guó)全閃存替換依舊有較長(zhǎng)的一段路要走。

3.多重?cái)?shù)據(jù)隱憂，導(dǎo)致存儲(chǔ)安全形勢(shì)嚴(yán)峻

數(shù)據(jù)安全問(wèn)題，已經(jīng)成為AI公司乃至AI產(chǎn)業(yè)迫切關(guān)注的問(wèn)題。在2020年美國(guó)的Clearview AI公司發(fā)生數(shù)據(jù)安全事故，造成2000多家客戶的30億條數(shù)據(jù)泄露。這個(gè)案例向我們展現(xiàn)了AI產(chǎn)業(yè)的數(shù)據(jù)安全形勢(shì)十分嚴(yán)峻，我們必須從數(shù)據(jù)存儲(chǔ)階段開(kāi)始重視安全。尤其當(dāng)AI大模型在國(guó)計(jì)民生中扮演的角色愈發(fā)重要，就更需要存儲(chǔ)提升安全能力，以應(yīng)對(duì)各種可能存在的風(fēng)險(xiǎn)。

客觀來(lái)看，中國(guó)存力已經(jīng)保持了較高的發(fā)展速度，但在整體規(guī)模、全閃存占比以及技術(shù)創(chuàng)新能力上，依舊具有一定程度的不足。一場(chǎng)面向產(chǎn)業(yè)智能化需求與AI大規(guī)模落地的存儲(chǔ)升級(jí)已經(jīng)時(shí)不我待。

面向智能時(shí)代，存儲(chǔ)產(chǎn)業(yè)的機(jī)遇與方向

結(jié)合ChatGPT所代表的AI大模型帶給存儲(chǔ)的壓力，以及中國(guó)存力本身的發(fā)展現(xiàn)狀，我們可以很清晰得出一個(gè)結(jié)論：中國(guó)存儲(chǔ)必須支撐AI崛起，完成大規(guī)模的升級(jí)。

我們可以清晰看到存儲(chǔ)產(chǎn)業(yè)的發(fā)展方向，這些方向的急迫性與廣闊空間，構(gòu)成了存儲(chǔ)產(chǎn)業(yè)的重大機(jī)遇。

首先，需要擴(kuò)大存力規(guī)模，加速全閃存建設(shè)。

全閃存替換機(jī)械硬盤(pán)的“硅進(jìn)磁退”，是存儲(chǔ)產(chǎn)業(yè)多年來(lái)的整體發(fā)展趨勢(shì)。面對(duì)AI崛起的產(chǎn)業(yè)機(jī)會(huì)，中國(guó)存儲(chǔ)產(chǎn)業(yè)需要加快全閃存替代的實(shí)施與落地，最大化發(fā)揮出全閃存高性能、高可靠等優(yōu)勢(shì)，以應(yīng)對(duì)AI大模型帶來(lái)的數(shù)據(jù)存用需求。

此外，還必須注意的一點(diǎn)是全閃存化分布式存儲(chǔ)的機(jī)會(huì)正在加大。隨著AI大模型的崛起，非結(jié)構(gòu)化數(shù)據(jù)的爆發(fā)，數(shù)據(jù)重要性正在顯著提升，同時(shí)AI已經(jīng)深入到大型政企的生產(chǎn)核心，更多企業(yè)用戶傾向進(jìn)行本地化的AI訓(xùn)練，并且采用基于文件協(xié)議的數(shù)據(jù)存儲(chǔ)，而不是數(shù)據(jù)放到公有云平臺(tái)，這就導(dǎo)致分布式存儲(chǔ)的需求得到提升和加強(qiáng)。

二者結(jié)合，持續(xù)快速推動(dòng)存儲(chǔ)產(chǎn)業(yè)的全閃化落地，就成為了中國(guó)存儲(chǔ)產(chǎn)業(yè)發(fā)展的核心賽道。

其次，需要提升存儲(chǔ)技術(shù)創(chuàng)新，適配AI模型的發(fā)展需求。

上文提到，AI帶來(lái)的數(shù)據(jù)考驗(yàn)不僅僅是數(shù)據(jù)規(guī)模大，更是數(shù)據(jù)復(fù)雜性與應(yīng)用流程多樣性的挑戰(zhàn)，因此存儲(chǔ)的先進(jìn)性必須得到進(jìn)一步提升。比如說(shuō)，為了應(yīng)對(duì)AI頻繁的數(shù)據(jù)訪問(wèn)需求，存儲(chǔ)的讀寫(xiě)帶寬和訪問(wèn)效率都需要進(jìn)行升級(jí)。為了配合AI大模型的數(shù)據(jù)需求，存儲(chǔ)產(chǎn)業(yè)需要進(jìn)行全方位的技術(shù)升級(jí)。

在數(shù)據(jù)存儲(chǔ)格式方面，傳統(tǒng)的數(shù)據(jù)格式，比如“文件”“對(duì)象”，最初的設(shè)計(jì)意圖并不是匹配AI模型的訓(xùn)練需求，并且非結(jié)構(gòu)化數(shù)據(jù)的數(shù)據(jù)格式不統(tǒng)一，使得在AI模型調(diào)用數(shù)據(jù)的過(guò)程中，會(huì)產(chǎn)生大量對(duì)文件格式進(jìn)行重新理解、對(duì)齊的工作，進(jìn)而造成模型運(yùn)行效率下降，訓(xùn)練算力消耗增多。

為此，就需要在存儲(chǔ)側(cè)形成新的“數(shù)據(jù)范式（Data Paradigm）”。以自動(dòng)駕駛訓(xùn)練為例，不同類型的數(shù)據(jù)都參與到了數(shù)據(jù)訓(xùn)練的進(jìn)程當(dāng)中，如果在存儲(chǔ)側(cè)采用了新的數(shù)據(jù)范式，就可以幫助各種數(shù)據(jù)統(tǒng)一起來(lái)，更好地適配到AI模型訓(xùn)練當(dāng)中，從而加速自動(dòng)駕駛車(chē)輛的訓(xùn)練工作。打個(gè)比方，如果把AI想象為一種新的動(dòng)物，它需要吃一種新的飼料，如果把傳統(tǒng)格式的數(shù)據(jù)喂給它，就會(huì)產(chǎn)生消化不良的問(wèn)題，而新數(shù)據(jù)范式，就是在存儲(chǔ)側(cè)構(gòu)筑完全適合AI的數(shù)據(jù)，從而讓“喂養(yǎng)AI”的過(guò)程絲滑順暢。

在AI開(kāi)發(fā)工作中，數(shù)據(jù)管理的工作量占比巨大，不同數(shù)據(jù)集之間還會(huì)存在數(shù)據(jù)孤島問(wèn)題，而數(shù)據(jù)編織技術(shù)能夠效應(yīng)對(duì)這些問(wèn)題。通過(guò)數(shù)據(jù)編織，可以讓存儲(chǔ)內(nèi)置數(shù)據(jù)分析能力，把物理邏輯上散布的數(shù)據(jù)整合起來(lái)，形成全局視圖化的數(shù)據(jù)調(diào)度和流動(dòng)能力，從而有效管理AI帶來(lái)的海量數(shù)據(jù)，達(dá)成數(shù)據(jù)利用效率的提升。

這些存儲(chǔ)側(cè)的技術(shù)創(chuàng)新，可以讓數(shù)據(jù)存力與AI發(fā)展形成更加緊密的契合關(guān)系。

此外，需要將安全能力納入存儲(chǔ)本身，強(qiáng)化主動(dòng)安全能力。

伴隨著AI發(fā)揮的價(jià)值越來(lái)越大，數(shù)據(jù)安全問(wèn)題帶給企業(yè)用戶的損失也更多。因此，企業(yè)必須提升數(shù)據(jù)安全能力。其中最重要的一點(diǎn)是要提升數(shù)據(jù)韌性，讓存儲(chǔ)本身具有安全能力，從源頭上守護(hù)數(shù)據(jù)安全。接下來(lái)，更多數(shù)據(jù)韌性能力將被內(nèi)嵌到數(shù)據(jù)存儲(chǔ)產(chǎn)品中，例如勒索檢測(cè)、數(shù)據(jù)加密、安全快照和AirGap隔離區(qū)恢復(fù)特征等。

值得注意的是，目前業(yè)界已經(jīng)有了面向AI大模型崛起，進(jìn)行存儲(chǔ)全面升級(jí)的探索與嘗試。華為存儲(chǔ)通過(guò)高質(zhì)量的全閃存產(chǎn)品，融合先進(jìn)的存儲(chǔ)技術(shù)、內(nèi)嵌的安全能力，實(shí)現(xiàn)了存儲(chǔ)創(chuàng)新與AI發(fā)展的緊密契合，相向而行。

整體而言，存儲(chǔ)產(chǎn)業(yè)的發(fā)展與中國(guó)存力的進(jìn)步，對(duì)于AI大模型的落地，乃至千行百業(yè)的智能化升級(jí)，都有著舉足輕重的意義。脫離了存儲(chǔ)的發(fā)展，AI帶來(lái)的數(shù)據(jù)洪潮將難以妥善化解，AI技術(shù)甚至可能由于缺乏數(shù)據(jù)支撐，變成無(wú)本之源，無(wú)根之木。

智能時(shí)代的機(jī)遇與責(zé)任，恰好同時(shí)擺在了存儲(chǔ)產(chǎn)業(yè)面前。在華為等優(yōu)秀品牌的存力探索下，中國(guó)存儲(chǔ)正迎來(lái)史無(wú)前例的機(jī)會(huì)，也在承擔(dān)時(shí)代給予的責(zé)任。

很多業(yè)界專家認(rèn)為，大語(yǔ)言模型是AI歷史上的“iPhone時(shí)刻”，那么AI技術(shù)帶來(lái)的存力升級(jí)潮，或許也將成為中國(guó)存儲(chǔ)產(chǎn)業(yè)的里程碑時(shí)刻，成為一個(gè)黃金年代的序章。