无码av一级毛片在线播放,日韩人妻无码毛片,无码无遮大尺度床戏视频网站

數(shù)據(jù)決定AI智能的高度存儲成AI時代“新寵”

來源：互聯(lián)網(wǎng) 發(fā)布日期：2023-07-17 16:47:44 瀏覽：12696次

導讀：本報記者秦梟北京報道 ChatGPT發(fā)布至今，AI大模型正在進入全新的生態(tài)模式，展開了一個全新的旅程，各個研究機構(gòu)、公司都展開了一場關于大模型的比拼。據(jù)科技部新一代人工智能發(fā)展研究中心等機構(gòu)發(fā)布的數(shù)據(jù)，中國10億參數(shù)規(guī)模以上的大模型已發(fā)布79個。但同...

本報記者秦梟北京報道

ChatGPT發(fā)布至今，AI大模型正在進入全新的生態(tài)模式，展開了一個全新的旅程，各個研究機構(gòu)、公司都展開了一場關于大模型的比拼。據(jù)科技部新一代人工智能發(fā)展研究中心等機構(gòu)發(fā)布的數(shù)據(jù)，中國10億參數(shù)規(guī)模以上的大模型已發(fā)布79個。但同時，企業(yè)在開發(fā)及實施大模型應用過程中面臨諸多挑戰(zhàn)，尤其是數(shù)據(jù)存儲方面。

多位業(yè)內(nèi)人士對《中國經(jīng)營報》記者表示，大模型時代，數(shù)據(jù)決定AI智能的高度。作為數(shù)據(jù)的載體，數(shù)據(jù)存儲成為AI大模型的關鍵基礎設施。國內(nèi)要發(fā)展人工智能，并使這一產(chǎn)業(yè)得到高速的發(fā)展，一定要重視數(shù)據(jù)和信息的數(shù)字化記錄。如今，國內(nèi)建設了大量的數(shù)據(jù)中心，算力相對較多，但存力較少，很多高價值的信息都沒有被記錄下來。

挑戰(zhàn)依舊

以ChatGPT為代表的大模型成功實現(xiàn)商業(yè)化落地，并引發(fā)了業(yè)界震動。人工智能也正在從感知理解走向生成創(chuàng)造。而AI大模型儼然成為互聯(lián)網(wǎng)的“新風口”，在這場AI帶來的新變革中，企業(yè)紛紛緊跟時代浪潮，建立自己的大模型。

但隨著大模型產(chǎn)業(yè)的快速發(fā)展，模型規(guī)模的快速膨脹，AIGC模型預訓練數(shù)據(jù)量呈現(xiàn)指數(shù)級增長，帶動算力需求爆發(fā)。從GPT-1到GPT-3，模型參數(shù)量從GPT-1的1.17億增加到GPT-3的1750億；訓練數(shù)據(jù)量也由GPT-1的5GB，增加到GPT-3的45TB。這也就導致面向AI大模型的數(shù)據(jù)準備時間長，數(shù)據(jù)來源分散，歸集慢。

華為數(shù)據(jù)存儲產(chǎn)品線總裁周躍峰表示，第一，在大模型訓練過程中，需要把分散到各個地方的數(shù)據(jù)進行歸集、預處理，然后再把它送給AI大模型。數(shù)據(jù)預處理的過程非常長，統(tǒng)計發(fā)現(xiàn)，上百個TB級的數(shù)據(jù)可能需要大概10天左右的準備時間，這個對于整個系統(tǒng)的高效利用是不利的；第二，多模態(tài)大模型以海量文本、圖片為訓練集，當前海量小文件的加載速度不足100MB/s，訓練集加載效率低；第三，大模型參數(shù)頻繁調(diào)優(yōu)，訓練平臺不穩(wěn)定，平均約2天出現(xiàn)一次訓練中斷，需要Checkpoint機制恢復訓練，故障恢復耗時超過一天；第四，大模型實施門檻高，系統(tǒng)搭建繁雜，資源調(diào)度難，GPU資源利用率通常不到40%。

周躍峰認為，AI大模型在進入各個企業(yè)的時候，實施門檻還是非常高，它需要非常專業(yè)的軟件、硬件甚至是維護工程師來進行實施并進行后續(xù)的維護。同時可以看到今天的大模型和算力的應用尤其是GPU的應用相對還是比較簡單、傳統(tǒng)的裸機系統(tǒng)，GPU資源的利用效率相對來說比較低。

存儲需求上升

“大模型時代，數(shù)據(jù)決定AI智能的高度。作為數(shù)據(jù)的載體，數(shù)據(jù)存儲成為AI大模型的關鍵基礎設施。”周躍峰表示。數(shù)據(jù)存儲成為解決AI大模型發(fā)展瓶頸的關鍵。

周躍峰解釋道：“目前大模型算力成本約占整個成本的25%，而數(shù)據(jù)清洗、預處理等工作，在不算數(shù)據(jù)存儲硬件的情況下，占到成本的22%。從這個角度看，數(shù)據(jù)機器存儲過程，在大模型時代越來越重要。這不僅僅是簡單的數(shù)據(jù)量變大，而且數(shù)據(jù)的處理過程，以及過程中對于硬件性能的要求越來越高。”他認為，隨著大模型出現(xiàn)，數(shù)據(jù)存儲和處理相關領域未來會越來越有前景。

華為蘇黎士研究所數(shù)據(jù)存儲首席科學家張霽也認為，隨著數(shù)據(jù)源日趨豐富，很多企業(yè)開始關注數(shù)據(jù)安全問題，而數(shù)據(jù)存儲是數(shù)據(jù)安全的第一道防線。

為此，華為推出了OceanStor A310深度學習數(shù)據(jù)湖存儲與FusionCube A3000訓/推超融合一體機。

其中，OceanStor A310深度學習數(shù)據(jù)湖存儲，在數(shù)據(jù)準備到斷點接續(xù)，再到整個訓練/推理一條鏈的過程發(fā)力，用近存計算和高性能分布式文件存儲系統(tǒng)，實現(xiàn)從數(shù)據(jù)歸集、預處理到模型訓練、推理應用的AI全流程海量數(shù)據(jù)管理，為企業(yè)解決數(shù)據(jù)底座問題。

FusionCube A3000訓/推超融合一體機面向行業(yè)大模型訓練/推理場景，針對百億級模型應用，可提供拎包入住式的部署體驗。周躍峰表示，通過一體機方式，納入所有軟件，降低企業(yè)使用門檻，實現(xiàn)資源高效利用。“我們也希望通過這個手段，助推中國的AI成為真正的所謂的普惠AI，而不是頭部企業(yè)用的先進工具，而是讓它成為普適性的工具。”

對此，華為分布式存儲領域副總裁韓振興表示：“我們在這方面已經(jīng)籌備了兩三年，因為我們之前就看到了AI的大趨勢。當然我們也確實是沒有預料到它突然爆發(fā)，但我們在很早就進行了籌備。所以當看到大模型開始的時候，便發(fā)布了這兩個新品，它們的性能指標高于整個業(yè)界60%以上。”

（編輯：張靖超校對：燕郁霞）

數(shù)據(jù)決定AI智能的高度存儲成AI時代“新寵”
來源：互聯(lián)網(wǎng) 發(fā)布日期：2023-07-17 16:47:44 瀏覽：12696次

相關內(nèi)容

AiLab云推薦

最新資訊

本月熱點

熱門排行

推薦內(nèi)容

在線客服

熱門欄目HotCates

關于我們

版權(quán)聲明

數(shù)據(jù)決定AI智能的高度 存儲成AI時代“新寵” 來源：互聯(lián)網(wǎng) 發(fā)布日期：2023-07-17 16:47:44 瀏覽：12696次