展會(huì)信息港展會(huì)大全

AI大模型駛向產(chǎn)業(yè)之海,需要高質(zhì)數(shù)據(jù)“河道”引航
來源:互聯(lián)網(wǎng)   發(fā)布日期:2023-12-02 16:34:50   瀏覽:5351次  

導(dǎo)讀:“我們的AI大模型,在萬卡集群上訓(xùn)練,三小時(shí)就出一次錯(cuò)。別笑,這已經(jīng)是世界先進(jìn)水平了!蹦炒涡袠I(yè)峰會(huì)上,一位清華大學(xué)的院士科學(xué)家,講出了AI大模型訓(xùn)練的“大實(shí)話”。 風(fēng)靡全球的AI大模型,是今年毋庸置疑的風(fēng)口,數(shù)量不斷增長,達(dá)到了驚人的水平。“百...

“我們的AI大模型,在萬卡集群上訓(xùn)練,三小時(shí)就出一次錯(cuò)。別笑,這已經(jīng)是世界先進(jìn)水平了!蹦炒涡袠I(yè)峰會(huì)上,一位清華大學(xué)的院士科學(xué)家,講出了AI大模型訓(xùn)練的“大實(shí)話”。

風(fēng)靡全球的AI大模型,是今年毋庸置疑的風(fēng)口,數(shù)量不斷增長,達(dá)到了驚人的水平!鞍亵礌幜鳌敝,大家卻經(jīng)常會(huì)忽略一個(gè)關(guān)鍵問題:AI大模型帶來的數(shù)據(jù)激流,也比想象中更加洶涌。

“三小時(shí)出錯(cuò)一次”,聽起來不可思議的故障率,卻是大模型從業(yè)者要面對的常態(tài),甚至是“優(yōu)等生”。目前業(yè)界的普遍做法,是寫容錯(cuò)檢查點(diǎn)checkpoint。既然三小時(shí)就報(bào)錯(cuò),那就2.5小時(shí)停一次,寫好檢查點(diǎn),把數(shù)據(jù)存起來,再開始訓(xùn)練。一旦出現(xiàn)故障,可以從寫好的檢查點(diǎn)恢復(fù),避免“從頭開始”、全部白干。而檢查點(diǎn)需要存儲的數(shù)據(jù)多,會(huì)耗費(fèi)大量的時(shí)間。該院士團(tuán)隊(duì)基于llama 2架構(gòu)研發(fā)的大模型,數(shù)據(jù)存一次硬件,就需要十個(gè)小時(shí),存儲效率直接影響了開發(fā)進(jìn)度。

如果說大規(guī)模的異構(gòu)數(shù)據(jù),是肆意奔涌的激流,存儲系統(tǒng)就是承載著數(shù)據(jù)流量的河道,其寬闊堅(jiān)固程度直接決定了數(shù)據(jù)是否會(huì)淤塞甚至停滯,

贊助本站

人工智能實(shí)驗(yàn)室
相關(guān)內(nèi)容
AiLab云推薦
推薦內(nèi)容
展開

熱門欄目HotCates

Copyright © 2010-2024 AiLab Team. 人工智能實(shí)驗(yàn)室 版權(quán)所有    關(guān)于我們 | 聯(lián)系我們 | 廣告服務(wù) | 公司動(dòng)態(tài) | 免責(zé)聲明 | 隱私條款 | 工作機(jī)會(huì) | 展會(huì)港