“我們的AI大模型,在萬卡集群上訓(xùn)練,三小時(shí)就出一次錯(cuò)。別笑,這已經(jīng)是世界先進(jìn)水平了!蹦炒涡袠I(yè)峰會(huì)上,一位清華大學(xué)的院士科學(xué)家,講出了AI大模型訓(xùn)練的“大實(shí)話”。
風(fēng)靡全球的AI大模型,是今年毋庸置疑的風(fēng)口,數(shù)量不斷增長,達(dá)到了驚人的水平!鞍亵礌幜鳌敝,大家卻經(jīng)常會(huì)忽略一個(gè)關(guān)鍵問題:AI大模型帶來的數(shù)據(jù)激流,也比想象中更加洶涌。
“三小時(shí)出錯(cuò)一次”,聽起來不可思議的故障率,卻是大模型從業(yè)者要面對的常態(tài),甚至是“優(yōu)等生”。目前業(yè)界的普遍做法,是寫容錯(cuò)檢查點(diǎn)checkpoint。既然三小時(shí)就報(bào)錯(cuò),那就2.5小時(shí)停一次,寫好檢查點(diǎn),把數(shù)據(jù)存起來,再開始訓(xùn)練。一旦出現(xiàn)故障,可以從寫好的檢查點(diǎn)恢復(fù),避免“從頭開始”、全部白干。而檢查點(diǎn)需要存儲的數(shù)據(jù)多,會(huì)耗費(fèi)大量的時(shí)間。該院士團(tuán)隊(duì)基于llama 2架構(gòu)研發(fā)的大模型,數(shù)據(jù)存一次硬件,就需要十個(gè)小時(shí),存儲效率直接影響了開發(fā)進(jìn)度。
如果說大規(guī)模的異構(gòu)數(shù)據(jù),是肆意奔涌的激流,存儲系統(tǒng)就是承載著數(shù)據(jù)流量的河道,其寬闊堅(jiān)固程度直接決定了數(shù)據(jù)是否會(huì)淤塞甚至停滯,