本文作者:李笑寅
來源:硬AI
全球數(shù)據(jù)中心正在面臨放緩困境。
如火如荼的AI浪潮推升了數(shù)據(jù)中心的建設(shè)狂潮,但隨著大模型對算力的要求每日俱增,數(shù)據(jù)中心升級的腳步似乎要跟不上持續(xù)強勁的AI需求了。
知名科技媒體The Information近日報道稱,由于高質(zhì)量數(shù)據(jù)吃緊以及昂貴的數(shù)據(jù)中心建造成本,AI大模型的升級速度正在放緩,可能反過來拖累行業(yè)整體和數(shù)據(jù)中心建設(shè)的進展。
與此同時,馬斯克正大舉發(fā)力數(shù)據(jù)中心建設(shè),在“鯰魚效應(yīng)”(指引入強者后,激發(fā)弱者變強)下,一場更高難度的大型數(shù)據(jù)中心競賽即將打響,數(shù)據(jù)中心的建設(shè)狂潮還能否延續(xù)?
“數(shù)據(jù)饑餓”限制大模型迭代速度
據(jù)OpenAI員工向The Information表示,GPT迭代放緩的原因之一是:可供大模型預(yù)訓(xùn)練所需的高質(zhì)量文本和其他數(shù)據(jù)正在不斷減少。
這些人士表示,在過去幾年中, LLMs使用來自網(wǎng)站、書籍和其他來源的公開文本和其他數(shù)據(jù)進行預(yù)訓(xùn)練過程,而如今,這類數(shù)據(jù)幾乎已被“榨干”。
據(jù)悉,在下一代旗艦?zāi)P汀癘rion”中,OpenAI雖然已經(jīng)開始嘗試在訓(xùn)練階段引入AI生成數(shù)據(jù),但同時又面臨一個新問題,即Orion最終可能在某些方面與舊型號的大模型相似。
同時,數(shù)據(jù)中心昂貴的建造成本可能也難以支撐起迭代所需的龐大算力要求,OpenAI研究員Noam Brown在上個月的TEDAI會議上表示,開發(fā)更先進的模型在經(jīng)濟上可能并不可行。
“我們真的要訓(xùn)練花費數(shù)千億美元或數(shù)萬億美元的模型嗎?有時候,擴展(scaling laws)的范式也會崩潰!
此外,由于大模型迭代升級對服務(wù)器集群規(guī)模的要求越來越高,所需的功率也呈倍數(shù)級提升,散熱問題正越來越成為數(shù)據(jù)中心升級的一大阻礙。
馬斯克發(fā)力AI,OpenAI等擔心被“后來居上”
馬斯克為xAI兌現(xiàn)“最大超算中心”的承諾的速度之快,已經(jīng)向OpenAI等頭部競爭對手成功制造了焦慮。
在今年7月“GenAI Summit SF 2024”人工智能峰會上,馬斯克旗下的AI初創(chuàng)公司xAI宣布,計劃在幾個月內(nèi)建成一個約10萬H100芯片的數(shù)據(jù)中心,號稱是“世界上最強大的AI訓(xùn)練集群”,旨在訓(xùn)練更強大的AI模型。
同月,馬斯克社交平臺“X”上宣布,xAI公司已開始在“Supercluster”上進行訓(xùn)練,該集群由10萬個液冷英偉達的H100 GPU組成,在單個遠程直接數(shù)據(jù)存。≧DMA)結(jié)構(gòu)上運行。
馬斯克的豪賭,基于“縮放定律”(scaling laws):數(shù)據(jù)中心規(guī)模越大、訓(xùn)練出來的大模型就越好。
據(jù)悉,“Supercluster”的集群規(guī)模是Meta等科技巨頭已有數(shù)據(jù)中心規(guī)模的數(shù)倍。對比來看,OpenAI訓(xùn)練GPT4,需要用到25000塊A100 GPU,僅為Supercluster的1/20。
并且,據(jù)英偉達方面向媒體透露,該數(shù)據(jù)中心僅用122天就建成,而根據(jù)其CEO黃仁勛的說法,這種規(guī)模的GPU集群通常需要三年的時間來規(guī)劃和設(shè)計,還額外需要一年的時間才能投入使用。
盡管xAI的人工智能工具仍遠遠落后于OpenAI,但他構(gòu)建數(shù)據(jù)中心的速度引起了Sam Altman的警惕。據(jù)一位知情人士向媒體透露,馬斯克在X上官宣了Supercluster的建成后,Altman與微軟的基礎(chǔ)設(shè)施高管發(fā)生了爭執(zhí),擔心xAI的發(fā)展速度比微軟快。