這可能是國內(nèi)一些科技公司代價最大的一段彎路。作者|李小東
直到現(xiàn)在,算力仍然被看作是制約國內(nèi)AI發(fā)展的主要因素。
為了解決這一問題,尤其是ChatGPT出現(xiàn)后,智算中心被視為AI時代如同水和電一般的新基建,在全國各地落地開花。截至今年上半年,全國建成和在建的智算中心超過250個,有媒體報道,僅今年前七個月,就涌現(xiàn)出了140個新的中標項目。
建設這些智算中心背后涉及的公司和機構,除了城投、運營商、金融企業(yè)和一些央國企,大型的互聯(lián)網(wǎng)云計算公司,比如華為云、阿里云、騰訊云,甚至還有些從房地產(chǎn)等行業(yè)跨界過來的公司。
但另一組數(shù)據(jù)同樣值得關注:IDC指出,以企業(yè)為主要用戶的通用算力中心利用率,目前僅為10%-15%;之前有中科院院士公開表示,一些重量級的智算中心,現(xiàn)在大多甚至都處于閑置狀態(tài)。
從算力不足,到所謂的算力“過剩”,核心問題實際上并沒有完全解決。這就意味著,動輒投資數(shù)十億甚至過百億的大項目,不僅沒有發(fā)揮出應該有的價值,還成了這場AI熱潮中代價最高的新難題。
01
算力供給風起云涌
不少人對“智算中心”這個詞可能還感到陌生。但它其實不算個新詞,可以理解為更高階的“計算中心”。
在計算機科學興起之初,由于計算設備昂貴且稀缺,許多機構和組織會建立專門的計算中心,來集中提供高性能的計算資源和服務。隨著計算機技術的不斷進步和普及,從最初的大型機時代到如今的云計算、邊緣計算,計算中心的形式和功能也發(fā)生了變化。
相較于傳統(tǒng)算力中心,智算中心在硬件層面使用GPU替代CPU,GPU并行處理在面對大規(guī)模數(shù)據(jù)集運算時計算效率更高;另一方面,智算中心在軟件層面部署了AI框架,能將計算任務調(diào)配給不同的計算平臺,從而實現(xiàn)最大的效率。
按應用角度來看,傳統(tǒng)計算中心更多地以存儲數(shù)據(jù)和提供互聯(lián)網(wǎng)服務為主;而智算中心是專門給AI應用提供算力和數(shù)據(jù)存儲。
三年前,在推動產(chǎn)業(yè)數(shù)字化轉型的背景下,國內(nèi)首個智算中心落地武漢,總投資約4.6億元,由于這類項目的建設過程中,通常會采用預制模塊化機房和整柜交付的方式,所以實際建設周期很短,僅僅6個月就能夠建成。
當時一期的建設規(guī)模為100P FLOPS的AI算力,由數(shù)千顆騰AI處理器組成,算力峰值性能相當于5萬臺高性能PC機。這是個怎樣的概念呢?以天文探索的場景為例,普通算力需要169天才能找到的特定星星,智算中心只用不到100秒。
新眸統(tǒng)計202以來建成的智算中心,從以地方主導的項目,如武漢、合肥、南京、京津冀等,到后來以商湯、阿里云、百度云等大廠為主開始投資運營,投入資金、算力規(guī)模整體呈現(xiàn)出明顯逐階上漲的趨勢。
比如2022年投入運營的“商湯科技人工智能智算中心”,一期投入56億元,機柜數(shù)量5000個,峰值訓練算力達到3740P FLOPS;同年后來阿里云的張北智算中心上線,算力規(guī)模達到12000P FLOPS,總投入180億元。
過去的一年里,智算中心以量出圈。
具體表現(xiàn)在,一些四五線城市的智算中心拔地而起,比如甘肅慶陽、安徽宿州、山東棗莊等。相比大城市,這些城市土地資源豐富且價格低廉,渴望經(jīng)濟轉型,并帶動周邊產(chǎn)業(yè)發(fā)展,因此對智算中心給予如稅收優(yōu)惠和資金補貼等支持,并且審批流程更簡化,建設進度更快。
另一方面,智算中心需要實現(xiàn)算力的標準化、服務化,達到隨用隨取,類似于傳統(tǒng)公有云服務。這意味著智算中心不僅僅是提供硬件資源,而是要轉型為提供算力服務,因此很多企業(yè),甚至是傳統(tǒng)企業(yè)都涌入了跨界做算力租賃的賽道。
同花順數(shù)據(jù)顯示,截至目前,算力租賃概念股已經(jīng)多達108家。例如,主營彩票印刷業(yè)務的鴻博股份,是A股首家宣布跨界算力的上市公司;蓮花健康主業(yè)是做味精的,也采購了大量英偉達GPU開展算力租賃業(yè)務。
02
算力租賃,一個新的風口賽道
簡單來說,算力租賃就是當你在需要強大算力來完成某個項目時,不去自己購買昂貴的計算設備,而是去租用。服務商根據(jù)需求,搭建好所需的計算環(huán)境或系統(tǒng),然后通過簽訂合同的方式,把這套計算能力租給你用。
客戶付的是租金,用完之后這套設備的所有權還是歸服務提供方,也不需要自己去維護或者買下這些設備。通常情況下,算力租賃有四種收費方式,按小時、按算力規(guī)模、按使用量和套餐計費。
具體來看,一般小型科創(chuàng)公司在做一些科研項目、短期的數(shù)據(jù)處理任務等,對算力的使用時間不確定,按小時計費就可以靈活控制成本。比如SFCompute公司提供按小時計費的服務,用戶可以根據(jù)自己的需求租用H100 GPU,價格還很便宜。
按算力規(guī)模計費,通常涉及到服務器性能、GPU數(shù)量等方面的評估,性能越好、效率越高,服務租金也更高。其次還有按照數(shù)據(jù)處理量、網(wǎng)絡流量的使用情況來計費的方式。針對一些大型企業(yè)或有特殊需求的客戶,提供商可以根據(jù)客戶的具體要求定制個性化的套餐。
為什么要租?
眾所周知,這兩年大模型訓練、微調(diào)、推理需求急劇增加,但關鍵在于,AI應用在不同的開發(fā)階段,對算力的需求也不同。在開發(fā)周期中,需要大量的訓練算力;當模型開發(fā)完成上線后,就不再需要訓練算力而是推理算力。
當下算力租賃下的迫切需求,更多是源于模型訓練。至于需要多少,參考GPT-4訓練過程中A100卡數(shù)量達到萬張量級?紤]到服務器采購與租金成本,以及對算力的彈性需求,調(diào)試、維護成本,工程師研發(fā)時間成本,算力租賃成為大多數(shù)大模型廠商的最佳選擇。
然而,在目前的算力租賃市場,競爭格局呈現(xiàn)戶參與者眾多,但格局分散的特點。傳統(tǒng)的云服務提供商,高端算力資源相對充足,但對外租賃的比例較少。具備IDC建設運營能力的企業(yè),比如浪潮信息、中科曙光,以及跨行過來做算力的企業(yè)也越來越多。
另一個問題,國內(nèi)在近幾年的算力投入下,與國外的差距不斷縮小,甚至單從規(guī)模上看,已經(jīng)到了全球頂尖的水準,尤其是智算中心的儲備,也遠非供不應求的狀態(tài)。
那么,在這種情況下,為什么還會有那么多公司爭相做租賃生意?
事實上,在供需方面,國內(nèi)的算力規(guī)模雖然增長,但面向AI、高性能計算的算力缺口一直存在。根據(jù)賽迪顧問的數(shù)據(jù),2023年國內(nèi)智能算力需求達123.6EFLOPS,但供給僅有57.9EFLOPS,不到一半。
另一方面,算力需求未被云計算大廠承接住。據(jù)業(yè)內(nèi)人士指出,主要是因為大模型訓練需高性能GPU集群,而大廠提供的多是單節(jié)點服務,缺乏節(jié)點間超高帶寬互聯(lián)基礎設施,無法滿足需求。
再加上建設新集群成本高,現(xiàn)有基礎設施又無法重復利用,并且大廠更關注在單節(jié)點可用性與可靠性,在高性能集群業(yè)務上并無優(yōu)勢,要不然也不會有其他算力租賃公司的發(fā)展機會。
據(jù)東吳證券研報,算力租賃公司的毛利率約為40%左右,凈利率約為20%左右,最大的一個門檻就是資金用來硬件采購、場地租賃、運維團隊組建;但技術門檻并不高,企業(yè)可以通過與技術供應商合作、引進專業(yè)人才等方式快速搭建和運營大規(guī)模的算力中心。
對于一些主業(yè)經(jīng)營承壓、急于尋找新盈利增長點的企業(yè)來說,這個新賽道的吸引力巨大。
03
智算中心的背后邏輯
2023年,蓮花控股成立蓮花紫星開展算力租賃業(yè)務。公告顯示,算力項目預計總投入約 2.9 億元。今年前8個月,蓮花紫星營業(yè)收入超過3515萬元,但凈利潤為-398.13萬元。整體仍處于虧損,主要原因是設備的折舊及利息費用影響金額較大,人員成本支出占比較高,尚未發(fā)揮出規(guī)模效應。
短時間內(nèi)賺不到錢,并不是說這不是一門好生意。通過梳理開展算力租賃的A股公司的財務數(shù)據(jù)發(fā)現(xiàn),大部分的確都處在增收不增利的狀態(tài),極少數(shù)實現(xiàn)盈利,但這些與“算力”概念相關的企業(yè),最直接的收獲,可能就是短期內(nèi)幾乎都出現(xiàn)過明顯上漲的股價。
如果要問算力租賃還有哪些不確定性,市場需求、政策變化、技術水平,以及交付和供應鏈、國產(chǎn)替代等等,都是重要的影響因素。不過對于當下涉足這個賽道的企業(yè)來說,更關鍵的問題是真正的know how。
智算中心并非買了一堆GPU后就能靠租售躺賺。單就硬件部署,要解決的就包括:高性能的AI芯片、異構架構設計、高速低延遲的網(wǎng)絡、存儲系統(tǒng)、安全配置、監(jiān)控管理、液冷裝置等等復雜步驟。
除此以外,訓練算力的租賃對象主要是大模型公司,那么租賃公司,尤其是跨行的企業(yè),怎么獲取這些客戶資源,獲取穩(wěn)定的客戶支持?這些問題在實操的過程中更難解決。截至目前,已經(jīng)陸續(xù)有幾家上市公司放棄了算力租賃業(yè)務。
那回到開頭的話題,智算中心的ROI過低,什么原因?
除了供給與需求的不匹配,地區(qū)間的經(jīng)濟發(fā)展水平和產(chǎn)業(yè)結構差異,比如東部地區(qū)算力需求旺盛而供給相對不足之外,最早撇下的泡沫,是那些在缺乏充分市場調(diào)研的情況下,盲目投入智算中心建設的公司。
其次,結合算力租賃市場當下的窘境,智算中心的高效運行不僅依賴于高性能的硬件,還需要軟件層面的優(yōu)化和協(xié)調(diào)。智算不僅僅是卡的問題,而是一個軟硬件協(xié)調(diào)的系統(tǒng)。當軟件能力不夠時,卡自身的發(fā)揮也會受限,導致用卡效率不高。
智算中心不景氣,直接影響了算力租賃市場的低迷,反過來,算力資源無法得到有效利用,一些企業(yè)因缺乏應用場景而閑置算力資源,造成浪費,如此循環(huán)。
值得注意的是,囿于國內(nèi)外技術差距以及芯片卡脖子,國產(chǎn)替代越發(fā)的被反復提及。但在這個過程中,最難解決的是應用生態(tài)的問題。
打個比方,如果國內(nèi)芯片廠商在技術上采取封閉式模式,廠商通過高價設備銷售、輔助運營服務等方式實現(xiàn)了商業(yè)利益的最大化,雖然能夠集中力量辦大事,實現(xiàn)端到端的控制。
但封閉性也會導致可用的開源軟件、商用軟件極少,用戶自有軟件的遷移適配成本極高,一些用戶的軟件無法適配,依此建立的智算中心只能處于閑置狀態(tài)。