落地三問，詳解京東云大模型服務全家桶
來源：互聯(lián)網(wǎng) 發(fā)布日期：2023-09-27 09:47:11 瀏覽：13521次

導讀：京東云打造的數(shù)智算力矩陣，從硬件基礎設施到智算集群，再到MaaS服務，提供了一站式的大模型服務能力。文｜徐鑫趙艷秋編｜游勇大模型比拼已經(jīng)走入落地應用的戰(zhàn)...

京東云打造的數(shù)智算力矩陣，從硬件基礎設施到智算集群，再到MaaS服務，提供了一站式的大模型服務能力。

文｜徐鑫趙艷秋

編｜游勇

大模型比拼已經(jīng)走入落地應用的戰(zhàn)常從算力、存儲等基礎設施，到使用門檻和工具平臺，實力雄厚的廠商們正在全方位參與大模型的競爭。

9月26日，京東云西安城市大會上，京東云發(fā)布數(shù)智算力全矩陣，包含“阿爾法”智能算力模塊、言犀AI開發(fā)計算平臺和算力智能調(diào)度等產(chǎn)品。這是京東云在大模型領域，面向產(chǎn)業(yè)客戶和應用需求，在全棧式數(shù)智基礎設施層面的階段性答卷。

業(yè)界觀察，京東云正提供從硬件基礎設施、到智算集群，再到MaaS服務，一站式的大模型服務能力，從更強算力、更大存力、更加易用和更低門檻等方向發(fā)力，推動大模型在產(chǎn)業(yè)里的落地應用。

如何滿足暴漲的算力需求？

大模型的快速推進，很多企業(yè)開始規(guī)劃或下場建設智算型基礎設施。最近一個大消息是某龍頭銀行，下單采購萬張GPU卡，為自己的大模型部署和落地做規(guī)劃。

大模型部署對AI服務器需求很高，AI服務器中使用了大量高功率CPU、GPU芯片，致使匹配高功率、高算力的基礎設施成為這一輪的投資重點。一位數(shù)據(jù)中心人士告訴數(shù)智前線，互聯(lián)網(wǎng)客戶、銀行、運營商，包括一些城投集團，都在小規(guī)模嘗試部署這類新型基礎設施。比如最近一家運營商的省分公司，特別預留出一個獨立區(qū)域，嘗試部署這類算力。

“我感覺后面會有指數(shù)級的爆發(fā)增長。”上述人士觀察，“在ChatGPT推出后，由于大模型的增長，歐美市場對這類基礎設施的需求已呈現(xiàn)400%~500%的增長。國內(nèi)即便稍微慢一點，也在迅速跟進中。”

根據(jù)近期國內(nèi)市場情況觀察，預計今年第四季度將會有一些小規(guī)模的算力中心項目率先落地；到明后年將會逐步有更大規(guī)模的算力中心交付部署。目前在北上廣深核心區(qū)域，儲備建設1000P以上算力中心需求陸續(xù)涌現(xiàn)，同時一些廠商考慮到后續(xù)運營成本的壓力，也在考慮將算力中心部署到烏蘭察布、中衛(wèi)等西部地區(qū)。

面對算力中心需求的不斷增多，一個新的問題隨之出現(xiàn)，基礎設施功耗隨著算力能力的提高而大幅提升。目前Intel、AMD 主流系列CPU處理器功耗已達到 350W/400W，機柜功耗密度已接近12KW；預計未來3年標準2U服務器最大功耗將達1.5KW，單機柜功耗密度將會突破20KW以上。

而隨著大模型的不斷商業(yè)化部署，對于 AI 服務器的需求將會快速提升，AI 服務器中大量使用高功率 CPU、GPU芯片，帶動整臺 AI 服務器功耗走高，目前用于訓練 ChatGPT 的 NVIDIA H800 服務器的最大功耗已達 10kW，下一代GPU服務器功耗將會出現(xiàn)飆升發(fā)展趨勢，很快 AI 集群算力密度將會達到 20-50kW/柜。

與此同時NVIDIA H800 單卡最大功耗已至 700W，將會加快突破傳統(tǒng)風冷系統(tǒng)散熱能力范疇，GPU服務器必將很快迎來液冷時代，而采用液冷GPU服務器機柜密度將飆升達到100KW/柜以上。

隨著功率密度的快速上升，對數(shù)據(jù)中心的PUE要求也愈發(fā)嚴格，根據(jù)國家及各省市出臺的相關政策，要求控制PUE達到1.3以下，超大型數(shù)據(jù)中心PUE要求控制在1.15以下。

在這樣的需求背景下，京東云率先推出了“阿爾法”智能算力模塊解決方案，包括風冷型及液冷型智能算力模塊雙系列產(chǎn)品。與傳統(tǒng)數(shù)據(jù)中心機房模塊相比，支持更高的功率密度，滿足算力密度從20kW到100kW/柜的部署需求，同時算力模塊PUE制冷因子（CLF）可控制在0.1以下。其中，風冷型智能算力模塊主要應用于近期采用風冷CPU/GPU服務器的高功率高算力需求場景；液冷型智能算力模塊則更多著眼未來一到三年的液冷服務器大規(guī)模應用部署需求。

因此，“阿爾法”智能算力模塊既可在現(xiàn)有數(shù)據(jù)中心高密度擴容及綠色改造中部署，同時也可以在未來大規(guī)模算力中心部署交付使用。

“阿爾法”智能算力模塊已在京東集團內(nèi)部的算力集群中規(guī)�；渴�，支持包括靈犀大模型等業(yè)務應用，下半年在外部如智能駕駛、智能制造等行業(yè)標桿性項目落地部署，預計明年將會進入大規(guī)模的產(chǎn)品交付部署期。

除了底層基礎設施，京東的智算集群技術也在不斷開放給外界。計算集群尤其需要在網(wǎng)絡和存儲上進行革新。今年5月，京東對外推出了分布式統(tǒng)一存儲系統(tǒng)云海，這是京東歷經(jīng)10余年，在自身復雜場景上完全自主研發(fā)，提煉與沉淀的能力，不僅滿足各行業(yè)對云盤高性能、低延時的業(yè)務訴求，還通過打造存算分離技術架構，解決企業(yè)存儲成本逐年攀升、存儲集群管理困難等問題。

數(shù)智前線獲悉，目前，云海已覆蓋零售、物流、金融、健康、工業(yè)等行業(yè)的不同業(yè)務應用場景，為客戶節(jié)省整體基礎設施成本超30%。

此外，針對大模型訓練所需的異構算力池化能力，京東的云艦異構資源池化解決方案，在原有混合多云CPU算力池化能力基礎上，增加了針對AI應用所需的調(diào)度管理能力，包括卡管理、節(jié)點管理、異構資源調(diào)度管理等，GPU利用率提升70%，全面推動大模型降本。

客群能力不一，如何降低使用門檻？

言犀大模型發(fā)布后，在和大模型的內(nèi)外部用戶的交流中，京東云IaaS產(chǎn)品研發(fā)部負責人龔義成和他的團隊察覺到，不同類型的企業(yè)和開發(fā)者，對大模型的需求和使用方式有差異。

比如，一些用戶希望調(diào)用API的方式來訓練自己的模型，有客戶想基于開源的模型來做場景驗證和測試。也有傳統(tǒng)行業(yè)客戶，連基礎調(diào)用API的能力都不具備，他們則在嘗試從應用層接入大模型的能力。

多樣化的需求下，模型提供商們需要更有針對性地服務不同客群，降低大模型落地門檻。這一背景下，京東云在西安城市峰會上發(fā)布的言犀AI開發(fā)計算平臺，將開發(fā)大模型的底層能力解耦，為大模型開發(fā)和行業(yè)應用落地，提供了定制化、“豐儉由人”的解決方案。

具體而言，言犀平臺有三類交付方式，保障不同類型客戶需求。一類是經(jīng)典的API調(diào)用言犀MaaS服務，也可以使用平臺支持的其他主流開源模型。二是公有云SaaS版，平臺提供一站式模型開發(fā)、訓練和部署的能力，支持那些沒有API調(diào)用能力的用戶，以最小化的成本實現(xiàn)行業(yè)大模型的開發(fā)和部署。三是對數(shù)據(jù)安全有特殊要求的客戶，可以采用私有化交付版本，實現(xiàn)數(shù)據(jù)完全本地化。這三類服務形式下，基本滿足了技術儲備不一、行業(yè)背景各異的客戶對使用大模型能力的需求。

業(yè)界對言犀AI開發(fā)計算平臺的到來并不意外。今年7月，言犀大模型發(fā)布之際，京東探索研究院院長、京東科技智能服務與產(chǎn)品部總裁何曉冬列過時間表，稱下半年京東云將更加關注怎么使用大模型，并推動它真正落地行業(yè)。

但隨著言犀AI開發(fā)計算平臺發(fā)布，外界也在好奇，相比其他平臺的工具鏈，它的能力的差異性在何處。

京東集團技術委員會主席、京東云事業(yè)部總裁曹鵬在演講中提到，專業(yè)的知識和能力沉淀是言犀AI開發(fā)計算平臺的一大特點。京東重點選擇了自身有深厚積累的產(chǎn)業(yè)優(yōu)勢，打造大模型，轉(zhuǎn)化成知識庫，為產(chǎn)業(yè)創(chuàng)造價值。

業(yè)界人士觀察，隨著大模型深入到行業(yè)場景，各大廠商最終會基于過往能力積淀和深耕的領域，形成差異化的能力和行業(yè)布局。而京東言犀AI開發(fā)計算平臺也走的是這條路徑。

另外，京東言犀AI開發(fā)計算平臺也順應了當下行業(yè)用戶開源、閉源兩條腿走路的趨勢，支持對主流開源大模型的調(diào)用。不過，龔義成介紹，他們在開源模型的提供數(shù)量上有節(jié)制，到今年年底，平臺將擇優(yōu)提供20～30款基礎模型供用戶選擇。

通過低代碼等工具鏈降低大模型的使用門檻，是言犀AI開發(fā)計算平臺的另一大特點。

龔義成介紹，他和團隊在與內(nèi)部客戶交流中發(fā)現(xiàn)了應用開發(fā)者們的差異化需求。最初，言犀平臺重點支撐算法開發(fā)者的需求，這個群體有能力在平臺上做代碼調(diào)整和算法調(diào)優(yōu)。但很多客戶內(nèi)部還有幾千名應用開發(fā)者，他們本身不懂算法，又想盡快試一試大模型。

言犀AI開發(fā)計算平臺的操作界面中增加了低代碼版本。應用開發(fā)者們只需要上傳數(shù)據(jù)，選擇不同的模型，在可視化的界面上配置參數(shù)，就能完成訓練。“這有利于大模型在公司內(nèi)部大規(guī)模，基于應用側(cè)推廣”，龔義成說。

京東云還從共性角度沉淀了大模型應用落地的困難，精選京東技術團隊多年來積累開發(fā)的100多種訓練和推理優(yōu)化工具，比如支持斷點續(xù)訓等，讓企業(yè)用戶能更高效訓練和部署模型。面對行業(yè)普遍面臨的數(shù)據(jù)缺乏難題，言犀平臺也提供了多款數(shù)據(jù)集供用戶使用。

另外，當下行業(yè)里也有不少企業(yè)已經(jīng)在構建模型社區(qū)，推動生態(tài)建設。數(shù)智前線獲悉，京東目前已經(jīng)有內(nèi)部的社區(qū)在運作，服務于內(nèi)部的幾千名AI開發(fā)工作者，“內(nèi)部把社區(qū)的流程、模式跑通，才會對外開放這個社區(qū)。“龔義成說。

缺乏爆款，大模型如何證明價值

一位電力行業(yè)的數(shù)字化服務商告訴數(shù)智前線，當下大模型ToB亟需一個爆款。他認為，爆款意味著解決了具體的行業(yè)痛點，滿足了需求，市場就會快速跟進，這將推動大模型真正走進千行百業(yè)。

幾天前，紅杉美國在一篇報告中也指出，當下這波的生成式AIGC浪潮下，生成式AI最大的問題是證明價值。文中提到，“2000億美元的問題是：你打算使用所有這些基礎設施來做什么？它如何改變?nèi)藗兊纳睿?rdquo;

該機構列了一組數(shù)據(jù)來說明當下的大模型產(chǎn)品需要證明價值。比如，從DAU指標看，好的消費級應用有60～65%的DAU/MAU，WhatsApp的為85%。相比之下，生成式AI應用的中位數(shù)為14%。

這些信息意味著，當下在ToB的場景里，大模型需要積極從應用層面，向整個產(chǎn)業(yè)展示價值，推動它向更廣闊的領域推廣和使用。實際上，廠商們也已經(jīng)在積極挖掘和探索內(nèi)外部的應用場景，從知識管理到數(shù)智助手等多個場景發(fā)力。

京東云從應用層發(fā)力，強調(diào)產(chǎn)品的高可用，真正有端到端的價值。何曉冬此前接受采訪時就提到，京東更關注技術能力是否能夠形成有機的載體，能把某個產(chǎn)品在具體場景應用起來。

在京東內(nèi)部，大模型在零售、健康和金融等多個領域都已經(jīng)應用，曹鵬在演講中提及，每天言犀調(diào)用的次數(shù)達到了幾百億次。

例如，在零售領域里，電商業(yè)務的營銷和客服等場景都對大模型需求迫切，接入大模型后也產(chǎn)生了切實的效果。大模型升級后的智能客服，提升了智能交互的質(zhì)量，減少了機器轉(zhuǎn)人工的比例。尤其是對長尾用戶意圖的感知，相比過去傳統(tǒng)的識別，錯誤降低了一半以上。

在健康領域，大模型和京東健康的場景結合，探索出了健康助手及輔助診療等應用。在這一場景里，既有服務個人用戶的個人健康助手和隨訪管理，幫助用戶制定鍛煉計劃；也能服務醫(yī)生、藥師，充當診療助手、科研助理，完成醫(yī)療文案書寫和診療服務調(diào)度等任務。應用大模型后，健康助手及輔助診療有效提升了診療有效性、專業(yè)安全性。

在內(nèi)部的關鍵場景完成了歷練和實踐后，京東的大模型能力也開始與外部共創(chuàng)，服務產(chǎn)業(yè)。

最近，京東云已經(jīng)基于大模型的能力，升級了零售全場景解決方案，其中包含了智能營銷、智能服務、智能供應鏈三大能力，可服務內(nèi)容生成、營銷策劃、供應鏈優(yōu)化和產(chǎn)品設計、消費洞察等若干場景。比如，直播的文字風格跟商品介紹的風格不一樣，需要進行口語化的風格轉(zhuǎn)換。大模型的能力就非常擅長這一任務。

一些企業(yè)已經(jīng)體驗到了大模型加持后智能營銷的效果。9月26日的京東云城市大會西安站上，聯(lián)想中國區(qū)消費KA內(nèi)容營銷負責人孫學軍介紹，聯(lián)想從2022年開始使用言犀多模態(tài)數(shù)字人打造的虛擬主播，減少了搭建實體直播間和培養(yǎng)主播的成本。同時，24小時值守的虛擬主播還能提升用戶端的體驗，讓用戶無論何時進店都能得到服務。目前從效果看，言犀多模態(tài)數(shù)字人主播的日成交金額已經(jīng)達到了真人主播的2.3倍，每小時成交金額達到真人主播的45%，成本不到十分之一。

在金融領域，京東金融的“智能選基”產(chǎn)品也將全面服務于金融機構。在政務、健康、工業(yè)、數(shù)字人直播等領域，京東云的能力也都開始對外輸出。

從應用層發(fā)力，內(nèi)部淬煉，外部開放，京東言犀大模型及其背后的數(shù)智算力矩陣在這個過程里，不僅自身的能力在不斷迭代升級，也向行業(yè)展示了其大模型的產(chǎn)業(yè)價值。這是京東云探索大模型落地的務實路徑。

當下，大模型被認為是一場幾百年一遇的產(chǎn)業(yè)機會，極大提升了信息的交互和傳播效率。京東CEO許冉此前演講中指出，大模型的價值=算法×算力×數(shù)據(jù)×產(chǎn)業(yè)厚度的平方。大模型正逐漸從聊天工具發(fā)展成了一個生產(chǎn)力工具，在深刻改變產(chǎn)業(yè)鏈的方方面面。

而在大模型逐漸走向千行百業(yè)的過程里，京東云正從負責任的產(chǎn)業(yè)供應鏈角度出發(fā)，從硬件基礎設施到智算集群，再到MaaS服務以及應用落地等多個層面，降低大模型應用的門檻，讓產(chǎn)業(yè)各界去共享大模型時代的紅利，釋放社會價值。