當(dāng)前位置：人工智能實(shí)驗(yàn)室> 科技新聞 > 計(jì)算效率提升超60倍！中國(guó)公司杉數(shù)科技用GPU芯片開(kāi)啟運(yùn)籌學(xué)新的“大航海時(shí)代”｜鈦媒體焦點(diǎn)

計(jì)算效率提升超60倍！中國(guó)公司杉數(shù)科技用GPU芯片開(kāi)啟運(yùn)籌學(xué)新的“大航海時(shí)代”｜鈦媒體焦點(diǎn)
來(lái)源：互聯(lián)網(wǎng) 發(fā)布日期：2024-01-02 10:40:34 瀏覽：213351次

導(dǎo)讀：H100 GPU（圖片來(lái)源：NVIDIA官網(wǎng)）數(shù)周之前，芝加哥大學(xué)商學(xué)院的魯海昊教授發(fā)現(xiàn)，原本傳統(tǒng)依賴英特爾/AMD CPU（中央處理器）芯片進(jìn)行計(jì)算的數(shù)學(xué)規(guī)劃求解器（Solver，下稱求解器），如今卻可以突破技術(shù)瓶頸。具體來(lái)說(shuō)，魯海昊教授團(tuán)隊(duì)通過(guò)實(shí)驗(yàn)發(fā)現(xiàn)，求解器...

H100 GPU（圖片來(lái)源：NVIDIA官網(wǎng)）

數(shù)周之前，芝加哥大學(xué)商學(xué)院的魯海昊教授發(fā)現(xiàn)，原本傳統(tǒng)依賴英特爾/AMD CPU（中央處理器）芯片進(jìn)行計(jì)算的數(shù)學(xué)規(guī)劃求解器（Solver，下稱“求解器”），如今卻可以突破技術(shù)瓶頸。

具體來(lái)說(shuō)，魯海昊教授團(tuán)隊(duì)通過(guò)實(shí)驗(yàn)發(fā)現(xiàn)，求解器能夠通過(guò)英偉達(dá)GPU（圖形處理器）和CUDA庫(kù)函數(shù)，設(shè)計(jì)高效的數(shù)學(xué)規(guī)劃算法cuPDLP來(lái)求解超大規(guī)模問(wèn)題，并體現(xiàn)出了計(jì)算優(yōu)越性，其研發(fā)的cuPDLP軟件（Julia版本）也驗(yàn)證了這一點(diǎn)。而該研究成果日前發(fā)表在arxiv上。

此后，魯海昊團(tuán)隊(duì)與斯坦福大學(xué)博士、杉數(shù)科技首席科學(xué)家葛冬冬教授團(tuán)隊(duì)進(jìn)行了緊密合作：在最頂級(jí)的計(jì)算設(shè)施，英偉達(dá)GPU H100多顯卡集群上，團(tuán)隊(duì)對(duì)自己研發(fā)的cuPDLP-C求解軟件（C語(yǔ)言版本）進(jìn)行了實(shí)驗(yàn)，驗(yàn)證GPU能否實(shí)現(xiàn)線性規(guī)劃問(wèn)題求解的“彎道超車”。

鈦媒體App獲悉，2023年12月8日，杉數(shù)科技團(tuán)隊(duì)在中國(guó)運(yùn)籌學(xué)會(huì)算法軟件與應(yīng)用分會(huì)成立大會(huì)上，報(bào)告了他們?cè)谟ミ_(dá)H100 GPU顯卡上，成功驗(yàn)證了cuPDLP-C求解超大規(guī)模線性規(guī)劃問(wèn)題（LP problem）的顯著優(yōu)勢(shì)。在多個(gè)經(jīng)典測(cè)試集上，對(duì)于大規(guī)模問(wèn)題，算法體現(xiàn)出了不亞于傳統(tǒng)商業(yè)求解器的表現(xiàn)，并且在多個(gè)大問(wèn)題上有明顯求解優(yōu)勢(shì)。

例如，從求解效率來(lái)看，領(lǐng)域內(nèi)著名的測(cè)試問(wèn)題zib03，相比四年前用CPU求解的16.5個(gè)小時(shí)（用英特爾至強(qiáng)E7-8880 v4），如今在英偉達(dá)H100下，cuPDLP-C求解計(jì)算時(shí)間直接縮短至916秒，時(shí)間縮短了64倍。

相較于2009年的CPLEX，計(jì)算時(shí)間從139天到現(xiàn)在的15分鐘，這完全顛覆了數(shù)學(xué)規(guī)劃算法設(shè)計(jì)“只有CPU能做”的傳統(tǒng)認(rèn)知，“降維打擊式”地提升了求解計(jì)算效率。同時(shí)，由于目前cuPDLP-C已經(jīng)在GitHub上開(kāi)源，因此整個(gè)成果也將讓更多人受益。

葛冬冬對(duì)鈦媒體App表示，“這件事意義重大，它將在未來(lái)3-5年對(duì)整個(gè)運(yùn)籌學(xué)從科研到產(chǎn)業(yè)都會(huì)產(chǎn)生巨大改變。某種程度上，我認(rèn)為它將開(kāi)啟一個(gè)運(yùn)籌學(xué)科新的‘大航海時(shí)代’。”

“有四點(diǎn)對(duì)領(lǐng)域的可能沖擊吧。首先，這套算法思想推廣之后，不僅用在線性系統(tǒng)上，而且對(duì)整個(gè)連續(xù)優(yōu)化領(lǐng)域都會(huì)產(chǎn)生影響，進(jìn)而深刻影響整數(shù)規(guī)劃計(jì)算領(lǐng)域，這對(duì)應(yīng)求解器應(yīng)用場(chǎng)景中80%的問(wèn)題；第二，GPU相關(guān)的一階算法設(shè)計(jì)和執(zhí)行相對(duì)簡(jiǎn)單，這將使得求解器社區(qū)部分模型對(duì)應(yīng)的算法開(kāi)源化；而專業(yè)求解器以后可能跟目前許多toB的AI公司相似，在專業(yè)求解和基于GPU的函數(shù)定制服務(wù)方面都可以發(fā)力，帶來(lái)新的商業(yè)機(jī)會(huì)。第三，求解器會(huì)變得更加重視硬件，將需要大量適配的專用高精度計(jì)算顯卡，以及需要高效的庫(kù)函數(shù)實(shí)現(xiàn)。國(guó)內(nèi)很多 AI 芯片也可以應(yīng)用，形成一個(gè)軟硬一體化的生態(tài)；求解器以后的服務(wù)也更可能呈現(xiàn)一個(gè)軟硬一體化綁定的服務(wù)能力。第四，有鑒于求解能力限制，整個(gè)運(yùn)籌學(xué)研究的核心之一其實(shí)就是如何將大問(wèn)題分解，分步驟，或者降維求解，而隨著GPU求解算法的“暴力”求解大問(wèn)題能力劇增，可以預(yù)期運(yùn)籌學(xué)領(lǐng)域，也包括相關(guān)的多個(gè)商科和工科領(lǐng)域的科研范式和產(chǎn)業(yè)形態(tài)也將隨之極大改變，甚至重塑。”葛冬冬告訴鈦媒體App。

很顯然，通過(guò)GPU顯卡的算力加持，對(duì)已經(jīng)發(fā)展70余年、古老且嚴(yán)謹(jǐn)?shù)倪\(yùn)籌學(xué)科將會(huì)帶來(lái)革命性的沖擊。

計(jì)算時(shí)間縮短超過(guò)64倍，GPU芯片將加速求解更多復(fù)雜問(wèn)題

運(yùn)籌學(xué)是近代應(yīng)用數(shù)學(xué)的一個(gè)分支，主要是研究如何將生產(chǎn)、管理等事件中出現(xiàn)的優(yōu)化問(wèn)題加以提煉，然后利用數(shù)學(xué)方法進(jìn)行解決的學(xué)科。

美國(guó)物理學(xué)家，曾任加州大學(xué)柏克萊分校教授的Charles Kittel早在1947年首次提到“Operations Research”一詞，中國(guó)則在1957年由中國(guó)工程院院士許國(guó)志、清華大學(xué)基礎(chǔ)科部教授周華章正式定名為“運(yùn)籌學(xué)”，并于1980年成立中國(guó)運(yùn)籌學(xué)會(huì)（ORSC）。運(yùn)籌學(xué)在全球發(fā)展至今已超過(guò)70年。

其中，數(shù)學(xué)規(guī)劃是將現(xiàn)實(shí)問(wèn)題轉(zhuǎn)化為數(shù)學(xué)模型并求解的過(guò)程。數(shù)學(xué)規(guī)劃求解器作為這一過(guò)程的核心軟件，專門針對(duì)多種線性、整數(shù)和非線性規(guī)劃模型進(jìn)行算法優(yōu)化。它可以被視為一個(gè)“黑盒子”系統(tǒng)，業(yè)界亦稱之為算法領(lǐng)域的“芯片”。

求解器的重要意義在于，它能解決生活中非常復(fù)雜的應(yīng)用數(shù)學(xué)問(wèn)題。例如，2018年平昌冬奧會(huì)的閉幕式上，中國(guó)接棒八分鐘展示里出現(xiàn)的無(wú)人倉(cāng)機(jī)器人引起全球關(guān)注。但如何計(jì)算這些機(jī)器人的運(yùn)行路線，為了確保這些機(jī)器人運(yùn)行高效且避免碰撞，需要依賴最優(yōu)算法，而背后依靠的就是求解器。

在此之前，求解器的核心計(jì)算硬件大部分依賴于CPU（中央處理器）芯片，主要原因是CPU的通用能力可以更廣泛應(yīng)用于眾多計(jì)算系統(tǒng)和算法實(shí)現(xiàn)，而且英特爾、AMD相關(guān)軟件框架都非常齊全，特別是復(fù)雜高精度的各種矩陣運(yùn)算，大大降低求解規(guī)劃成本，并提高計(jì)算效能。

葛冬冬指出，芯片這類硬件是求解器底層的核心設(shè)施。

長(zhǎng)期以來(lái)，GPU采用與CPU不同的底層架構(gòu)，計(jì)算核心數(shù)量、軟件和性能處理方案與CPU的底層邏輯差異極大。而國(guó)內(nèi)外科研人員希望能夠通過(guò)GPU或是其他類型芯片可實(shí)現(xiàn)線性規(guī)劃的加速計(jì)算，但多次實(shí)驗(yàn)結(jié)果顯示，GPU一直無(wú)法高效求解算法中的“矩陣求逆”或者“矩陣分解“問(wèn)題，無(wú)論是計(jì)算精度（物理原因）還是并行計(jì)算，它都無(wú)法做到。

“未能突破的原因是，求解器的核心底層只要是這種連續(xù)優(yōu)化問(wèn)題，不管是線性還是非線性，傳統(tǒng)算法中都躲不開(kāi)如何高效求解‘矩陣分解’這一步。這個(gè)問(wèn)題解決不了，GPU幾千個(gè)計(jì)算單元并行加速的優(yōu)勢(shì)就無(wú)法體現(xiàn)。”葛冬冬對(duì)鈦媒體App表示，“矩陣分解”主要對(duì)應(yīng)線性方程組求解，是計(jì)算最關(guān)鍵一步。一旦矩陣規(guī)模過(guò)大或者結(jié)構(gòu)復(fù)雜，這個(gè)步驟往往會(huì)造成內(nèi)存溢出或者求解時(shí)間極長(zhǎng)，成為求解桎梏。

杉數(shù)科技首席科學(xué)家葛冬冬教授

早在2016年，葛冬冬聯(lián)合幾位當(dāng)年在斯坦福的博士同學(xué)，共同成立了杉數(shù)科技，研制了第一個(gè)國(guó)產(chǎn)專業(yè)求解器，避免受制于人。如今，作為智能決策技術(shù)服務(wù)公司，杉數(shù)科技以其自研大規(guī)模商用求解器COPT為核心引擎，打造了“計(jì)算引擎+決策技術(shù)中臺(tái)+業(yè)務(wù)場(chǎng)景”的端到端智能決策技術(shù)平臺(tái)，為消費(fèi)零售、交通物流、能源電網(wǎng)、制造與供應(yīng)鏈等多個(gè)行業(yè)提供數(shù)字化供應(yīng)鏈解決方案，利用運(yùn)籌優(yōu)化和機(jī)器學(xué)習(xí)找出更優(yōu)的決策方案，全面提升產(chǎn)業(yè)鏈和供應(yīng)鏈運(yùn)營(yíng)效率和效果。

葛冬冬此前向鈦媒體App透露，利用COPT數(shù)學(xué)優(yōu)化求解器這種優(yōu)化決策，可以使生產(chǎn)排程訂單滿足率提高20%，產(chǎn)能損失率降低30%，排產(chǎn)排程人工干預(yù)降低70%，非計(jì)劃維修降低15%。同時(shí)，杉數(shù)科技COPT數(shù)學(xué)優(yōu)化求解器一直在全球求解器榜單中名列前茅。（詳見(jiàn)鈦媒體App前文：《超越阿里達(dá)摩院成績(jī)，這個(gè)斯坦福團(tuán)隊(duì)用“國(guó)產(chǎn)求解器”助中國(guó)企業(yè)實(shí)現(xiàn)智能決策》）

而此前葛冬冬團(tuán)隊(duì)研發(fā)的COPT求解器系列，主要是利用CPU芯片進(jìn)行計(jì)算處理的。

“事實(shí)上，過(guò)去十幾年，這個(gè)領(lǐng)域內(nèi)，包括我們，國(guó)內(nèi)外學(xué)術(shù)界無(wú)數(shù)人，都在前赴后繼地努力，試圖回答這個(gè)問(wèn)題：GPU/CUDA架構(gòu)能否對(duì)數(shù)學(xué)規(guī)劃求解器起到彎道超車的作用。此前的答案一直為‘否’。”葛冬冬表示。

然而，2023年11月初，葛冬冬的合作伙伴，魯海昊教授在arXiv上發(fā)表了一篇論文，他們公開(kāi)的cuPDLP代碼，通過(guò)GPU硬件成功解決了線性規(guī)劃求解計(jì)算問(wèn)題，可用在這段Julia代碼中求解線性規(guī)劃。

葛冬冬說(shuō)：“魯老師突破這一長(zhǎng)期瓶頸的技術(shù)方案，是他們觀察到以前的CPU/GPU混合架構(gòu)求解中，CPU/GPU之間的交互往往占用了絕大部分耗時(shí)，因此他們?cè)诖饲八麄兣c谷歌合作建立的PDLP求解器基礎(chǔ)上（此求解器可以很好解決GPU計(jì)算精度無(wú)法達(dá)到10^-8精度要求的限制），將整套算法搬到了GPU/CUDA架構(gòu)下實(shí)現(xiàn)。捅破了最后一層窗戶紙！”

此后，魯教授與葛冬冬教授領(lǐng)導(dǎo)的杉數(shù)COPT團(tuán)隊(duì)緊密合作，提出開(kāi)源技術(shù)方案cuPDLP-C，即用一階方法在GPU上解決線性規(guī)劃問(wèn)題，也是Julia版本cuPDLP.jl的C語(yǔ)言加強(qiáng)版，算法上也做了進(jìn)一步的改善和提高。

與此同時(shí)，通過(guò)在目前最強(qiáng)的顯卡H100上的實(shí)驗(yàn)發(fā)現(xiàn)，在運(yùn)籌學(xué)最經(jīng)典的測(cè)試集MIPLIB2017的383個(gè)線性松弛測(cè)試問(wèn)題求解中，以10^-4 精度要求，cuPDLP-C已經(jīng)可以求解到379個(gè)問(wèn)題，而以嚴(yán)格收斂的標(biāo)準(zhǔn)10^-8 精度要求，cuPDLP-C也可以求解到369個(gè)問(wèn)題�？傮w求解時(shí)間與目前最好的商業(yè)求解器的差距也拉近到了2倍（10^-4精度）和6倍（10^-8）精度之內(nèi)。在測(cè)試集那些大問(wèn)題中的差距明顯更小，在10^-4精度下甚至體現(xiàn)出了計(jì)算優(yōu)勢(shì)。此外，葛冬冬團(tuán)隊(duì)還在多個(gè)更大規(guī)模問(wèn)題上進(jìn)行了廣泛測(cè)試，cuPDLP-C的優(yōu)勢(shì)明顯，例如zib03問(wèn)題加速了64倍，而多個(gè)更大規(guī)模的測(cè)試問(wèn)題，如在谷歌的Pagerank、某國(guó)內(nèi)大企業(yè)供應(yīng)鏈項(xiàng)目問(wèn)題、經(jīng)典的二次分配問(wèn)題（QAP）等問(wèn)題的測(cè)試上，傳統(tǒng)求解器都無(wú)法求解，而cuPDLP-C可以做到可行時(shí)間內(nèi)求解。

很顯然，對(duì)于超大數(shù)學(xué)規(guī)劃問(wèn)題，在性能、計(jì)算速度、求解數(shù)量等方面，GPU都能比CPU都展現(xiàn)出了更好的前景。

杉數(shù)科技資深副總裁，技術(shù)負(fù)責(zé)人皇甫博士對(duì)鈦媒體App表示，利用GPU硬件，現(xiàn)在cuPDLP-C可以讓之前難以解決的大規(guī)模優(yōu)化問(wèn)題變得易于解決，推動(dòng)了模型建立的精確度和規(guī)模。以前因CPU限制而采用的非常精密復(fù)雜的一些求解技巧可能不再需要。此外，一旦GPU提速上百倍，cuPDLP-C求解優(yōu)勢(shì)可能拓展到其他連續(xù)優(yōu)化領(lǐng)域，極大加速求解過(guò)程，讓原本耗時(shí)的問(wèn)題快速得到解決，從而打開(kāi)新的應(yīng)用可能性。

葛冬冬告訴鈦媒體App，“這很恐怖。對(duì)于運(yùn)籌學(xué)來(lái)說(shuō)，這一技術(shù)意外打破了一個(gè)長(zhǎng)期以來(lái)的定論，即GPU在求解數(shù)學(xué)規(guī)劃問(wèn)題上沒(méi)什么加速效果。這一發(fā)現(xiàn)會(huì)讓整個(gè)學(xué)術(shù)和工業(yè)界感到驚訝，因?yàn)橹皬奈从腥祟A(yù)料到這種情況。”

他強(qiáng)調(diào)，cuPDLP-C技術(shù)推翻了運(yùn)籌學(xué)科長(zhǎng)期以來(lái)的一些共識(shí)和定式，超出人們預(yù)期，利用GPU提高了求解器的性能潛力，可能使運(yùn)籌學(xué)實(shí)現(xiàn)從CPU到GPU計(jì)算帶來(lái)的“范式轉(zhuǎn)變”。

20年性能提高約7000倍，GPU成本過(guò)高是否將制約行業(yè)發(fā)展？

過(guò)去一年，以ChatGPT為代表的生成式 AI 技術(shù)風(fēng)靡全球。而作為以95%的市場(chǎng)占有率壟斷了全球 Al 訓(xùn)練芯片的英偉達(dá)，成為了這輪 AI 混戰(zhàn)的最大贏家，其研發(fā)的A100/A800、H100/H800等多款 AI 芯片成為 AI 熱潮中的“爆品”。

正如英偉達(dá)自己所說(shuō)：“GPU 已經(jīng)成為人工智能的稀有金屬，甚至是黃金，因?yàn)樗鼈兪钱?dāng)今生成式 AI時(shí)代的基矗”

從技術(shù)角度來(lái)說(shuō)，GPU優(yōu)于CPU，特別是在并行計(jì)算能力、能耗效率和CUDA生態(tài)等方面，它的高算力和可擴(kuò)展性使英偉達(dá)GPU成為AI加速芯片市場(chǎng)的首眩

根據(jù)斯坦福大學(xué)最近發(fā)布的一項(xiàng)報(bào)告顯示，自2003年以來(lái)，GPU性能提高了約7000倍，單位性能價(jià)格也提高了5600倍。該報(bào)告還指出，GPU是推動(dòng) AI 技術(shù)進(jìn)步的關(guān)鍵動(dòng)力。

英偉達(dá)首席科學(xué)家Bill Dally也曾表示，NVIDIA GPU在過(guò)去十年中將 AI 推理性能提高了1000倍。

從運(yùn)籌學(xué)角度來(lái)看，將CPU替換為GPU，計(jì)算能力、計(jì)算效率大幅提升。但問(wèn)題在于，國(guó)內(nèi)可以買到的H100/H800、A100/A800的價(jià)格都已經(jīng)超過(guò)20萬(wàn)/張，再加上存儲(chǔ)、NVLink互連、運(yùn)維成本等，相比CPU，基于GPU的求解成本將進(jìn)一步攀高。

那么，求解計(jì)算的基礎(chǔ)設(shè)施成本，是否會(huì)成為未來(lái)求解器乃至運(yùn)籌學(xué)發(fā)展的重要制約因素？

葛冬冬對(duì)鈦媒體App表示，目前只是基于GPU架構(gòu)的優(yōu)化算法的“拓荒期”。目前，他們已經(jīng)與多家國(guó)產(chǎn) GPU芯片廠商開(kāi)展了廣泛的測(cè)試合作，希望能夠利用國(guó)產(chǎn)算力推動(dòng)中國(guó)求解器行業(yè)發(fā)展。確實(shí)有部份國(guó)產(chǎn)GPU芯片已經(jīng)具備了跑通算法的能力，但是也確實(shí)，還需要在芯片速度和庫(kù)函數(shù)完備程度上做進(jìn)一步建設(shè)。

而且，他認(rèn)為，杉數(shù)也已經(jīng)積極與商業(yè)伙伴開(kāi)始積極探索這一技術(shù)的落地與應(yīng)用前景。目前已經(jīng)開(kāi)始在電力系統(tǒng)的出清調(diào)度問(wèn)題這一大規(guī)模復(fù)雜系統(tǒng)問(wèn)題上，與南網(wǎng)總調(diào)合作，探尋運(yùn)用GPU架構(gòu)的優(yōu)化求解算法來(lái)加速求解計(jì)算的研究。

談及開(kāi)源與商業(yè)化的話題，葛冬冬認(rèn)為，把cuPDLP-C開(kāi)源可以推動(dòng)行業(yè)進(jìn)一步發(fā)展，對(duì)于商業(yè)化求解器來(lái)說(shuō)肯定會(huì)有一定沖擊，但GPU求解大規(guī)模問(wèn)題的新思路也帶來(lái)了巨大的機(jī)會(huì)，目前來(lái)看，杉數(shù)科技在核心技術(shù)、商業(yè)化等層面還有非常領(lǐng)先的市場(chǎng)競(jìng)爭(zhēng)優(yōu)勢(shì)。

“新的大門已經(jīng)推開(kāi)。過(guò)去20年，大家一直在嘗試推開(kāi)，但門被‘鎖’死了�，F(xiàn)在等于是發(fā)現(xiàn)‘鎖’能打碎，門是能推開(kāi)的。這就意味著運(yùn)籌學(xué)算法又進(jìn)入了一個(gè)新的‘大航海時(shí)代’，一個(gè)堪比‘西部掘金熱’的時(shí)代。我們已經(jīng)走出（開(kāi)源）這一步。我們對(duì)自己的技術(shù)有信心，過(guò)去七年，從無(wú)到有，再到國(guó)際領(lǐng)先，杉數(shù)一直都在科研、技術(shù)和實(shí)踐應(yīng)用上，是國(guó)內(nèi)求解器市場(chǎng)的領(lǐng)航者。在這個(gè)經(jīng)我們的手打開(kāi)的新時(shí)代，我相信，我們是不會(huì)落后的。”葛冬冬表示。

（本文首發(fā)鈦媒體App，作者｜林志佳）