當(dāng)前位置:首頁(yè) >  科技 >  IT業(yè)界 >  正文

求解提速300倍!中國(guó)科研團(tuán)隊(duì)開啟多GPU并行計(jì)算新紀(jì)元

 2026-01-19 09:36  來(lái)源: 互聯(lián)網(wǎng)   我來(lái)投稿 撤稿糾錯(cuò)

  阿里云優(yōu)惠券 先領(lǐng)券再下單

近日,上海交通大學(xué)智能計(jì)算研究院和杉數(shù)科技在大規(guī)模數(shù)學(xué)規(guī)劃高性能計(jì)算領(lǐng)域取得重要突破。雙方研究團(tuán)隊(duì)在國(guó)際預(yù)印本平臺(tái)arXiv發(fā)表論文《Beyond Single-GPU: Scaling PDLP to Distributed Multi-GPU Systems》,首次在真實(shí)工業(yè)規(guī)模問題上,系統(tǒng)性實(shí)現(xiàn)了面向大規(guī)模線性規(guī)劃的多 GPU 分布式加速求解框架,標(biāo)志著數(shù)學(xué)規(guī)劃這一長(zhǎng)期依賴 CPU 的基礎(chǔ)計(jì)算技術(shù)正式邁入多卡 GPU 并行時(shí)代。

杉數(shù)技術(shù)團(tuán)隊(duì)關(guān)鍵參與,共鑄核心突破

杉數(shù)科技技術(shù)團(tuán)隊(duì)作為論文的核心作者,在優(yōu)化求解與高性能計(jì)算方向上持續(xù)探索攻克,通過(guò)算法與架構(gòu)的協(xié)同創(chuàng)新,為本次突破性研究提供了關(guān)鍵技術(shù)支持與工程實(shí)現(xiàn)保障,領(lǐng)銜實(shí)現(xiàn)數(shù)學(xué)規(guī)劃求解300倍提速。

本篇論文構(gòu)建了一套能夠高效擴(kuò)展至多GPU環(huán)境的分布式PDHG框架,其核心突破在于通過(guò)二維網(wǎng)格劃分與多級(jí)隨機(jī)重排策略的深度協(xié)同,巧妙攻克了大規(guī)模稀疏優(yōu)化中“通信瓶頸”與“負(fù)載/訪存權(quán)衡”的難題。

圖片1.png

為了解決單機(jī)顯存受限與通信擁塞,作者設(shè)計(jì)了基于二維設(shè)備網(wǎng)格的存儲(chǔ)拓?fù)洌ㄟ^(guò)自適應(yīng)調(diào)整網(wǎng)格形狀并配合行列軸的正交歸約,最小化了通信體積;更為關(guān)鍵的是,針對(duì)稀疏矩陣極易導(dǎo)致的負(fù)載不均,論文首先提出了完全隨機(jī)重排策略,在統(tǒng)計(jì)上有效拉平了非零元分布,隨后為了解決該策略對(duì)訪存局部性的破壞,進(jìn)一步優(yōu)化提出了塊狀隨機(jī)重排,即在宏觀上隨機(jī)打散以均衡負(fù)載,微觀上保留局部稠密子塊以確保 GPU 高效合并訪存,最終配合基于非零元計(jì)數(shù)的動(dòng)態(tài)分區(qū)算法,在保證FP64數(shù)值精度的同時(shí)實(shí)現(xiàn)了近乎線性的多卡加速比。

300倍性能躍升:定義工業(yè)級(jí)求解新標(biāo)準(zhǔn)

線性規(guī)劃與數(shù)學(xué)規(guī)劃方法是運(yùn)籌學(xué)、人工智能和工業(yè)決策系統(tǒng)的核心基礎(chǔ),廣泛應(yīng)用于能源調(diào)度、供應(yīng)鏈優(yōu)化、交通網(wǎng)絡(luò)、芯片設(shè)計(jì)以及智能制造等關(guān)鍵領(lǐng)域。然而,長(zhǎng)期以來(lái),高精度數(shù)學(xué)規(guī)劃求解因?qū)?shù)值穩(wěn)定性和收斂可靠性要求極高,被普遍認(rèn)為“不適合GPU架構(gòu)”,主流求解器仍以CPU為核心計(jì)算平臺(tái),嚴(yán)重制約了大規(guī)模問題的求解效率。

雙方研究團(tuán)隊(duì)將“優(yōu)化算法與新型計(jì)算架構(gòu)的深度融合”作為重要研究方向,圍繞GPU加速的一階優(yōu)化算法、線性規(guī)劃和半正定規(guī)劃等問題開展了持續(xù)、系統(tǒng)的探索。研究團(tuán)隊(duì)此前已與MIT的Haihao Lu教授合作,率先提出并實(shí)現(xiàn)了多項(xiàng)GPU加速數(shù)學(xué)規(guī)劃求解器,在國(guó)際上首次證明了一階優(yōu)化方法在GPU架構(gòu)下處理高精度數(shù)學(xué)規(guī)劃問題的可行性,為該領(lǐng)域打開了新的技術(shù)路徑。

在此次工作中,雙方研究團(tuán)隊(duì)在前期單卡GPU成果的基礎(chǔ)上,進(jìn)一步突破顯存容量和計(jì)算規(guī)模限制,提出了面向多GPU系統(tǒng)的分布式PDLP求解架構(gòu)。該方法通過(guò)二維矩陣分塊、非零結(jié)構(gòu)感知?jiǎng)澐忠约案咝У腉PU間通信機(jī)制,實(shí)現(xiàn)了大規(guī)模線性規(guī)劃在多張GPU上的協(xié)同求解,在保證數(shù)值精度的同時(shí)展現(xiàn)出良好的可擴(kuò)展性。

圖片2.png

2025.10杉數(shù)求解器COPT 8.0正式發(fā)布

新增支持全局最優(yōu)(混合整數(shù))非凸二次優(yōu)化求解器

GPU加速求解性能顯著提升

尤為引人注目的是,該工作清晰展現(xiàn)了大規(guī)模數(shù)學(xué)規(guī)劃計(jì)算范式的連續(xù)三代躍遷:從傳統(tǒng)CPU計(jì)算,到單卡GPU加速,再到多GPU并行協(xié)同求解。以源自歐洲EDA設(shè)計(jì)領(lǐng)域的經(jīng)典大規(guī)模線性規(guī)劃基準(zhǔn)問題Zib03為例,該問題在傳統(tǒng)CPU求解器上通常需要十幾個(gè)小時(shí)才能完成。2023年,團(tuán)隊(duì)在cuPDLP-C的首個(gè)NVIDIA H100單卡實(shí)驗(yàn)中,已將該問題的求解時(shí)間壓縮至約900秒。在本次研究中,團(tuán)隊(duì)進(jìn)一步將算法擴(kuò)展至八卡GPU并行環(huán)境,成功將求解時(shí)間降低至約200秒,相較CPU實(shí)現(xiàn)實(shí)現(xiàn)了超過(guò)300倍的整體加速。

這一成果被認(rèn)為是工業(yè)界與學(xué)術(shù)界首次成功實(shí)現(xiàn)的多卡GPU加速數(shù)學(xué)規(guī)劃的系統(tǒng)性嘗試。相關(guān)結(jié)果不僅在性能數(shù)量級(jí)上刷新了對(duì)數(shù)學(xué)規(guī)劃求解能力的傳統(tǒng)認(rèn)知,也首次在真實(shí)工業(yè)規(guī)模問題上證明:多GPU架構(gòu)能夠在保持高數(shù)值精度與穩(wěn)定收斂性的前提下,成為數(shù)學(xué)規(guī)劃這一基礎(chǔ)計(jì)算引擎的核心計(jì)算平臺(tái)。

此次研究突破,體現(xiàn)了杉數(shù)在底層求解器核心技術(shù)上的持續(xù)投入與創(chuàng)新能力。未來(lái),杉數(shù)將繼續(xù)圍繞“優(yōu)化算法×GPU×人工智能”這一前沿交叉方向,推動(dòng)數(shù)學(xué)規(guī)劃在多GPU、跨節(jié)點(diǎn)乃至更大規(guī)模計(jì)算環(huán)境下的發(fā)展,持續(xù)服務(wù)于能源、電力、制造、物流和人工智能等國(guó)家和產(chǎn)業(yè)重大需求,我們期待與學(xué)界、產(chǎn)業(yè)界伙伴攜手,共同推動(dòng)中國(guó)智能計(jì)算技術(shù)的進(jìn)步與應(yīng)用落地,進(jìn)一步鞏固我國(guó)在智能優(yōu)化與高性能計(jì)算領(lǐng)域的國(guó)際領(lǐng)先地位。

申請(qǐng)創(chuàng)業(yè)報(bào)道,分享創(chuàng)業(yè)好點(diǎn)子。點(diǎn)擊此處,共同探討創(chuàng)業(yè)新機(jī)遇!

相關(guān)標(biāo)簽
中國(guó)科研團(tuán)隊(duì)

相關(guān)文章

熱門排行

信息推薦