當前位置:首頁 >  科技 >  IT業(yè)界 >  正文

憶聯(lián)UH812a以MLPerf Storage標桿級驗證,重塑AI存儲效能,奠定智能算力基石

 2026-02-06 16:00  來源: 互聯(lián)網(wǎng)   我來投稿 撤稿糾錯

  阿里云優(yōu)惠券 先領券再下單

隨著AI大模型進入萬億參數(shù)時代,傳統(tǒng)存儲性能測試已難以真實反映存儲系統(tǒng)在實際訓練場景中對成本與效率的核心影響。為此,全球權威AI基準測評組織MLCommons正式推出MLPerf Storage基準測試套件,為行業(yè)建立起一套貼合實際、具有指導意義的權威評估框架。

區(qū)別于傳統(tǒng)存儲性能測試,MLPerf Storage基準的核心價值在于直接評估存儲系統(tǒng)能否支撐GPU集群達到并維持高利用率——這直接決定了整體訓練耗時與算力資源成本。該基準在v2.0版本中進一步引入Checkpoint工作負載,精準模擬大模型訓練中的容災恢復環(huán)節(jié),使評測更貼近前沿場景的實際需求。

為評估憶聯(lián)Gen5 eSSD UH812a在AI場景中的性能表現(xiàn),本次測試基于MLPerf Storage v2.0默認參數(shù)展開,并特別針對對數(shù)據(jù)供給要求更高的NVIDIA H100加速器進行模擬驗證,以檢驗存儲系統(tǒng)能否充分適配新一代算力平臺的性能需求。此次測試覆蓋了MLPerf Storage v2.0包含的全部訓練負載,包括U-Net 3D、ResNet50、CosmoFlow和Checkpoint。

結(jié)果顯示,在四項訓練模型中,UH812a的 GPU利用率均超過基準要求,表現(xiàn)出強勁的性能;同時在可支持的加速器數(shù)量上亦領先于行業(yè)同類產(chǎn)品,有力驗證了其在高負載AI訓練場景下可提供穩(wěn)定且高性能的存儲支持。

測試環(huán)境

部件

配置信息

CPU

Intel(R) Xeon(R) Gold 6430  CPU @ 2.1GHz*2

內(nèi)存

512 GB

存儲

系統(tǒng)盤:Union Memory SATA 2*480 GB

數(shù)據(jù)盤:Union Memory UH812a 7.68 TB

Linux內(nèi)核版本

Linux 6.17.4-1.el8.elrepo.x86_64

性能測試軟件

MLPerf Storage v2.0

測試結(jié)果

U-Net 3D訓練場景

該場景模擬醫(yī)療影像等大體積3D數(shù)據(jù)的訓練過程,要求存儲系統(tǒng)持續(xù)為多個并發(fā)GPU客戶端提供大型數(shù)據(jù)文件(單個約146MB),旨在測試存儲的極限順序讀寫帶寬,確保GPU不會因數(shù)據(jù)供給不足而出現(xiàn)空閑等待。

在U-Net3D場景負載下,我們共計訓練了42000個文件,模擬了1到5顆GPU的訓練過程。如圖1所示,UH812a在模擬5顆H100 GPU的負載下,實現(xiàn)了14566.46 MB/s的最高吞吐量,接近標稱讀帶寬(14900 MB/s),此時GPU利用率(AU)達到最低96%,遠高于基準所要求的90%以上水平。通過圖1也可看見,UH812a的性能隨著GPU數(shù)量增加而線性提升,且GPU利用率僅出現(xiàn)微弱波動,證明其在多客戶端高并發(fā)訪問場景下仍能持續(xù)提供穩(wěn)定、高帶寬的數(shù)據(jù)流。

圖1:UH812a在不同數(shù)量H100環(huán)境下的性能測試結(jié)果

此外,在該場景測試中,UH812a可支持高達5顆H100加速器,優(yōu)于對比競品(僅支持4顆),凸顯了其在大體積3D數(shù)據(jù)訓練負載下更強的并發(fā)處理能力與性能優(yōu)勢。

圖2:UH812a與競品可支持的H100數(shù)量對比

ResNet50訓練場景

此場景模擬常規(guī)圖像分類模型的訓練流程,要求存儲系統(tǒng)能夠應對海量GPU客戶端的高并發(fā)、隨機讀取需求,處理大量小型圖片文件(每個約150KB),從而充分考驗存儲系統(tǒng)的高IOPS和低延遲元數(shù)據(jù)處理能力。

在ResNet-50場景測試中,我們共計訓練了19163個文件,模擬了10至78顆GPU的訓練過程。如圖3所示,在模擬78顆H100 GPU的負載下,UH812a實現(xiàn)了14008.66 MB/s的最大吞吐量,GPU利用率穩(wěn)定在92.2%,同樣超過基準要求(AU> 90%),體現(xiàn)出其能夠為復雜訓練任務持續(xù)提供充足的存儲性能支持。

圖3:UH812a在不同數(shù)量H100環(huán)境下的性能測試結(jié)果

另外,在此場景測試中,UH812a可支持高達78顆H100加速器同時高效工作,顯著領先于競品(分別為65顆和64顆)。這一優(yōu)勢表明,UH812a具備支撐更大規(guī)模AI訓練集群的潛力,能為極致擴展的模型訓練任務提供穩(wěn)定可靠的數(shù)據(jù)供給基礎。

圖4:UH812a與競品可支持的H100數(shù)量對比

CosmoFlow訓練場景

該場景主要模擬氣候、宇宙學等科學計算中的大規(guī)模訓練任務,要求存儲系統(tǒng)能夠支持從8個到數(shù)千個客戶端的GPU集群擴展,同時高效讀取海量中等尺寸文件(每個約2MB)。其核心挑戰(zhàn)在于存儲系統(tǒng)的可擴展性與延遲穩(wěn)定性——任何局部的訪問延遲都可能拖慢整個分布式訓練作業(yè),因此對存儲系統(tǒng)的并發(fā)處理與響應一致性要求更高。

在CosmoFlow場景的實際驗證中,我們累計訓練了971819個文本數(shù)據(jù),并模擬了1至26顆GPU的訓練過程。如圖5所示,當加速器數(shù)量達到23顆及以上時,UH812a的吞吐量穩(wěn)定維持在約14000MB/s,同時GPU利用率始終高于基準要求(AU>70%),展現(xiàn)出卓越的系統(tǒng)可擴展性與持續(xù)穩(wěn)定的高并發(fā)數(shù)據(jù)供給能力。

圖5:UH812a在不同數(shù)量H100環(huán)境下的性能測試結(jié)果

此外,在這一場景下,UH812a可支持26顆H100加速器,相比于競品(支持21顆和16顆),支持GPU數(shù)量更多,可為高負載場景提供穩(wěn)定可靠的存儲服務。

圖6:UH812a與競品可支持的H100數(shù)量對比

Checkpoint訓練場景

此場景模擬大模型訓練中保存和恢復訓練狀態(tài)的關鍵操作,要求所有GPU同時將完整的模型狀態(tài)(參數(shù)、優(yōu)化器等,規(guī)??蛇_數(shù)TB)順序?qū)懭氪鎯?,再快速讀取。該過程是對存儲系統(tǒng)高并發(fā)順序讀寫帶寬的終極考驗,其性能直接決定了訓練任務因中斷而損失的時間。

在Checkpoint場景的實測中,受限于時間等因素,我們以Llama3-8b模型進行了寫入測試,圖7結(jié)果顯示,UH812a的帶寬達到13053.4 MB/s,較競品A提升24%,較競品B提升11%,可為用戶提供高性能的讀寫體驗。

圖7:Llama3-8b模型下UH812a與競品表現(xiàn)對比

MLPerf Storage v2.0的測試結(jié)果表明,UH812a能夠充分滿足前沿AI場景對存儲系統(tǒng)的嚴苛性能需求,尤其在數(shù)據(jù)供給能力和穩(wěn)定性方面展現(xiàn)出顯著優(yōu)勢,性能領先于業(yè)界同類產(chǎn)品。這不僅印證了其在加速AI工作負載方面的卓越能力,也體現(xiàn)了其作為智能算力底座關鍵一環(huán)的核心價值。

未來,憶聯(lián)將繼續(xù)聚焦AI存儲技術創(chuàng)新與產(chǎn)品研發(fā),致力于通過更高性能、更可靠的存儲解決方案,持續(xù)賦能智能算力基礎設施建設,與產(chǎn)業(yè)伙伴共同推動人工智能技術的規(guī)?;涞嘏c持續(xù)演進。

申請創(chuàng)業(yè)報道,分享創(chuàng)業(yè)好點子。點擊此處,共同探討創(chuàng)業(yè)新機遇!

相關標簽
憶聯(lián)

相關文章

熱門排行

信息推薦