隨著AI大模型進(jìn)入萬(wàn)億參數(shù)時(shí)代,傳統(tǒng)存儲(chǔ)性能測(cè)試已難以真實(shí)反映存儲(chǔ)系統(tǒng)在實(shí)際訓(xùn)練場(chǎng)景中對(duì)成本與效率的核心影響。為此,全球權(quán)威AI基準(zhǔn)測(cè)評(píng)組織MLCommons正式推出MLPerf Storage基準(zhǔn)測(cè)試套件,為行業(yè)建立起一套貼合實(shí)際、具有指導(dǎo)意義的權(quán)威評(píng)估框架。
區(qū)別于傳統(tǒng)存儲(chǔ)性能測(cè)試,MLPerf Storage基準(zhǔn)的核心價(jià)值在于直接評(píng)估存儲(chǔ)系統(tǒng)能否支撐GPU集群達(dá)到并維持高利用率——這直接決定了整體訓(xùn)練耗時(shí)與算力資源成本。該基準(zhǔn)在v2.0版本中進(jìn)一步引入Checkpoint工作負(fù)載,精準(zhǔn)模擬大模型訓(xùn)練中的容災(zāi)恢復(fù)環(huán)節(jié),使評(píng)測(cè)更貼近前沿場(chǎng)景的實(shí)際需求。
為評(píng)估憶聯(lián)Gen5 eSSD UH812a在AI場(chǎng)景中的性能表現(xiàn),本次測(cè)試基于MLPerf Storage v2.0默認(rèn)參數(shù)展開(kāi),并特別針對(duì)對(duì)數(shù)據(jù)供給要求更高的NVIDIA H100加速器進(jìn)行模擬驗(yàn)證,以檢驗(yàn)存儲(chǔ)系統(tǒng)能否充分適配新一代算力平臺(tái)的性能需求。此次測(cè)試覆蓋了MLPerf Storage v2.0包含的全部訓(xùn)練負(fù)載,包括U-Net 3D、ResNet50、CosmoFlow和Checkpoint。
結(jié)果顯示,在四項(xiàng)訓(xùn)練模型中,UH812a的 GPU利用率均超過(guò)基準(zhǔn)要求,表現(xiàn)出強(qiáng)勁的性能;同時(shí)在可支持的加速器數(shù)量上亦領(lǐng)先于行業(yè)同類(lèi)產(chǎn)品,有力驗(yàn)證了其在高負(fù)載AI訓(xùn)練場(chǎng)景下可提供穩(wěn)定且高性能的存儲(chǔ)支持。
測(cè)試環(huán)境
部件
配置信息
CPU
Intel(R) Xeon(R) Gold 6430 CPU @ 2.1GHz*2
內(nèi)存
512 GB
存儲(chǔ)
系統(tǒng)盤(pán):Union Memory SATA 2*480 GB
數(shù)據(jù)盤(pán):Union Memory UH812a 7.68 TB
Linux內(nèi)核版本
Linux 6.17.4-1.el8.elrepo.x86_64
性能測(cè)試軟件
MLPerf Storage v2.0
測(cè)試結(jié)果
U-Net 3D訓(xùn)練場(chǎng)景
該場(chǎng)景模擬醫(yī)療影像等大體積3D數(shù)據(jù)的訓(xùn)練過(guò)程,要求存儲(chǔ)系統(tǒng)持續(xù)為多個(gè)并發(fā)GPU客戶(hù)端提供大型數(shù)據(jù)文件(單個(gè)約146MB),旨在測(cè)試存儲(chǔ)的極限順序讀寫(xiě)帶寬,確保GPU不會(huì)因數(shù)據(jù)供給不足而出現(xiàn)空閑等待。
在U-Net3D場(chǎng)景負(fù)載下,我們共計(jì)訓(xùn)練了42000個(gè)文件,模擬了1到5顆GPU的訓(xùn)練過(guò)程。如圖1所示,UH812a在模擬5顆H100 GPU的負(fù)載下,實(shí)現(xiàn)了14566.46 MB/s的最高吞吐量,接近標(biāo)稱(chēng)讀帶寬(14900 MB/s),此時(shí)GPU利用率(AU)達(dá)到最低96%,遠(yuǎn)高于基準(zhǔn)所要求的90%以上水平。通過(guò)圖1也可看見(jiàn),UH812a的性能隨著GPU數(shù)量增加而線(xiàn)性提升,且GPU利用率僅出現(xiàn)微弱波動(dòng),證明其在多客戶(hù)端高并發(fā)訪(fǎng)問(wèn)場(chǎng)景下仍能持續(xù)提供穩(wěn)定、高帶寬的數(shù)據(jù)流。

圖1:UH812a在不同數(shù)量H100環(huán)境下的性能測(cè)試結(jié)果
此外,在該場(chǎng)景測(cè)試中,UH812a可支持高達(dá)5顆H100加速器,優(yōu)于對(duì)比競(jìng)品(僅支持4顆),凸顯了其在大體積3D數(shù)據(jù)訓(xùn)練負(fù)載下更強(qiáng)的并發(fā)處理能力與性能優(yōu)勢(shì)。

圖2:UH812a與競(jìng)品可支持的H100數(shù)量對(duì)比
ResNet50訓(xùn)練場(chǎng)景
此場(chǎng)景模擬常規(guī)圖像分類(lèi)模型的訓(xùn)練流程,要求存儲(chǔ)系統(tǒng)能夠應(yīng)對(duì)海量GPU客戶(hù)端的高并發(fā)、隨機(jī)讀取需求,處理大量小型圖片文件(每個(gè)約150KB),從而充分考驗(yàn)存儲(chǔ)系統(tǒng)的高IOPS和低延遲元數(shù)據(jù)處理能力。
在ResNet-50場(chǎng)景測(cè)試中,我們共計(jì)訓(xùn)練了19163個(gè)文件,模擬了10至78顆GPU的訓(xùn)練過(guò)程。如圖3所示,在模擬78顆H100 GPU的負(fù)載下,UH812a實(shí)現(xiàn)了14008.66 MB/s的最大吞吐量,GPU利用率穩(wěn)定在92.2%,同樣超過(guò)基準(zhǔn)要求(AU> 90%),體現(xiàn)出其能夠?yàn)閺?fù)雜訓(xùn)練任務(wù)持續(xù)提供充足的存儲(chǔ)性能支持。

圖3:UH812a在不同數(shù)量H100環(huán)境下的性能測(cè)試結(jié)果
另外,在此場(chǎng)景測(cè)試中,UH812a可支持高達(dá)78顆H100加速器同時(shí)高效工作,顯著領(lǐng)先于競(jìng)品(分別為65顆和64顆)。這一優(yōu)勢(shì)表明,UH812a具備支撐更大規(guī)模AI訓(xùn)練集群的潛力,能為極致擴(kuò)展的模型訓(xùn)練任務(wù)提供穩(wěn)定可靠的數(shù)據(jù)供給基礎(chǔ)。

圖4:UH812a與競(jìng)品可支持的H100數(shù)量對(duì)比
CosmoFlow訓(xùn)練場(chǎng)景
該場(chǎng)景主要模擬氣候、宇宙學(xué)等科學(xué)計(jì)算中的大規(guī)模訓(xùn)練任務(wù),要求存儲(chǔ)系統(tǒng)能夠支持從8個(gè)到數(shù)千個(gè)客戶(hù)端的GPU集群擴(kuò)展,同時(shí)高效讀取海量中等尺寸文件(每個(gè)約2MB)。其核心挑戰(zhàn)在于存儲(chǔ)系統(tǒng)的可擴(kuò)展性與延遲穩(wěn)定性——任何局部的訪(fǎng)問(wèn)延遲都可能拖慢整個(gè)分布式訓(xùn)練作業(yè),因此對(duì)存儲(chǔ)系統(tǒng)的并發(fā)處理與響應(yīng)一致性要求更高。
在CosmoFlow場(chǎng)景的實(shí)際驗(yàn)證中,我們累計(jì)訓(xùn)練了971819個(gè)文本數(shù)據(jù),并模擬了1至26顆GPU的訓(xùn)練過(guò)程。如圖5所示,當(dāng)加速器數(shù)量達(dá)到23顆及以上時(shí),UH812a的吞吐量穩(wěn)定維持在約14000MB/s,同時(shí)GPU利用率始終高于基準(zhǔn)要求(AU>70%),展現(xiàn)出卓越的系統(tǒng)可擴(kuò)展性與持續(xù)穩(wěn)定的高并發(fā)數(shù)據(jù)供給能力。

圖5:UH812a在不同數(shù)量H100環(huán)境下的性能測(cè)試結(jié)果
此外,在這一場(chǎng)景下,UH812a可支持26顆H100加速器,相比于競(jìng)品(支持21顆和16顆),支持GPU數(shù)量更多,可為高負(fù)載場(chǎng)景提供穩(wěn)定可靠的存儲(chǔ)服務(wù)。

圖6:UH812a與競(jìng)品可支持的H100數(shù)量對(duì)比
Checkpoint訓(xùn)練場(chǎng)景
此場(chǎng)景模擬大模型訓(xùn)練中保存和恢復(fù)訓(xùn)練狀態(tài)的關(guān)鍵操作,要求所有GPU同時(shí)將完整的模型狀態(tài)(參數(shù)、優(yōu)化器等,規(guī)模可達(dá)數(shù)TB)順序?qū)懭氪鎯?chǔ),再快速讀取。該過(guò)程是對(duì)存儲(chǔ)系統(tǒng)高并發(fā)順序讀寫(xiě)帶寬的終極考驗(yàn),其性能直接決定了訓(xùn)練任務(wù)因中斷而損失的時(shí)間。
在Checkpoint場(chǎng)景的實(shí)測(cè)中,受限于時(shí)間等因素,我們以L(fǎng)lama3-8b模型進(jìn)行了寫(xiě)入測(cè)試,圖7結(jié)果顯示,UH812a的帶寬達(dá)到13053.4 MB/s,較競(jìng)品A提升24%,較競(jìng)品B提升11%,可為用戶(hù)提供高性能的讀寫(xiě)體驗(yàn)。

圖7:Llama3-8b模型下UH812a與競(jìng)品表現(xiàn)對(duì)比
MLPerf Storage v2.0的測(cè)試結(jié)果表明,UH812a能夠充分滿(mǎn)足前沿AI場(chǎng)景對(duì)存儲(chǔ)系統(tǒng)的嚴(yán)苛性能需求,尤其在數(shù)據(jù)供給能力和穩(wěn)定性方面展現(xiàn)出顯著優(yōu)勢(shì),性能領(lǐng)先于業(yè)界同類(lèi)產(chǎn)品。這不僅印證了其在加速AI工作負(fù)載方面的卓越能力,也體現(xiàn)了其作為智能算力底座關(guān)鍵一環(huán)的核心價(jià)值。
未來(lái),憶聯(lián)將繼續(xù)聚焦AI存儲(chǔ)技術(shù)創(chuàng)新與產(chǎn)品研發(fā),致力于通過(guò)更高性能、更可靠的存儲(chǔ)解決方案,持續(xù)賦能智能算力基礎(chǔ)設(shè)施建設(shè),與產(chǎn)業(yè)伙伴共同推動(dòng)人工智能技術(shù)的規(guī)?;涞嘏c持續(xù)演進(jìn)。
申請(qǐng)創(chuàng)業(yè)報(bào)道,分享創(chuàng)業(yè)好點(diǎn)子。點(diǎn)擊此處,共同探討創(chuàng)業(yè)新機(jī)遇!





