2025 年 7 月 15 日,英偉達 CEO 黃仁勛宣布了一個震動 AI 圈的消息:美國政府即日起解除 H20 芯片對華銷售禁令,而就在禁令解除后,云工場科技發(fā)布詳細測試數(shù)據(jù)--- 8 卡 141GB 顯存的 H20 服務(wù)器,能流暢運行 671B 參數(shù)的滿血版非量化 DeepSeek-R1 模型,推理吞吐量突破預(yù)期。
硬核實測:141GB H20 跑滿血版非量化 DeepSeek 性能全面解析
測試環(huán)境配置
一. 測試數(shù)據(jù)
二. 關(guān)鍵性能測試結(jié)果
測試顯示:
1.首 token 響應(yīng)快: 在測試的多個并發(fā)量下,首個 Token 的響應(yīng)時間 (TTFT) 都保持在3秒以內(nèi)(實測 0.1s - 2.8s),用戶體驗非常流暢,感覺不到任何延遲。
2.高并發(fā)吞吐大: H20 顯卡展現(xiàn)出優(yōu)秀的并發(fā)處理能力。在模擬 100 個用戶同時提問(并發(fā)請求=100)的中高負載場景下:
·處理短問題(輸入/輸出各 256 tokens),系統(tǒng)總吞吐量高達 約 1124 tokens/s。
·處理典型問題(輸入/輸出各 1K tokens),總吞吐量穩(wěn)定在 約 1100 tokens/s。
·處理復(fù)雜問題/長對話(輸入/輸出各 2K tokens),總吞吐量仍能保持 約 1020 tokens/s。
分場景性能趨勢:
1.低并發(fā)場景 (<10 用戶):
·響應(yīng)極快: TTFT 始終低于 0.9 秒,用戶幾乎感覺不到等待。
·吞吐未飽和: 系統(tǒng)能力遠未被充分利用,吞吐量相對較低(32-208 tokens/s),性能表現(xiàn)輕松自如。
2.中高并發(fā)場景 (50-100用戶):
·響應(yīng)依然迅速: TTFT 保持在 1.9 秒 (1K上下文) 到 2.8 秒 (2K上下文),交互體驗依然流暢。
·吞吐大幅躍升: 系統(tǒng)資源得到高效利用,總吞吐量急劇上升至 634 - 1124 tokens/s。
·長上下文優(yōu)勢顯現(xiàn): 在相同并發(fā)下,處理更長(1K/2K)的上下文通常能獲得比短上下文(256)更高的吞吐量(尤其在并發(fā)50時最明顯),充分體現(xiàn)了 vLLM 對長文本的優(yōu)化效果。
3.極限場景 (100用戶 + 長上下文 2K):
·響應(yīng)可控: TTFT 為 2.8 秒,交互體驗依然流暢。
·吞吐維持高位: 即使在此壓力下,系統(tǒng)總吞吐量仍達 1020 tokens/s。
三.測試總結(jié)
云工場科技構(gòu)建了全面的異構(gòu)計算資源池,涵蓋 NVIDIA 全系高性能 GPU(包括 141GB 顯存 H20、L20、RTX 4090 等最新型號)、AMD w7900 以及國產(chǎn)算力三巨頭(華為昇騰 910B 系列、百度昆侖芯 P800、燧原 S60)等等,可本地部署到就近機房,提供 DeepSeek、文心一言、華為盤古、LLaMA 等開源大模型本地部署。
通過嚴格的橫向性能基準測試,云工場科技驗證了不同架構(gòu) GPU 在 LLM 推理、計算機視覺等場景的能效比差異,并為客戶提供"算力租賃 + 算力智能調(diào)度 + 平臺化交付"的完整 AI 服務(wù)體系,目前已在教育/工業(yè)/通信/交通等多領(lǐng)域成功落地,支撐其大模型部署、推理及場景化落地的全流程需求。
申請創(chuàng)業(yè)報道,分享創(chuàng)業(yè)好點子。點擊此處,共同探討創(chuàng)業(yè)新機遇!