當(dāng)前位置:首頁 >  科技 >  數(shù)碼 >  正文

AMD最強(qiáng)生成式AI核彈發(fā)布!跑大模型性能超H100,預(yù)告下一代AI PC處理器

 2023-12-13 14:56  來源: 互聯(lián)網(wǎng)   我來投稿 撤稿糾錯(cuò)

  域名預(yù)訂/競(jìng)價(jià),好“米”不錯(cuò)過

芯東西(公眾號(hào):aichip001)

作者 | ZeR0

編輯 | 漠影

芯東西12月6日圣何塞報(bào)道,北京時(shí)間12月7日凌晨,芯片巨頭AMD的年終AI盛會(huì)Advancing AI活動(dòng)正式舉行。在AI芯片賽道愈戰(zhàn)愈勇的AMD今天會(huì)放出怎樣的大招,著實(shí)令人期待,為此芯東西早早來到會(huì)場(chǎng),翹首等待被粉絲們親切稱作“蘇媽”的AMD CEO蘇姿豐發(fā)表主題演講。

今天加州的陽光依然燦爛,當(dāng)?shù)貢r(shí)間10點(diǎn)一到,大會(huì)正式開場(chǎng),蘇媽健步如飛地走上臺(tái),笑容滿面地分享對(duì)人工智能(AI)計(jì)算的觀察思考,將AI評(píng)價(jià)為“過去50年來最具變革性的技術(shù)”,稱生成式AI是“最剛需的數(shù)據(jù)中心工作負(fù)載”。

會(huì)上,AMD宣布推出旗艦數(shù)據(jù)中心AI芯片AMD Instinct MI300X GPU ,并在多項(xiàng)硬件規(guī)格及大模型訓(xùn)推測(cè)試上與英偉達(dá)正面交鋒。

AI峰值性能、內(nèi)存密度、內(nèi)存帶寬,這些關(guān)鍵硬件規(guī)格通通秒掉英偉達(dá)旗艦AI芯片H100 GPU!也就是說,相比英偉達(dá)H100,MI300X能跑更大參數(shù)規(guī)模的大模型。

這是一場(chǎng)AMD全面展示其AI戰(zhàn)略雄心的盛會(huì),除了MI300X外,AMD還宣布推出結(jié)合最新AMD CDNA 3架構(gòu)和“Zen 4”CPU的MI300A加速處理單元(APU) ,以及讓筆記本電腦能夠更輕松添加AI功能的Ryzen 8040系列移動(dòng)處理器

此外,AMD劇透了Ryzen AI路線圖,代號(hào)為“Strix Point ”的下一代Ryzen AI CPU將在2024年出貨,采用XDNA 2架構(gòu)。XDNA 2架構(gòu)的生成式AI NPU性能將提高到上一代的3倍以上。

軟件方面,AMD發(fā)布了最新版本的ROCm 6 開放軟件堆棧,該堆棧針對(duì)生成式AI(尤其是大語言模型)進(jìn)行了優(yōu)化。相較MI250搭ROCm 5,MI300X與ROCm 6雙強(qiáng)組合在Llama 2上生成文本的總體延遲性能提高了約8倍 。

與Ryzen 8040系列處理器同時(shí)登場(chǎng)的Ryzen AI 1.0軟件棧 ,使開發(fā)者能夠輕松部署使用預(yù)訓(xùn)練模型為Windows應(yīng)用程序添加AI功能。

一、MI300X:內(nèi)存容量帶寬超H100,更快暢跑千億參數(shù)大模型

蘇姿豐說,一年前,AMD預(yù)估全球數(shù)據(jù)中心AI芯片/GPU的TAM將從2023年的300億美元增長到2027年的1500億美元,未來4年CAGR增速將超過50%。但顯然需求增長得更快,現(xiàn)在AMD將其預(yù)估修正為數(shù)據(jù)中心加速器未來四年每年增長70%以上,到2027年將超過4000億美元。

她分享道,AMD的AI戰(zhàn)略圍繞三大重點(diǎn):1)提供高性能、高能效的GPU、CPU和用于AI訓(xùn)練及推理的自適應(yīng)計(jì)算解決方案的廣泛組合;2)擴(kuò)展開放的、經(jīng)驗(yàn)證的、對(duì)開發(fā)人員友好的軟件平臺(tái);3)擴(kuò)大深度協(xié)同創(chuàng)新的AI生態(tài)系統(tǒng)。

為了解決GPU硬件可用性問題,AMD推出Instinct MI300X加速器。

蘇姿豐稱MI300X加速器是AMD迄今制造過的最先進(jìn)的產(chǎn)品、“業(yè)界最先進(jìn)的AI加速器”,擁有1530億顆晶體管、192GB HBM3內(nèi)存容量、5.3TB/s峰值內(nèi)存帶寬、896GB/s Infinity Fabric互連帶寬,能支撐大模型訓(xùn)練和推理。

大模型拼算力,關(guān)鍵就是看內(nèi)存容量和帶寬,所以相比英偉達(dá)H100的96GB內(nèi)存、3.2TB/s帶寬,MI300X在硬件配置上很有吸引力。

MI300X把4個(gè)SoC Die都用來放GPU,8個(gè)HBM3升級(jí)到24GB,形成了一個(gè)由8顆CDNA 3架構(gòu)Accelerator Complex Die(XCD)、4個(gè)I/O Die(IOD)、8個(gè)HBM內(nèi)存堆棧組成的共有12顆5nm Chiplet的集成系統(tǒng)。Chiplet的好處是提高良率和降低成本,因此MI300X可能會(huì)在定價(jià)上比H100/H200更具性價(jià)比。

通過這種“拼芯片樂高”的方式,MI300X實(shí)現(xiàn)了計(jì)算核數(shù)、帶寬及內(nèi)容容量的顯著增加。其采用的CDNA 3架構(gòu)對(duì)性能和能效進(jìn)行了優(yōu)化,結(jié)合了一個(gè)新的計(jì)算引擎,支持稀疏性和TF32、FP8等新數(shù)據(jù)格式,為關(guān)鍵數(shù)據(jù)類型(如FP16/BF16)提供的性能達(dá)到上一代的3.4倍。

相比上一代MI250X,MI300X增加了近40%的計(jì)算單元、1.5倍的內(nèi)存容量、1.7倍的峰值理論內(nèi)存帶寬,并支持FP8和稀疏性等新數(shù)值格式。

微軟CTO凱文·斯科特來到現(xiàn)場(chǎng)介紹微軟與AMD的合作進(jìn)展。MI300X芯片將為針對(duì)AI工作負(fù)載進(jìn)行優(yōu)化的全新Azure ND MI300x v5虛擬機(jī)系列提供動(dòng)力。

多個(gè)GPU互連性能需要線性提高,因此可擴(kuò)展性至關(guān)重要。蘇姿豐說,MI300X平臺(tái)是世界上最強(qiáng)大的生成式AI系統(tǒng)。

AMD Instinct MI300X平臺(tái)是一個(gè)內(nèi)置8個(gè)MI300X的OCP標(biāo)準(zhǔn)整機(jī)形態(tài),BF16/FP16峰值算力可達(dá)到10.4PFLOPS,總共可提供1.5TB的HBM3內(nèi)存容量,這兩個(gè)規(guī)格都高于英偉達(dá)H100 HGX。

在跑不同Kernel的Flash Attention 2、Llama 2 70B大模型時(shí),MI300X均表示出優(yōu)于H100的性能。

8卡AMD Instinct MI300X平臺(tái)在BLOOM 176B大語言模型上跑推理的吞吐量達(dá)到英偉達(dá)H100 HGX的1.6倍。

在訓(xùn)練擁有300億參數(shù)的MPT模型時(shí),MI300X平臺(tái)與H100 HGX的吞吐量持平。

同等性能的單個(gè)系統(tǒng)跑大語言模型時(shí),無論是訓(xùn)練還是推理,MI300X平臺(tái)的性能都超過H100 HGX。

Oracle云基礎(chǔ)設(shè)施計(jì)劃將基于MI300X的裸機(jī)實(shí)例添加到該公司為AI的高性能加速計(jì)算實(shí)例中,基于MI300X的實(shí)例計(jì)劃通過超高速RDMA網(wǎng)絡(luò)支持OCI超級(jí)集群。其即將到來的生成式AI服務(wù)中也將包含MI300X。

惠普、戴爾、聯(lián)想、超微、技嘉、鴻佰、英業(yè)達(dá)、云達(dá)、緯創(chuàng)、緯穎等都是MI300X芯片的OEM和解決方案合作伙伴。

二、MI300A:APU四大優(yōu)勢(shì)加持,高性能計(jì)算能效比超GH200

AMD Instinct MI300A APU是世界上第一個(gè)用于HPC和AI的數(shù)據(jù)中心APU,采用3D封裝和第4代AMD Infinity架構(gòu)。

該加速器結(jié)合了6個(gè)CDNA 3架構(gòu)Accelerator Complex Die(XCD)、3個(gè)CPU Complex Die(CCD,共24個(gè)x86“Zen 4”核心)、4個(gè)I/O Die(IOD)、8個(gè)HBM內(nèi)存堆棧、128GB新一代HBM3內(nèi)存。

MI300A同樣遵循Chiplet設(shè)計(jì)思路,并實(shí)現(xiàn)了CPU與GPU共享統(tǒng)一內(nèi)存。

與MI250X相比,MI300A在FP32 HPC和AI工作負(fù)載上提供了約1.9倍的每瓦性能;和英偉達(dá)H100 SXM相比,MI300A的內(nèi)存容量、峰值內(nèi)存帶寬、FP64精度HPC矩陣及向量峰值性能均更高。

AMD正在設(shè)定能效創(chuàng)新的步伐,其30×25目標(biāo)旨在從2020~2025為AI訓(xùn)練及HPC服務(wù)器處理器和加速器提高30倍的能效。

總體來看,APU有四大優(yōu)勢(shì):1)統(tǒng)一內(nèi)存;2)共享AMD Infinity Cache技術(shù);3)動(dòng)態(tài)功率共享;4)易于編程。這使得APU能為客戶提供高性能計(jì)算、快速的AI訓(xùn)練和高能效。

通過將統(tǒng)一內(nèi)存、內(nèi)存帶寬、GPU性能多重優(yōu)勢(shì)組合,MI300A在OpenFOAM高性能計(jì)算MotorBike測(cè)試中,得分是H100的4倍。

在PeakHPC每瓦性能測(cè)試中,MI300A的成績(jī)是英偉達(dá)GH200的2倍。

在跑多種高性能計(jì)算任務(wù)時(shí),相比H100,AMD MI300A均略勝一籌。

美國勞倫斯利弗莫爾國家實(shí)驗(yàn)室打造的超級(jí)計(jì)算機(jī)EI Capitan便采用了MI300A,預(yù)計(jì)將成為世界上第一臺(tái)2ExaFLOPS超級(jí)計(jì)算機(jī)。

惠普、Eviden、技嘉、超微等是MI300A加速器的OEM和解決方案合作伙伴。

三、ROCm 6軟件:針對(duì)生成式AI優(yōu)化,讓Llama 2推理延遲暴降

軟件是顯著提高現(xiàn)有硬件可用性能的關(guān)鍵。

近年來,AMD持續(xù)降低用戶的遷移成本和開發(fā)門檻,來不斷補(bǔ)強(qiáng)其從云到端的軟件護(hù)城河。

其中與AMD Instinct、Radeon GPU搭配使用的ROCm 6開放軟件平臺(tái)對(duì)新數(shù)據(jù)類型、先進(jìn)圖形和核心進(jìn)行了優(yōu)化。

ROCm 6增加了對(duì)生成式AI的幾個(gè)新增關(guān)鍵功能的支持,包括Flash Attention、HIP Graph、vLLM等。

與上一代軟硬件組合相比,使用MI300X和ROCm 6跑Llama 2 70B文本生成,AI推理延遲速度提高了約8倍。

單張GPU跑Llama 2 13B推理任務(wù)時(shí),MI300X的性能是H100的1.2倍。

Meta宣布與AMD擴(kuò)大合作伙伴關(guān)系,將MI300X與ROCm 6結(jié)合使用,為AI推理工作負(fù)載提供動(dòng)力,并認(rèn)可AMD對(duì)Llama 2系列語言模型做的ROCm 6優(yōu)化。

AMD正通過收購AI軟件創(chuàng)企Nod.ai和Mipsology,利用廣泛的開源AI軟件模型、算法、框架、編譯器,擴(kuò)展開源戰(zhàn)略,推進(jìn)基于編譯器的優(yōu)化,加快客戶互動(dòng)等組合策略,來加強(qiáng)軟件能力、簡(jiǎn)化開發(fā),持續(xù)改善開發(fā)者體驗(yàn)。

AMD還繼續(xù)通過戰(zhàn)略生態(tài)系統(tǒng)伙伴關(guān)系投資軟件能力,數(shù)據(jù)湖供應(yīng)商databricks、AI創(chuàng)企Essential AI、為企業(yè)客戶提供大語言模型的Lamini的聯(lián)合創(chuàng)始人均來到現(xiàn)場(chǎng)進(jìn)行分享,談?wù)撍麄內(nèi)绾卫肕I300X芯片和ROCm 6軟件堆棧為企業(yè)客戶提供差異化的AI解決方案。

從3.0版本開始,OpenAI標(biāo)準(zhǔn)Triton 3.0將添加對(duì)AMD GPU芯片開箱即用的支持。

四、Ryzen 8040:為AI PC提供動(dòng)力,跑生成式AI性能大漲60%

AMD的AI布局已覆蓋云邊端,除了Instinct加速器外,還有面向數(shù)據(jù)中心和邊緣推理的Alveo加速器、數(shù)據(jù)中心x86處理器EPYC、用于AI+傳感器嵌入式推理的Versal AI Edge、為消費(fèi)級(jí)PC市場(chǎng)打造的Ryzen移動(dòng)處理器。

面向個(gè)人AI處理任務(wù),AMD在NPU中為移動(dòng)AI處理能效設(shè)計(jì)了專用AI引擎,在CPU添加了AVX-512 VNNI指令集來加速AI工作負(fù)載,Radeon顯卡也內(nèi)置有為并行處理AI工作負(fù)載優(yōu)化的引擎。

AMD Ryzen 8040系列移動(dòng)處理器為尋求具有可信性能和運(yùn)行先進(jìn)AI體驗(yàn)?zāi)芰Φ墓P記本電腦創(chuàng)意專業(yè)人士、游戲玩家和主流用戶而設(shè)計(jì),采用“Zen 4”CPU和RDNA 3架構(gòu)GPU。

這款最新處理器支持LPDDR5內(nèi)存,跑Llama 2大語言模型、視覺模型等生成式AI任務(wù)的性能是上一代7040處理器的1.4倍。

與英特爾酷睿i9 13900H相比,Ryzen 8040系列在多線程處理、游戲、內(nèi)容創(chuàng)作等任務(wù)的性能均更加出色。

Ryzen 9 8945HS處理器基于“Zen 4”設(shè)計(jì),擁有多達(dá)8個(gè)核心,可提供16個(gè)線程的處理能力。

宏碁、華碩、戴爾、惠普、聯(lián)想、雷蛇等OEM廠商預(yù)計(jì)將從2024年第一季度開始供應(yīng)Ryzen 8040系列。

Ryzen 8040系列移動(dòng)處理器已經(jīng)準(zhǔn)備好利用Windows 11生態(tài)系統(tǒng)的全方位優(yōu)化性能,包括全面支持Windows 11安全功能。

AMD還廣泛提供Ryzen AI軟件,供用戶在其AI PC上輕松構(gòu)建和部署機(jī)器學(xué)習(xí)模型。

今天AMD Ryzen AI提供有超過100種AI驅(qū)動(dòng)的體驗(yàn)。1.0版本的Ryzen AI軟件支持開源ONNX運(yùn)行時(shí)推理引擎,并在Hugging Face上提供一個(gè)預(yù)優(yōu)化的模型市場(chǎng),使用戶幾分鐘內(nèi)就能啟動(dòng)和運(yùn)行AI模型。

帶有Ryzen AI的筆記本電腦可將AI模型卸載到NPU,從而釋放CPU以降低功耗,同時(shí)延長電池壽命。

Ryzen AI軟件現(xiàn)已廣泛可用。開發(fā)者可以利用它來構(gòu)建和部署受過PyTorch、TensorFlow等框架訓(xùn)練的AI模型,并在由Ryzen AI提供支持的特定筆記本電腦上運(yùn)行它們。

開發(fā)者可在AMD Ryzen AI計(jì)算資源上快速部署生成式AI。該軟件獲得了對(duì)Whisper等自動(dòng)語音識(shí)別模型和OPT、Llama 2等大模型的早期訪問支持,以便解鎖語音轉(zhuǎn)寫、文檔摘要等功能。

AMD最近還宣布了Pervasive AI開發(fā)者挑戰(zhàn)賽,有生成式AI、機(jī)器人AI、PC AI三個(gè)賽道可選擇。其中PC AI是讓開發(fā)者借助Ryzen AI,使用視覺、語音或領(lǐng)域優(yōu)化的大語言模型為PC構(gòu)建應(yīng)用程序。每個(gè)賽道的最高獎(jiǎng)金為10000美元,二等獎(jiǎng)和三等獎(jiǎng)也會(huì)獲得相應(yīng)獎(jiǎng)勵(lì)。免費(fèi)硬件申請(qǐng)將于2024年1月31日截止。

結(jié)語:挺進(jìn)AI芯片市場(chǎng),AMD蓄勢(shì)待發(fā)

長久以來,英偉達(dá)一直是AI芯片游戲規(guī)則的制定者。AMD Instinct MI300系列加速器的推出,意味著AMD成為高性能數(shù)據(jù)中心AI芯片的核心玩家之一,并且是英偉達(dá)有力的競(jìng)爭(zhēng)對(duì)手。

AMD初步證明了其在AI硬件研發(fā)上的實(shí)力,而其勁敵英偉達(dá)能橫掃AI計(jì)算市場(chǎng)的真正王牌是形成強(qiáng)大集群的先進(jìn)互連技術(shù)和持續(xù)優(yōu)化的軟件。在今日的發(fā)布中,AMD亦展現(xiàn)出其通過軟件來升級(jí)AI能力的投資布局。

被英偉達(dá)主導(dǎo)已久的AI芯片戰(zhàn)場(chǎng),終于出現(xiàn)了令人期待的火藥味。在11月舉行的第三財(cái)季電話會(huì)議上,AMD CEO蘇姿豐告訴投資者,公司預(yù)計(jì)明年MI300系列的收入將達(dá)到20億美元。許多業(yè)內(nèi)人士也非常期待看到以一己之力打破英特爾與英偉達(dá)壟斷的“屠龍勇士”AMD,能夠改變AI芯片市場(chǎng)局勢(shì),書寫新的“AMD yes”故事。

畢竟對(duì)于迫切需要更多AI算力的下游客戶來說,更多的AI芯片選擇,總歸不是壞事。

申請(qǐng)創(chuàng)業(yè)報(bào)道,分享創(chuàng)業(yè)好點(diǎn)子。點(diǎn)擊此處,共同探討創(chuàng)業(yè)新機(jī)遇!

相關(guān)文章

熱門排行

信息推薦