當前位置:首頁 >  科技 >  IT業(yè)界 >  正文

為AI加速而生 英特爾CPU能跑200億參數(shù)大模型

 2023-12-22 14:46  來源: 互聯(lián)網(wǎng)   我來投稿 撤稿糾錯

  域名預訂/競價,好“米”不錯過

(導語)實用化 AI 算力又升上了一個新臺階。

在人工智能的應用領域,出現(xiàn)了一些讓人始料未及的趨勢:很多傳統(tǒng)企業(yè)開始選擇在CPU平臺上落地和優(yōu)化AI應用。

例如制造領域在高度精細且較為耗時的瑕疵檢測環(huán)節(jié),就導入了CPU及其他產(chǎn)品組合,來構建橫跨“云-邊-端”的AI?缺陷檢測方案,代替?zhèn)鹘y(tǒng)的人工瑕疵檢測方式。

再比如亞信科技就在自家OCR-AIRPA方案中采用了CPU作為硬件平臺,實現(xiàn)了從FP32到INT8/BF16的量化,從而在可接受的精度損失下,增加吞吐量并加速推理。將人工成本降至原來的1/5到1/9,效率還提升了約5-10倍。

在處理AI制藥領域最重要的算法——AlphaFold2這類大型模型上,CPU同樣也“加入群聊”。從去年開始,CPU便使AlphaFold2端到端的通量提升到了原來的23.11倍;而現(xiàn)如今,CPU讓這個數(shù)值再次提升3.02倍。

上述這些CPU,都有個共同的名字——至強,即英特爾®? 至強®? 可擴展處理器。

為什么這些AI任務的推理能用CPU,而不是只考慮由GPU或AI加速器來處理?

這里歷來存在很多爭論。

很多人認為,真正落地的AI應用往往與企業(yè)的核心業(yè)務緊密關聯(lián),在要求推理性能的同時,也需要關聯(lián)到它的核心數(shù)據(jù),因此對數(shù)據(jù)安全和隱私的要求也很高,因此也更偏向本地化部署。

而結合這個需求,再考慮到真正用AI的傳統(tǒng)行業(yè)更熟悉、更了解也更容易獲取和使用CPU,那么使用服務器CPU混合精度實現(xiàn)的推理吞吐量,就是他們能夠更快和以更低成本解決自身需求的方法了。

面對越來越多傳統(tǒng)AI應用和大模型在CPU上的落地優(yōu)化,“用CPU加速AI”這條道路被不斷驗證。這就是在數(shù)據(jù)中心中,有70%的推理運行在英特爾® 至強® 可擴展處理器上的原因。

最近,英特爾的服務器CPU完成了又一次進化。12月15日,第五代英特爾® 至強® 可擴展處理器正式發(fā)布。英特爾表示,一款為AI加速而生,而且表現(xiàn)更強的處理器誕生了。

人工智能正在推動人類與技術交互方式的根本性轉變,這場轉變的中心就是算力。

英特爾CEO帕特·基辛格(Pat Gelsinger)在2023英特爾ON技術創(chuàng)新大會表示:“在這個人工智能技術與產(chǎn)業(yè)數(shù)字化轉型飛速發(fā)展的時代,英特爾保持高度的責任心,助力開發(fā)者,讓AI技術無處不在,讓AI更易觸達、更可見、透明并且值得信任。”

第五代至強 為AI加速

第五代英特爾® 至強® 可擴展處理器的核心數(shù)量增加至64個,配備了高達320MB的L3緩存和128MB的L2緩存。不論單核性能還是核心數(shù)量,它相比以往的至強都有了明顯提升。在最終性能指標上,與上代產(chǎn)品相比,在相同功耗下平均性能提升21%,內(nèi)存帶寬提升高達16%,三級緩存容量提升到了原來的近3倍。

更為重要的是,第五代至強® 可擴展處理器的每個內(nèi)核均具備AI加速功能,完全有能力處理要求嚴苛的AI工作負載。與上代相比,其訓練性能提升多達29%,推理能力提升高達42%。

在重要的AI負載處理能力上,第五代英特爾® 至強® 可擴展處理器也交出了令人滿意的答卷。

首先要讓CPU學會高效處理AI負載的方法:在第四代至強® 可擴展處理器上,英特爾面向深度學習任務帶來了矩陣化的算力支持。

英特爾®? AMX就是至強CPU上的專用矩陣計算單元,可被視為CPU上的Tensor Core,從第四代至強® 可擴展處理器開始成為內(nèi)置于CPU的AI加速引擎。

第五代至強®? 可擴展處理器利用英特爾®? AMX與英特爾®? AVX-512指令集,配合更快的內(nèi)核,以及速度更快的內(nèi)存,可以讓生成式AI更快地在其上運行,無需獨立的AI加速器就能執(zhí)行更多工作負載。

借助在自然語言處理 (NLP) 推理方面實現(xiàn)的性能飛躍,這款全新的至強® 可支持響應更迅速的智能助手、聊天機器人、預測性文本、語言翻譯等工作負載,可以在運行參數(shù)量200億的大語言模型時,做到時延不超過100毫秒。

據(jù)了解,11.11期間,京東云便通過基于第五代英特爾® 至強® 可擴展處理器的新一代服務器,成功應對了業(yè)務量激增。與上一代服務器相比,新一代京東云服務器實現(xiàn)了23%的整機性能提升,AI計算機視覺推理性能提升了38%,Llama v2推理性能也提高了51%,輕松hold住用戶訪問峰值同比提高170%、智能客服咨詢量超14億次的大促壓力。

除此之外,第五代英特爾® 至強® 可擴展處理器也在能效、運營效率、安全及質量等方面實現(xiàn)了全面提升,提供了向前代產(chǎn)品的軟件和引腳兼容性支持,以及硬件級安全功能和可信服務。

國內(nèi)云服務大廠阿里云也在發(fā)布會上披露了其實測體驗數(shù)據(jù),基于第五代英特爾® 至強® 可擴展處理器及英特爾® AMX、英特爾® TDX加速引擎,阿里云打造了 “生成式AI模型及數(shù)據(jù)保護”的創(chuàng)新實踐,使第八代ECS實例在實現(xiàn)了全場景加速和全能力提升情況下,更加固了安全性能,且保持實例價格不變,普惠客戶。

數(shù)據(jù)顯示,其在數(shù)據(jù)全流程保護的基礎上,AI推理性能提高25%、QAT加解密性能提升20%、數(shù)據(jù)庫性能提升25%,以及音視頻性能提升15%。

英特爾表示,第五代至強® 可擴展處理器可為AI、數(shù)據(jù)庫、網(wǎng)絡和科學計算工作負載帶來更強大的性能和更低的TCO,將目標工作負載的每瓦性能提升高達10倍。

對先進AI模型實現(xiàn)原生加速

為讓CPU能夠高效處理AI任務,英特爾把AI加速的能力提升到了「開箱即用」的程度。

英特爾®? AMX除了可以加速深度學習的推理、訓練以外,現(xiàn)在已經(jīng)支持了流行的深度學習框架。在深度學習開發(fā)者常用的TensorFlow、PyTorch上,英特爾® oneAPI深度神經(jīng)網(wǎng)絡庫 (oneDNN) 提供了指令集層面的支持,使開發(fā)人員能夠在不同硬件架構和供應商之間自由遷移代碼,可以更輕松地利用芯片內(nèi)置的AI加速能力。

在保證了AI加速直接可用之后,英特爾利用高性能開源深度學習框架OpenVINO™ 工具套件,幫助開發(fā)者實現(xiàn)了一次開發(fā)、多平臺部署。它可以轉換和優(yōu)化使用熱門框架訓練好的模型,在多種英特爾硬件的環(huán)境中快速實現(xiàn),幫用戶最大程度地利用已有資源。

OpenVINO™ 工具套件最新的版本也加入了對大型語言模型 (LLM) 性能的改進,可以支持生成式AI工作負載,包括聊天機器人、智能助手、代碼生成模型等。

OpenVINO™ 工具套件2

通過這一系列技術,英特爾讓開發(fā)者們能夠在幾分鐘內(nèi)調優(yōu)深度學習模型,或完成對中小型深度學習模型的訓練,在不增加硬件和系統(tǒng)復雜性的前提下獲得媲美獨立AI加速器的性能。

比如在先進的預訓練大語言模型上,英特爾的技術就可以幫助用戶完成快速部署。

用戶可以從最熱門的機器學習代碼庫Hugging Face中下載預訓練模型LLaMA2,然后使用英特爾®? PyTorch、英特爾®? Neural Compressor等將模型轉換為BF16或INT8精度版本以降低延遲,再使用PyTorch進行部署。

英特爾表示,為了能夠緊跟AI領域的潮流,有數(shù)百名軟件開發(fā)人員正在不斷改進常用的模型加速能力,讓用戶能夠在跟上最新軟件版本的同時,獲得對于先進AI模型的支持。

第五代至強® 可擴展處理器的實力,目前已在部分大廠進行了驗證?;鹕揭媾c英特爾合作升級了第三代彈性計算實例。

目前,火山引擎已通過獨有的潮汐資源并池能力,構建百萬核彈性資源池,能夠以近似包月的成本提供按量使用體驗,降低上云成本?;诘谖宕⑻貭?reg; 至強® 可擴展處理器,火山引擎第三代彈性計算實例整機算力再次提升了39%,應用性能最高提升了43%。

這只是個開始??梢灶A見,很快會有更多科技公司的應用能夠從第五代至強®? 可擴展處理器的性能中獲益。

下一代至強已經(jīng)現(xiàn)身

未來,人們對于生成式AI的需求還將不斷擴大,更多的智能化應用將會改變我們的生活。以計算能力為基礎,萬物感知、萬物互聯(lián)、萬物智能的時代正在加速到來。

面對這樣的趨勢,英特爾正在加緊打造再下一代的至強CPU,它們面向AI的「專業(yè)化」程度還會更高。

在最近披露的英特爾數(shù)據(jù)中心路線圖上,下一代至強® 處理器將對不同工作負載、場景配備不同的核心,其中主打計算密集型與AI任務的型號會使用側重性能輸出的核「P-core」,面向高密度與橫向擴展負載的型號則會使用有更高能效的核「E-core」,這兩種不同的核心架構并存的設計,既滿足部分用戶對極致性能的追求,也能兼顧到可持續(xù)發(fā)展綠色節(jié)能的需求。

未來,英特爾還將如何實現(xiàn)晶體管和芯片性能的飛躍,在AI算力上還能有什么樣的躍升?

讓我們拭目以待。

申請創(chuàng)業(yè)報道,分享創(chuàng)業(yè)好點子。點擊此處,共同探討創(chuàng)業(yè)新機遇!

相關標簽
英特爾

相關文章

  • 為AI加速而生 英特爾第五代至強CPU帶來AI新表現(xiàn)

    AI時代,親民、易用的CPU如何能實現(xiàn)相比GPU更具性價比的加速方案?英特爾?至強?可擴展處理器給出答案:內(nèi)置AI加速引擎,更好地承載人工智能應用工作負載。千呼萬喚始出來,第五代英特爾??至強??可擴展處理器,它來了!若是用一句話來概括它的特點,那就是——AI味道越發(fā)得濃厚。以訓練、推理大模型為例:

    標簽:
    英特爾
  • 英特爾發(fā)布全新酷睿Ultra處理器,微星尊爵系列筆記本首批搭載上市!

    12月15日,英特爾正式發(fā)布代號MeteorLake的新一代酷睿Ultra處理器。該處理器是英特爾首款AIPC處理器,全系內(nèi)置AI計算核心,讓用戶在無需聯(lián)網(wǎng)的情況下也能進行端側AI大模型部署。作為首批搭載英特爾新一代酷睿Ultra處理器的筆記本,微星新品尊爵16AIEvo、尊爵13AIEvo均支持英

    標簽:
    英特爾
  • 2023年英特爾銳炫顯卡回顧:步步扎實,從軟件提升到新型應用全面高速發(fā)展

    2023年對于英特爾銳炫GPU而言,無疑是具有里程碑意義的一年。如果你仔細打量銳炫GPU這一路走來的足跡就會發(fā)現(xiàn),它邁出的每一步都是如此扎實。依托英特爾強大的技術力、生態(tài)力、創(chuàng)新力,銳炫GPU在2023年實現(xiàn)了驅動更新提速、性能提升、新品布局、行業(yè)助力、創(chuàng)新發(fā)展等多維度、多渠道并行狀態(tài)下的超高速發(fā)展

    標簽:
    英特爾
  • 英特爾銳炫顯卡亮相進博會,帶來AIGC革新體驗

    步入AI時代,GPU算力的重要性早已不言而喻。誰擁有強勁的GPU算力,誰就擁有足夠的話語權,這話有點難聽,但事實確是如此。尤其是伴隨著AIGC的出現(xiàn),“向大眾市場下沉”是AI領域現(xiàn)階段以及未來數(shù)年、數(shù)十年的必然趨勢。新興技術不能總是呆在實驗室里,而是要走向市場、走向用戶。在這個過程中,用戶能否從AI

    標簽:
    英特爾
  • 英特爾與聯(lián)想、愛奇藝舉行備忘合作發(fā)布會 在AI PC領域深度合作

    10月31日下午,英特爾公司、聯(lián)想集團、愛奇藝三方備忘合作發(fā)布會在北京舉行。三家企業(yè)簽署合作備忘錄,旨在攜手加速AI變革在應用端的落地,為用戶帶來全新的AI高級智能化體驗。此次簽署備忘錄意味著三方發(fā)揮各方優(yōu)勢,在AIPC領域展開深度合作。從左至右依次為:英特爾集團副總裁兼終端系統(tǒng)客戶工程總經(jīng)理Ken

    標簽:
    英特爾

熱門排行

信息推薦