當(dāng)前位置:首頁(yè) >  科技 >  互聯(lián)網(wǎng) >  正文

英偉達(dá)“超神”的背后:AI廠商迫切地在MoE模型上尋求算力新解法

 2024-06-21 09:43  來(lái)源: A5專欄   我來(lái)投稿 撤稿糾錯(cuò)

  域名預(yù)訂/競(jìng)價(jià),好“米”不錯(cuò)過(guò)

文 | 智能相對(duì)論

作者 | 陳泊丞

在過(guò)去的一年多時(shí)間內(nèi),英偉達(dá)破天荒地完成了市值的“三級(jí)跳”。

一年前,英偉達(dá)的市值并尚不足1萬(wàn)億美元,位居谷歌母公司Alphabet、亞馬遜、蘋果和微軟等科技巨頭之后。

時(shí)至今日,英偉達(dá)市值突破3萬(wàn)億美元,超越蘋果,僅次于微軟。

這樣的成就歸功于英偉達(dá)在AI芯片領(lǐng)域的顯著優(yōu)勢(shì)。隨著生成式AI進(jìn)入規(guī)?;l(fā)階段,算力需求愈發(fā)膨脹,由此英偉達(dá)的AI芯片便成了市場(chǎng)的“香餑餑”。

然而,市場(chǎng)對(duì)算力的需求遠(yuǎn)超大眾的想象,英偉達(dá)的高端芯片也是一卡難求,在這個(gè)節(jié)點(diǎn)上AI行業(yè)不得不在其他層面上尋求破局算力荒的新解法。

如今,在算法架構(gòu)上,MoE混合專家模型憑借其在算力效率上的顯著優(yōu)勢(shì)持續(xù)走紅,成為越來(lái)越多AI廠商共同探索的新方向。

那么,MoE模型的走紅,是否真的能為AI行業(yè)破解算力荒?

MoE模型劍指算力效率:優(yōu)化算法,壓榨性能

區(qū)別于稠密(Dense)模型,MoE模型采用采用稀疏激活機(jī)制,在處理任務(wù)的過(guò)程中往往可以根據(jù)不同的任務(wù)需求,只需要激活一部分專家網(wǎng)絡(luò)即可,而非激活全部參數(shù),從而很好地提高了計(jì)算效率,更高效地利用計(jì)算資源。

比如,阿里巴巴的Qwen1.5-MoE-A2.7B模型在總參數(shù)量為143億的情況下,每次推理只激活27億參數(shù)。類似的,DeepSeek-MoE 16B的總參數(shù)量為164億,但每次推理只激活約28億的參數(shù)等等。

以上這種設(shè)計(jì),就有效平衡了模型的性能與計(jì)算資源的使用效率。

因此,盡管MoE模型通常擁有更多的參數(shù),但由于其稀疏性,訓(xùn)練開銷可以顯著降低。又比如,在實(shí)踐中,使用Qwen1.5-MoE-A2.7B相比于Qwen1.5-7B,訓(xùn)練成本顯著降低了75%。

再以浪潮信息的源2.0-M32開源MoE模型來(lái)說(shuō),我們發(fā)現(xiàn),源2.0-M32在2顆CPU,80GB內(nèi)存的單臺(tái)服務(wù)器上即可部署高性能推理服務(wù),而Llama3-70B則需要在4顆80G顯存的GPU服務(wù)器上才能完成部署和運(yùn)行。

通過(guò)這樣的對(duì)比,就可以發(fā)現(xiàn),憑借MoE模型在算力效率上的顯著優(yōu)勢(shì)便能在AI基礎(chǔ)設(shè)施層面減少投入,緩解對(duì)高端GPU芯片的過(guò)度依賴。根據(jù)推算性能測(cè)試,如今源2.0-M32的單Token推理算力需求是Llama3-70B的1/19。

之所以能達(dá)到這樣的效果,是因?yàn)镸oE模型通過(guò)將模型劃分為多個(gè)小型的專家網(wǎng)絡(luò),而這種劃分允許模型在保持性能的同時(shí),減少所需的存儲(chǔ)空間和內(nèi)存帶寬。由于在訓(xùn)練過(guò)程中模型大小的減少,MoE模型需要的計(jì)算資源也隨之減少,這意味著相比于同等性能的密集模型,MoE可以以更低的硬件成本和更短的訓(xùn)練時(shí)間完成訓(xùn)練。

可以說(shuō),MoE模型本質(zhì)上是一種高效的Scaling技術(shù),在允許參數(shù)規(guī)模拓展的過(guò)程中也為算力投入提供了一個(gè)較好的解決方案,讓大模型在保證規(guī)模和精度的同時(shí)具備了加速落地的可能。

更少的算力是否意味著性能打折?

盡管MoE模型可以用較少的算力去進(jìn)行訓(xùn)練,但這并不意味著其性能會(huì)大打折扣。

在實(shí)踐中,MoE模型通過(guò)細(xì)粒度專家的設(shè)計(jì)、非從頭訓(xùn)練的初始化方法和帶有共享及路由專家的路由機(jī)制等技術(shù)創(chuàng)新,使模型在保持較小參數(shù)量的同時(shí),能夠激活并利用更加精細(xì)的計(jì)算資源。這也就使得MoE模型在保持高性能的同時(shí),有效降低了計(jì)算資源消耗。

簡(jiǎn)單對(duì)比一下MoE模型和Dense模型的計(jì)算性能,源2.0-M32在支持BF16精度的2顆CPU服務(wù)器上,約20小時(shí)就能完成1萬(wàn)條樣本的全量微調(diào)。而在同樣的CPU服務(wù)器上,Llama3-70B完成全量微調(diào)則是需要約16天的時(shí)間。

由此來(lái)說(shuō),MoE模型在計(jì)算性能上并沒(méi)有因?yàn)樗懔Φ膯?wèn)題而大打折扣,反而還提升了不少。同樣的算力支持,MoE模型可以產(chǎn)出更智能的應(yīng)用和實(shí)現(xiàn)更高效的性能。

這樣的結(jié)果涉及MoE模型多種算法的創(chuàng)新和優(yōu)化。MoE模型通過(guò)引入專家網(wǎng)絡(luò)(Expert Networks)和門控機(jī)制(Gating Mechanism)實(shí)現(xiàn)了模型的稀疏化和模塊化,但是模型的性能問(wèn)題依舊還沒(méi)有得到很好的解決和優(yōu)化。

隨后,行業(yè)繼續(xù)從不同的角度對(duì)MoE模型的性能提升進(jìn)行探索。其中,QLoRA微調(diào)技術(shù)是針對(duì)預(yù)訓(xùn)練模型的,通過(guò)對(duì)專家網(wǎng)絡(luò)的參數(shù)進(jìn)行低秩分解,將高維參數(shù)矩陣分解為低秩矩陣的乘積。然后對(duì)這些低秩矩陣和量化參數(shù)進(jìn)行微調(diào),而不是整個(gè)專家網(wǎng)絡(luò)參數(shù),進(jìn)一步提升模型的性能。

同時(shí),微軟又提出了一個(gè)端到端的MoE訓(xùn)練和推理解決方案DeepSpeed-MoE,其通過(guò)深度優(yōu)化MoE在并行訓(xùn)練中的通信,減少通信開銷,并實(shí)現(xiàn)高效的模型并行。此外,DeepSpeed-MoE還提出了基于微調(diào)的專家排序機(jī)制,可以根據(jù)訓(xùn)練過(guò)程中專家的損失動(dòng)態(tài)調(diào)整輸入樣本到專家的分配,提升效果。

總的來(lái)說(shuō),針對(duì)MoE模型的性能問(wèn)題,業(yè)內(nèi)一直在致力于創(chuàng)新和探索新的算法和技術(shù)來(lái)進(jìn)行提升和優(yōu)化。目前,MoE所展現(xiàn)出了巨大的性能潛力,并不輸Dense模型。

寫在最后

現(xiàn)階段,算力吃緊是不爭(zhēng)的事實(shí),日趨激烈的算力需求促使了英偉達(dá)的“超神”故事。但是,AI大模型廠商們也并非坐以待斃,針對(duì)算法架構(gòu)層面的創(chuàng)新和優(yōu)化持續(xù)涌現(xiàn),MoE模型的走紅正預(yù)示著AI行業(yè)進(jìn)入了算法+基礎(chǔ)設(shè)施兩手抓的階段。

可以預(yù)見(jiàn)的是,MoE模型的持續(xù)迭代在解決AI算力荒的同時(shí)也在跨越式地提升AI模型的性能,把人工智能帶入一個(gè)全新的發(fā)展階段。胡適曾提到一種經(jīng)典的戰(zhàn)略思想:大膽假設(shè),小心求證。

從某種程度來(lái)說(shuō),MoE模型的走紅,恰恰是這一戰(zhàn)略思路的呈現(xiàn)。AI行業(yè)對(duì)算力、性能等問(wèn)題的探討,在假設(shè)和求證中,MoE模型為人工智能找到了一條更為清晰的發(fā)展之路。

*本文圖片均來(lái)源于網(wǎng)絡(luò)

此內(nèi)容為【智能相對(duì)論】原創(chuàng),

僅代表個(gè)人觀點(diǎn),未經(jīng)授權(quán),任何人不得以任何方式使用,包括轉(zhuǎn)載、摘編、復(fù)制或建立鏡像。

部分圖片來(lái)自網(wǎng)絡(luò),且未核實(shí)版權(quán)歸屬,不作為商業(yè)用途,如有侵犯,請(qǐng)作者與我們聯(lián)系。

•AI產(chǎn)業(yè)新媒體;

•澎湃新聞科技榜單月度top5;

•文章長(zhǎng)期“霸占”鈦媒體熱門文章排行榜TOP10;

•著有《人工智能 十萬(wàn)個(gè)為什么》

•【重點(diǎn)關(guān)注領(lǐng)域】智能家電(含白電、黑電、智能手機(jī)、無(wú)人機(jī)等AIoT設(shè)備)、智能駕駛、AI+醫(yī)療、機(jī)器人、物聯(lián)網(wǎng)、AI+金融、AI+教育、AR/VR、云計(jì)算、開發(fā)者以及背后的芯片、算法等。

申請(qǐng)創(chuàng)業(yè)報(bào)道,分享創(chuàng)業(yè)好點(diǎn)子。點(diǎn)擊此處,共同探討創(chuàng)業(yè)新機(jī)遇!

相關(guān)標(biāo)簽
英偉達(dá)

相關(guān)文章

  • 3.34萬(wàn)億,英偉達(dá)躍升全球市值最高公司

    又一見(jiàn)證歷史的時(shí)刻到來(lái)。美東時(shí)間6月18日,英偉達(dá)收?qǐng)?bào)135.58美元/股,較前一日上漲3.51%,總市值達(dá)3.34萬(wàn)億美元。微軟市值達(dá)3.32萬(wàn)億美元,蘋果則以3.29萬(wàn)億美元排在第三位。今年以來(lái),英偉達(dá)在二級(jí)市場(chǎng)的表現(xiàn)異常驚人。上半年,英偉達(dá)的股價(jià)已累漲超170%,借助這一波暴漲,英偉達(dá)市值也隨

    標(biāo)簽:
    英偉達(dá)
  • 英偉達(dá)市值超過(guò)微軟蘋果 稱全球最大股票

    截至周二(6月18日)美股收盤,英偉達(dá)股價(jià)上漲3.51%,總市值達(dá)3.335萬(wàn)億美元,一舉超過(guò)了微軟和蘋果。目前英偉達(dá)成為了全球市值最大股票,也是全球最具價(jià)值的上市公司。

    標(biāo)簽:
    英偉達(dá)
  • 英偉達(dá)市值一夜大漲9600億元

    英偉達(dá)公司股價(jià)在當(dāng)天飆升近5%,不僅創(chuàng)下了歷史收盤新高,更在一夜之間將其市值推高了1320億美元,相當(dāng)于人民幣約9570億元。這次股價(jià)的大幅上漲,源于公司創(chuàng)始人兼CEO黃仁勛在6月2日公開演講中所宣布的重要信息。根據(jù)披露的信息,英偉達(dá)計(jì)劃在未來(lái)幾年內(nèi)陸續(xù)推出一系列新產(chǎn)品,包括2024年的Blackw

    標(biāo)簽:
    英偉達(dá)
  • 英偉達(dá):加速計(jì)算前景光明

    該股的定價(jià)已經(jīng)體現(xiàn)了巨大的樂(lè)觀情緒。

    標(biāo)簽:
    英偉達(dá)
  • 財(cái)報(bào)解讀:英偉達(dá)的“蝶變時(shí)刻”已然到來(lái)?

    搭上了AI快車的英偉達(dá),再一次交出了亮眼“答卷”。財(cái)報(bào)顯示,2024財(cái)年,英偉達(dá)營(yíng)收609億美元,同比增長(zhǎng)126%,凈利潤(rùn)297.6億美元,同比增長(zhǎng)581%。其中,Q4實(shí)現(xiàn)營(yíng)收221億美元,同比增長(zhǎng)265%;凈利潤(rùn)122.85億美元,同比增長(zhǎng)769%。圖源:英偉達(dá)因業(yè)績(jī)亮眼,財(cái)報(bào)發(fā)布當(dāng)日美股盤后,英

    標(biāo)簽:
    英偉達(dá)

熱門排行

信息推薦