123,123

　阿里云優(yōu)惠券先領(lǐng)券再下單

文 | 智能相對論

作者 | 陳泊丞

在過去的一年多時間內(nèi)，英偉達(dá)破天荒地完成了市值的“三級跳”。

一年前，英偉達(dá)的市值并尚不足1萬億美元，位居谷歌母公司Alphabet、亞馬遜、蘋果和微軟等科技巨頭之后。

時至今日，英偉達(dá)市值突破3萬億美元，超越蘋果，僅次于微軟。

這樣的成就歸功于英偉達(dá)在AI芯片領(lǐng)域的顯著優(yōu)勢。隨著生成式AI進(jìn)入規(guī)?；l(fā)階段，算力需求愈發(fā)膨脹，由此英偉達(dá)的AI芯片便成了市場的“香餑餑”。

然而，市場對算力的需求遠(yuǎn)超大眾的想象，英偉達(dá)的高端芯片也是一卡難求，在這個節(jié)點(diǎn)上AI行業(yè)不得不在其他層面上尋求破局算力荒的新解法。

如今，在算法架構(gòu)上，MoE混合專家模型憑借其在算力效率上的顯著優(yōu)勢持續(xù)走紅，成為越來越多AI廠商共同探索的新方向。

那么，MoE模型的走紅，是否真的能為AI行業(yè)破解算力荒？

MoE模型劍指算力效率：優(yōu)化算法，壓榨性能

區(qū)別于稠密（Dense）模型，MoE模型采用采用稀疏激活機(jī)制，在處理任務(wù)的過程中往往可以根據(jù)不同的任務(wù)需求，只需要激活一部分專家網(wǎng)絡(luò)即可，而非激活全部參數(shù)，從而很好地提高了計(jì)算效率，更高效地利用計(jì)算資源。

比如，阿里巴巴的Qwen1.5-MoE-A2.7B模型在總參數(shù)量為143億的情況下，每次推理只激活27億參數(shù)。類似的，DeepSeek-MoE 16B的總參數(shù)量為164億，但每次推理只激活約28億的參數(shù)等等。

以上這種設(shè)計(jì)，就有效平衡了模型的性能與計(jì)算資源的使用效率。

因此，盡管MoE模型通常擁有更多的參數(shù)，但由于其稀疏性，訓(xùn)練開銷可以顯著降低。又比如，在實(shí)踐中，使用Qwen1.5-MoE-A2.7B相比于Qwen1.5-7B，訓(xùn)練成本顯著降低了75%。

再以浪潮信息的源2.0-M32開源MoE模型來說，我們發(fā)現(xiàn)，源2.0-M32在2顆CPU，80GB內(nèi)存的單臺服務(wù)器上即可部署高性能推理服務(wù)，而Llama3-70B則需要在4顆80G顯存的GPU服務(wù)器上才能完成部署和運(yùn)行。

通過這樣的對比，就可以發(fā)現(xiàn)，憑借MoE模型在算力效率上的顯著優(yōu)勢便能在AI基礎(chǔ)設(shè)施層面減少投入，緩解對高端GPU芯片的過度依賴。根據(jù)推算性能測試，如今源2.0-M32的單Token推理算力需求是Llama3-70B的1/19。

之所以能達(dá)到這樣的效果，是因?yàn)镸oE模型通過將模型劃分為多個小型的專家網(wǎng)絡(luò)，而這種劃分允許模型在保持性能的同時，減少所需的存儲空間和內(nèi)存帶寬。由于在訓(xùn)練過程中模型大小的減少，MoE模型需要的計(jì)算資源也隨之減少，這意味著相比于同等性能的密集模型，MoE可以以更低的硬件成本和更短的訓(xùn)練時間完成訓(xùn)練。

可以說，MoE模型本質(zhì)上是一種高效的Scaling技術(shù)，在允許參數(shù)規(guī)模拓展的過程中也為算力投入提供了一個較好的解決方案，讓大模型在保證規(guī)模和精度的同時具備了加速落地的可能。

更少的算力是否意味著性能打折？

盡管MoE模型可以用較少的算力去進(jìn)行訓(xùn)練，但這并不意味著其性能會大打折扣。

在實(shí)踐中，MoE模型通過細(xì)粒度專家的設(shè)計(jì)、非從頭訓(xùn)練的初始化方法和帶有共享及路由專家的路由機(jī)制等技術(shù)創(chuàng)新，使模型在保持較小參數(shù)量的同時，能夠激活并利用更加精細(xì)的計(jì)算資源。這也就使得MoE模型在保持高性能的同時，有效降低了計(jì)算資源消耗。

簡單對比一下MoE模型和Dense模型的計(jì)算性能，源2.0-M32在支持BF16精度的2顆CPU服務(wù)器上，約20小時就能完成1萬條樣本的全量微調(diào)。而在同樣的CPU服務(wù)器上，Llama3-70B完成全量微調(diào)則是需要約16天的時間。

由此來說，MoE模型在計(jì)算性能上并沒有因?yàn)樗懔Φ膯栴}而大打折扣，反而還提升了不少。同樣的算力支持，MoE模型可以產(chǎn)出更智能的應(yīng)用和實(shí)現(xiàn)更高效的性能。

這樣的結(jié)果涉及MoE模型多種算法的創(chuàng)新和優(yōu)化。MoE模型通過引入專家網(wǎng)絡(luò)（Expert Networks）和門控機(jī)制（Gating Mechanism）實(shí)現(xiàn)了模型的稀疏化和模塊化，但是模型的性能問題依舊還沒有得到很好的解決和優(yōu)化。

隨后，行業(yè)繼續(xù)從不同的角度對MoE模型的性能提升進(jìn)行探索。其中，QLoRA微調(diào)技術(shù)是針對預(yù)訓(xùn)練模型的，通過對專家網(wǎng)絡(luò)的參數(shù)進(jìn)行低秩分解，將高維參數(shù)矩陣分解為低秩矩陣的乘積。然后對這些低秩矩陣和量化參數(shù)進(jìn)行微調(diào)，而不是整個專家網(wǎng)絡(luò)參數(shù)，進(jìn)一步提升模型的性能。

同時，微軟又提出了一個端到端的MoE訓(xùn)練和推理解決方案DeepSpeed-MoE，其通過深度優(yōu)化MoE在并行訓(xùn)練中的通信，減少通信開銷，并實(shí)現(xiàn)高效的模型并行。此外，DeepSpeed-MoE還提出了基于微調(diào)的專家排序機(jī)制，可以根據(jù)訓(xùn)練過程中專家的損失動態(tài)調(diào)整輸入樣本到專家的分配，提升效果。

總的來說，針對MoE模型的性能問題，業(yè)內(nèi)一直在致力于創(chuàng)新和探索新的算法和技術(shù)來進(jìn)行提升和優(yōu)化。目前，MoE所展現(xiàn)出了巨大的性能潛力，并不輸Dense模型。

寫在最后

現(xiàn)階段，算力吃緊是不爭的事實(shí)，日趨激烈的算力需求促使了英偉達(dá)的“超神”故事。但是，AI大模型廠商們也并非坐以待斃，針對算法架構(gòu)層面的創(chuàng)新和優(yōu)化持續(xù)涌現(xiàn)，MoE模型的走紅正預(yù)示著AI行業(yè)進(jìn)入了算法+基礎(chǔ)設(shè)施兩手抓的階段。

可以預(yù)見的是，MoE模型的持續(xù)迭代在解決AI算力荒的同時也在跨越式地提升AI模型的性能，把人工智能帶入一個全新的發(fā)展階段。胡適曾提到一種經(jīng)典的戰(zhàn)略思想：大膽假設(shè)，小心求證。

從某種程度來說，MoE模型的走紅，恰恰是這一戰(zhàn)略思路的呈現(xiàn)。AI行業(yè)對算力、性能等問題的探討，在假設(shè)和求證中，MoE模型為人工智能找到了一條更為清晰的發(fā)展之路。

*本文圖片均來源于網(wǎng)絡(luò)

此內(nèi)容為【智能相對論】原創(chuàng)，

僅代表個人觀點(diǎn)，未經(jīng)授權(quán)，任何人不得以任何方式使用，包括轉(zhuǎn)載、摘編、復(fù)制或建立鏡像。

部分圖片來自網(wǎng)絡(luò)，且未核實(shí)版權(quán)歸屬，不作為商業(yè)用途，如有侵犯，請作者與我們聯(lián)系。

•AI產(chǎn)業(yè)新媒體;

•澎湃新聞科技榜單月度top5;

•文章長期“霸占”鈦媒體熱門文章排行榜TOP10;

•著有《人工智能十萬個為什么》

•【重點(diǎn)關(guān)注領(lǐng)域】智能家電（含白電、黑電、智能手機(jī)、無人機(jī)等AIoT設(shè)備）、智能駕駛、AI+醫(yī)療、機(jī)器人、物聯(lián)網(wǎng)、AI+金融、AI+教育、AR/VR、云計(jì)算、開發(fā)者以及背后的芯片、算法等。

申請創(chuàng)業(yè)報(bào)道，分享創(chuàng)業(yè)好點(diǎn)子。點(diǎn)擊此處，共同探討創(chuàng)業(yè)新機(jī)遇！

相關(guān)文章

H20芯片開賣即叫停，英偉達(dá)如何解圍？

文/道哥在深陷“后門”風(fēng)波、接受網(wǎng)信辦問詢之后，英偉達(dá)的“特供版”H20芯片，又有了新消息。近日，美國科技媒體《TheInformation》援引知情人士消息稱，英偉達(dá)已悄然向其關(guān)鍵供應(yīng)商——包括負(fù)責(zé)封裝的安靠科技、供應(yīng)高帶寬內(nèi)存的三星電子、以及承擔(dān)后端處理的富士康發(fā)出指令，要求暫停所有與H20AI

標(biāo)簽：

英偉達(dá)
真正的「國產(chǎn)英偉達(dá)」來了

文/二風(fēng)來源/節(jié)點(diǎn)財(cái)經(jīng)一場關(guān)于“中國芯”的IPO審議，正把投資者們的目光鎖定在上交所。根據(jù)上交所發(fā)布的公告，上市審核委員會已定于9月26日審議摩爾線程的科創(chuàng)板首發(fā)申請。作為中國半導(dǎo)體自主化浪潮中最受矚目的“考生”之一，包括其創(chuàng)始人顯赫的英偉達(dá)背景、高達(dá)80億元人民幣的募資雄心，以及在國產(chǎn)GPU領(lǐng)域取

標(biāo)簽：

英偉達(dá)
新品發(fā)布，AMD能否挑戰(zhàn)英偉達(dá)？

文/零度來源/節(jié)點(diǎn)財(cái)經(jīng)就在一周之前，超威半導(dǎo)體公司（AMD）首席執(zhí)行官蘇姿豐放出豪言稱，AMD最新發(fā)布的AI處理器——MI350系列芯片的最新版本在速度上已優(yōu)于英偉達(dá)的同類產(chǎn)品，較其前代產(chǎn)品也實(shí)現(xiàn)了巨大的性能提升。是太過自信，還是產(chǎn)品殺瘋了？按照蘇姿豐的說法，本月初開始發(fā)貨的MI355芯片速度是前代

標(biāo)簽：

英偉達(dá)

amd處理器
英偉達(dá)被“壓制”的25年

十九世紀(jì)中葉的美國西部，掀起了一場轟轟烈烈的淘金熱，但最終賺到錢的，并不是拿命去賭的淘金者。一個名叫薩姆·布瑞南的商人，通過向淘金者出售鏟子，成了加州歷史上第一位百萬富翁。每一次風(fēng)口出現(xiàn)時，總有企業(yè)想要扮演“賣鏟人”的角色。特別是在元宇宙和人工智能的浪潮中，一些企業(yè)直接把“賣鏟人”的身份寫在了PPT

標(biāo)簽：

英偉達(dá)
3.34萬億，英偉達(dá)躍升全球市值最高公司

又一見證歷史的時刻到來。美東時間6月18日，英偉達(dá)收報(bào)135.58美元/股，較前一日上漲3.51%，總市值達(dá)3.34萬億美元。微軟市值達(dá)3.32萬億美元，蘋果則以3.29萬億美元排在第三位。今年以來，英偉達(dá)在二級市場的表現(xiàn)異常驚人。上半年，英偉達(dá)的股價已累漲超170%，借助這一波暴漲，英偉達(dá)市值也隨

標(biāo)簽：

英偉達(dá)

當(dāng)前位置：首頁 > 科技 > 互聯(lián)網(wǎng) > 正文

英偉達(dá)“超神”的背后：AI廠商迫切地在MoE模型上尋求算力新解法

相關(guān)文章

H20芯片開賣即叫停，英偉達(dá)如何解圍？

真正的「國產(chǎn)英偉達(dá)」來了

新品發(fā)布，AMD能否挑戰(zhàn)英偉達(dá)？

英偉達(dá)被“壓制”的25年

3.34萬億，英偉達(dá)躍升全球市值最高公司

熱門排行

信息推薦

熱門標(biāo)簽

當(dāng)前位置：首頁 > 科技 > 互聯(lián)網(wǎng) > 正文

英偉達(dá)“超神”的背后：AI廠商迫切地在MoE模型上尋求算力新解法

相關(guān)文章

H20芯片開賣即叫停，英偉達(dá)如何解圍？

真正的「國產(chǎn)英偉達(dá)」來了

新品發(fā)布，AMD能否挑戰(zhàn)英偉達(dá)？

英偉達(dá)被“壓制”的25年

3.34萬億，英偉達(dá)躍升全球市值最高公司

熱門排行

信息推薦

熱門標(biāo)簽

H20芯片開賣即叫停，英偉達(dá)如何解圍？

新品發(fā)布，AMD能否挑戰(zhàn)英偉達(dá)？