1. 創(chuàng)業(yè)頭條
  2. 前沿領(lǐng)域
  3. AI智能
  4. 正文

晉升業(yè)內(nèi)新寵兒,MoE模型給了AI行業(yè)兩條關(guān)鍵出路

 2024-07-15 09:51  來(lái)源:A5專(zhuān)欄  我來(lái)投稿 撤稿糾錯(cuò)

  阿里云優(yōu)惠券 先領(lǐng)券再下單

文 | 智能相對(duì)論

作者 | 陳泊丞

今年以來(lái),MoE模型成了AI行業(yè)的新寵兒。

一方面,越來(lái)越多的廠商在自家的閉源模型上采用了MoE架構(gòu)。在海外,OpenAI的GPT-4、谷歌的Gemini、Mistral AI的Mistral、xAI的Grok-1等主流大模型都采用了MoE架構(gòu)。

而在國(guó)內(nèi),昆侖萬(wàn)維推出的天工3.0、浪潮信息發(fā)布的源2.0-M32、通義千問(wèn)團(tuán)隊(duì)發(fā)布的Qwen1.5-MoE-A2.7B、MiniMax全量發(fā)布的abab6、幻方量化旗下的DeepSeek發(fā)布的DeepSeek-MoE 16B等等也都屬于MoE模型。

另一方面,在MoE模型被廣泛應(yīng)用的同時(shí),也有部分廠商爭(zhēng)先開(kāi)源了自家的MoE模型。前不久,昆侖萬(wàn)維宣布開(kāi)源2千億參數(shù)的Skywork-MoE。而在此之前,浪潮信息的源2.0-M32、DeepSeek的DeepSeek-MoE 16B等,也都紛紛開(kāi)源。

為什么MoE模型如此火爆,備受各大廠商的青睞?在開(kāi)源的背后,MoE模型又是以什么樣的優(yōu)勢(shì)使各大主流廠商成為其擁躉,試圖作為改變AI行業(yè)的利器?

MoE模型火爆的背后: 全新的AI解題思路

客觀來(lái)說(shuō),MoE模型的具體工作原理更接近中國(guó)的一句古語(yǔ)“術(shù)業(yè)有專(zhuān)攻”,通過(guò)把任務(wù)分門(mén)別類(lèi),然后分給多個(gè)特定的“專(zhuān)家”進(jìn)行解決。

它的工作流程大致如此,首先數(shù)據(jù)會(huì)被分割為多個(gè)區(qū)塊(token),然后通過(guò)門(mén)控網(wǎng)絡(luò)技術(shù)(Gating Network)再把每組數(shù)據(jù)分配到特定的專(zhuān)家模型(Experts)進(jìn)行處理,也就是讓專(zhuān)業(yè)的人處理專(zhuān)業(yè)的事,最終匯總所有專(zhuān)家的處理結(jié)果,根據(jù)關(guān)聯(lián)性加權(quán)輸出答案。

當(dāng)然,這只是一個(gè)大致的思路,關(guān)于門(mén)控網(wǎng)絡(luò)的位置、模型、專(zhuān)家數(shù)量、以及MoE與Transformer架構(gòu)的具體結(jié)合方案,各家方案都不盡相同,也逐漸成為各家競(jìng)爭(zhēng)的方向——誰(shuí)的算法更優(yōu),便能在這個(gè)流程上拉開(kāi)MoE模型之間的差距。

像浪潮信息就提出了基于注意力機(jī)制的門(mén)控網(wǎng)絡(luò)(Attention Router),這種算法結(jié)構(gòu)的亮點(diǎn)在于可以通過(guò)局部過(guò)濾增強(qiáng)的注意力機(jī)制(LFA, Localized Filtering-based Attention),率先學(xué)習(xí)相鄰詞之間的關(guān)聯(lián)性,然后再計(jì)算全局關(guān)聯(lián)性的方法,能夠更好地學(xué)習(xí)到自然語(yǔ)言的局部和全局的語(yǔ)言特征,對(duì)于自然語(yǔ)言的關(guān)聯(lián)語(yǔ)義理解更準(zhǔn)確,從而更好地匹配專(zhuān)家模型,保證了專(zhuān)家之間協(xié)同處理數(shù)據(jù)的水平,促使模型精度得以提升。

基于注意力機(jī)制的門(mén)控網(wǎng)絡(luò)(Attention Router)

拋開(kāi)目前各家廠商在算法結(jié)構(gòu)上的創(chuàng)新與優(yōu)化不談,MoE模型這種工作思路本身所帶來(lái)的性能提升就非常顯著——通過(guò)細(xì)粒度的數(shù)據(jù)分割和專(zhuān)家匹配,從而實(shí)現(xiàn)了更高的專(zhuān)家專(zhuān)業(yè)化和知識(shí)覆蓋。

這使得MoE模型在處理處理復(fù)雜任務(wù)時(shí)能夠更準(zhǔn)確地捕捉和利用相關(guān)知識(shí),提高了模型的性能和適用范圍。因此,「智能相對(duì)論」嘗試了去體驗(yàn)天工3.0加持的AI搜索,就發(fā)現(xiàn)對(duì)于用戶較為籠統(tǒng)的問(wèn)題,AI居然可以快速的完成拆解,并給出多個(gè)項(xiàng)目參數(shù)的詳細(xì)對(duì)比,屬實(shí)是強(qiáng)大。

天工AI搜索提問(wèn)“對(duì)比一下小米su7和特斯拉model3”所得出的結(jié)果

由此我們可以看到,AI在對(duì)比兩款車(chē)型的過(guò)程中,巧妙地將這一問(wèn)題拆解成了續(xù)航里程、動(dòng)力性能、外觀設(shè)計(jì)、內(nèi)飾設(shè)計(jì)、智能化與自動(dòng)駕駛、市場(chǎng)表現(xiàn)與用戶口碑、價(jià)格等多個(gè)項(xiàng)目,分別處理得出較為完整且專(zhuān)業(yè)的答案。

這便是“術(shù)業(yè)有專(zhuān)攻”的優(yōu)勢(shì)——MoE模型之所以受到越來(lái)越多廠商的關(guān)注,首要的關(guān)鍵就在于其所帶來(lái)的全新解決問(wèn)題的思路促使模型的性能得到了較為顯著的提高。特別是伴隨著行業(yè)復(fù)雜問(wèn)題的涌現(xiàn),這一優(yōu)勢(shì)將使得MoE模型得到更廣泛的應(yīng)用。

各大廠商爭(zhēng)先開(kāi)源MoE模型: 解決AI算力荒的另一條路徑

開(kāi)源的意義在于讓MoE模型更好的普及。那么,對(duì)于市場(chǎng)而言,為什么要選擇MoE模型?

拋開(kāi)性能來(lái)說(shuō),MoE模型更突出的一點(diǎn)優(yōu)勢(shì)則在于算力效率的提升。

DeepSeek-MoE 16B在保持與7B參數(shù)規(guī)模模型相當(dāng)?shù)男阅艿耐瑫r(shí),只需要大約40%的計(jì)算量。而37億參數(shù)的源2.0-M32在取得與700億參數(shù)LLaMA3相當(dāng)性能水平的同時(shí),所消耗的算力也僅為L(zhǎng)LaMA3的1/19。

也就意味著,同樣的智能水平,MoE模型可以用更少的計(jì)算量和內(nèi)存需求來(lái)實(shí)現(xiàn)。這得益于MoE模型在應(yīng)用中并非要完全激活所有專(zhuān)家網(wǎng)絡(luò),而只需要激活部分專(zhuān)家網(wǎng)絡(luò)就可以解決相關(guān)問(wèn)題,很好避免了過(guò)去“殺雞用牛刀”的尷尬局面。

舉個(gè)例子,盡管DeepSeek-MoE 16B的總參數(shù)量為16.4B,但每次推理只激活約2.8B的參數(shù)。與此同時(shí),它的部署成本較低,可以在單卡40G GPU上進(jìn)行部署,這使得它在實(shí)際應(yīng)用中更加輕量化、靈活且經(jīng)濟(jì)。

在當(dāng)前算力資源越來(lái)越緊張的“算力荒”局面下,MoE模型的出現(xiàn)和應(yīng)用可以說(shuō)為行業(yè)提供了一個(gè)較為現(xiàn)實(shí)且理想的解決方案。

更值得一提的是,MoE模型還可以輕松擴(kuò)展到成百上千個(gè)專(zhuān)家,使得模型容量極大增加,同時(shí)也允許在大型分布式系統(tǒng)上進(jìn)行并行計(jì)算。由于各個(gè)專(zhuān)家只負(fù)責(zé)一部分?jǐn)?shù)據(jù)處理,因此在保持模型性能的同時(shí),又能顯著降低了單個(gè)節(jié)點(diǎn)的內(nèi)存和計(jì)算需求。

如此一來(lái),AI能力的普惠便有了非??尚械穆窂健_@樣的特性再加上廠商開(kāi)源,將促使更多中小企業(yè)不需要重復(fù)投入大模型研發(fā)以及花費(fèi)過(guò)多算力資源的情況下便能接入AI大模型,獲取相關(guān)的AI能力,促進(jìn)技術(shù)普及和行業(yè)創(chuàng)新。

當(dāng)然,在這個(gè)過(guò)程中,MoE模型廠商們?cè)跒槭袌?chǎng)提供開(kāi)源技術(shù)的同時(shí),也有機(jī)會(huì)吸引更多企業(yè)轉(zhuǎn)化成為付費(fèi)用戶,進(jìn)而走通商業(yè)化路徑。畢竟,MoE模型的優(yōu)勢(shì)擺在眼前,接下來(lái)或許將有更多的企業(yè)斗都會(huì)嘗試新的架構(gòu)來(lái)拓展AI能力,越早開(kāi)源越能吸引更多市場(chǎng)主體接觸并參與其中。

但是,開(kāi)源最關(guān)鍵的優(yōu)勢(shì)還是在于MoE模型對(duì)當(dāng)前算力問(wèn)題的解決?;蛟S,隨著MoE模型被越來(lái)越多的企業(yè)所接受并應(yīng)用,行業(yè)在獲得相應(yīng)AI能力的同時(shí)也不必困頓于算力資源緊張的問(wèn)題了。

寫(xiě)在最后

MoE大模型作為當(dāng)前人工智能領(lǐng)域的技術(shù)熱點(diǎn),其獨(dú)特的架構(gòu)和卓越的性能為人工智能的發(fā)展帶來(lái)了新的機(jī)遇。不管是應(yīng)用還是開(kāi)源,隨著技術(shù)的不斷進(jìn)步和應(yīng)用場(chǎng)景的不斷拓展,MoE大模型有望在更多領(lǐng)域發(fā)揮巨大的潛力。

MoE模型的本質(zhì)在于為AI行業(yè)的發(fā)展提供了兩條思路,一是解決應(yīng)用上的性能問(wèn)題,讓AI有了更強(qiáng)大的解題思路。二是解決算力上的欠缺問(wèn)題,讓AI有了更全面的發(fā)展空間。由此來(lái)看MoE模型能成為行業(yè)各大廠商的寵兒,也是水到渠成的事情。

*本文圖片均來(lái)源于網(wǎng)絡(luò)

此內(nèi)容為【智能相對(duì)論】原創(chuàng),

僅代表個(gè)人觀點(diǎn),未經(jīng)授權(quán),任何人不得以任何方式使用,包括轉(zhuǎn)載、摘編、復(fù)制或建立鏡像。

部分圖片來(lái)自網(wǎng)絡(luò),且未核實(shí)版權(quán)歸屬,不作為商業(yè)用途,如有侵犯,請(qǐng)作者與我們聯(lián)系。

•AI產(chǎn)業(yè)新媒體;

•澎湃新聞科技榜單月度top5;

•文章長(zhǎng)期“霸占”鈦媒體熱門(mén)文章排行榜TOP10;

•著有《人工智能 十萬(wàn)個(gè)為什么》

•【重點(diǎn)關(guān)注領(lǐng)域】智能家電(含白電、黑電、智能手機(jī)、無(wú)人機(jī)等AIoT設(shè)備)、智能駕駛、AI+醫(yī)療、機(jī)器人、物聯(lián)網(wǎng)、AI+金融、AI+教育、AR/VR、云計(jì)算、開(kāi)發(fā)者以及背后的芯片、算法等。

申請(qǐng)創(chuàng)業(yè)報(bào)道,分享創(chuàng)業(yè)好點(diǎn)子。點(diǎn)擊此處,共同探討創(chuàng)業(yè)新機(jī)遇!

相關(guān)標(biāo)簽
ai智能

相關(guān)文章

  • Figma股價(jià)熱情僅存1天,AI焦慮成關(guān)鍵隱憂?

    文/道哥美國(guó)設(shè)計(jì)軟件公司Figma近期在紐約證券交易所掛牌上市,首日即上演“狂飆”行情——發(fā)行價(jià)定每股33美元,開(kāi)盤(pán)報(bào)價(jià)85美元,較發(fā)行價(jià)翻倍。首日收?qǐng)?bào)115.50美元,較發(fā)行價(jià)大漲約250%,市值飆升至近670億美元,創(chuàng)下近30年來(lái)同等規(guī)模美股IPO的最大單日漲幅紀(jì)錄。然而,隨著短線資金獲利了結(jié),

    標(biāo)簽:
    ai智能
  • AI「帶飛」騰訊業(yè)績(jī)

    文/一燈來(lái)源/節(jié)點(diǎn)財(cái)經(jīng)在當(dāng)前無(wú)人敢缺席的AI軍備競(jìng)賽中,巨頭們一面為巨額的資本支出焦慮,一面又向市場(chǎng)勾勒著未來(lái)的宏偉藍(lán)圖。在各家動(dòng)輒千億級(jí)投入的背景下,市場(chǎng)迫切需要一份關(guān)于AI回報(bào)價(jià)值的有力證明。而騰訊,率先給出了答卷。8月13日,騰訊控股發(fā)布2025年第二季度財(cái)報(bào)。盡管資本開(kāi)支同比劇增119%,達(dá)

    標(biāo)簽:
    ai智能
    騰訊
  • Meta用億元薪酬發(fā)起「人才狙擊」能否買(mǎi)來(lái)一個(gè)AI未來(lái)?

    文/二風(fēng)來(lái)源/節(jié)點(diǎn)財(cái)經(jīng)2025年的硅谷,一場(chǎng)沒(méi)有硝煙的戰(zhàn)爭(zhēng)正以前所未有的烈度上演。這場(chǎng)戰(zhàn)爭(zhēng)的核心武器不是代碼或芯片,而是人——那些全球僅有數(shù)千名、能夠構(gòu)建未來(lái)人工智能基礎(chǔ)模型的頂尖大腦。在這場(chǎng)激烈的人才爭(zhēng)奪戰(zhàn)中,Meta及其首席執(zhí)行官馬克·扎克伯格(MarkZuckerberg)正扮演著最具侵略性的

    標(biāo)簽:
    ai智能
  • 騰訊AI夢(mèng):克制的雄心

    關(guān)乎14億用戶的深刻變化

    標(biāo)簽:
    ai智能
  • Manus「撤出」中國(guó),昔日AI Agent新星為何倉(cāng)促離場(chǎng)?

    文/道哥大舉裁員、清空賬號(hào)、國(guó)內(nèi)IP無(wú)法訪問(wèn)——曾被譽(yù)為“中國(guó)AIAgent希望之星”的Manus,在估值飆至5億美元的高光時(shí)刻“閃離”中國(guó)市場(chǎng)。近日,Manus“裁員、出走”的消息在媒體端大量發(fā)酵。消息稱(chēng),Manus公司總部將由中國(guó)遷至新加坡,其國(guó)內(nèi)團(tuán)隊(duì)也將大幅裁撤——原有120人規(guī)模團(tuán)隊(duì)除40余

    標(biāo)簽:
    ai智能
  • GDPS2025賽場(chǎng)直擊!開(kāi)普勒大黃蜂助力華理斬獲搬運(yùn)賽項(xiàng)桂冠

    12月12日-14日,2025全球開(kāi)發(fā)者先鋒大會(huì)暨國(guó)際具身智能技能大賽(GDPS2025)于上海張江科學(xué)會(huì)堂舉行,大會(huì)以具身智能競(jìng)技為核心,融合了技術(shù)比拼、產(chǎn)業(yè)展示與科普體驗(yàn),為全球觀眾呈現(xiàn)出具身智能的現(xiàn)在與未來(lái)。上海開(kāi)普勒機(jī)器人有限公司(以下簡(jiǎn)稱(chēng)"開(kāi)普勒機(jī)器人")攜明星產(chǎn)品K2"大黃蜂"亮相,并參

    標(biāo)簽:
    GDPS
    2025
  • 弈動(dòng) Dynamic·數(shù)智躍遷 博弈無(wú)界|2025TechWorld智慧安全大會(huì)在京召開(kāi)

    在數(shù)字化與智能化深度交織的時(shí)代浪潮中,安全的邊界不斷延展,技術(shù)的演進(jìn)正引領(lǐng)產(chǎn)業(yè)邁向新一輪變革。10月24日,以“弈動(dòng)Dynamic·數(shù)智躍遷博弈無(wú)界”為主題的2025TechWorld智慧安全大會(huì)在北京盛大召開(kāi)。來(lái)自國(guó)家部委、院士學(xué)者、高??蒲袡C(jī)構(gòu)和企業(yè)的權(quán)威專(zhuān)家與業(yè)界精英齊聚北京,共議AI安全、數(shù)

    標(biāo)簽:
    弈動(dòng)
  • 甌江論道:AI賦能綠色發(fā)展

    2025年10月25日,2025世界青年科學(xué)家峰會(huì)之人工智能(AI)融合創(chuàng)新發(fā)展論壇在浙江溫州成功舉辦。本次論壇由國(guó)際院士科創(chuàng)中心主辦,中國(guó)投資協(xié)會(huì)能源投資專(zhuān)業(yè)委員會(huì)、溫港院士科創(chuàng)中心承辦,中國(guó)電工技術(shù)學(xué)會(huì)、中科先進(jìn)技術(shù)溫州研究院與溫州市電力工程學(xué)會(huì)提供支持,以“甌江論道-AI賦能綠色發(fā)展”為主題,

    標(biāo)簽:
    ai技術(shù)
  • AI云“分野”:阿里云們“賣(mài)鏟”,火山引擎奇襲“MaaS”

    AI云“分野”:阿里云們“賣(mài)鏟”,火山引擎奇襲“MaaS”

    標(biāo)簽:
    阿里巴巴
  • 未來(lái)5年,中國(guó)AI的“大洗牌”和“內(nèi)循環(huán)”

    我覺(jué)得我們AI的目標(biāo)是:從芯片設(shè)計(jì)到軟件生態(tài),全鏈路自主開(kāi)發(fā),建立可控的世界級(jí)AI體系。所以這是俺對(duì)未來(lái)5年中國(guó)AI圈的展望和判斷。(1)2026年,英偉達(dá)造車(chē)、國(guó)產(chǎn)開(kāi)車(chē)26年國(guó)產(chǎn)芯片會(huì)在推理和垂直場(chǎng)景上發(fā)力。以DeepSeek為代表,大多數(shù)AI大模型會(huì)以軟件彌補(bǔ)硬件不足,所以訓(xùn)練和推理分開(kāi),訓(xùn)練就

  • H20芯片開(kāi)賣(mài)即叫停,英偉達(dá)如何解圍?

    文/道哥在深陷“后門(mén)”風(fēng)波、接受網(wǎng)信辦問(wèn)詢(xún)之后,英偉達(dá)的“特供版”H20芯片,又有了新消息。近日,美國(guó)科技媒體《TheInformation》援引知情人士消息稱(chēng),英偉達(dá)已悄然向其關(guān)鍵供應(yīng)商——包括負(fù)責(zé)封裝的安靠科技、供應(yīng)高帶寬內(nèi)存的三星電子、以及承擔(dān)后端處理的富士康發(fā)出指令,要求暫停所有與H20AI

    標(biāo)簽:
    英偉達(dá)