晉升業(yè)內新寵兒，MoE模型給了AI行業(yè)兩條關鍵出路

2024-07-15 09:51 來源：A5專欄我來投稿撤稿糾錯

文 | 智能相對論

作者 | 陳泊丞

今年以來，MoE模型成了AI行業(yè)的新寵兒。

一方面，越來越多的廠商在自家的閉源模型上采用了MoE架構。在海外，OpenAI的GPT-4、谷歌的Gemini、Mistral AI的Mistral、xAI的Grok-1等主流大模型都采用了MoE架構。

而在國內，昆侖萬維推出的天工3.0、浪潮信息發(fā)布的源2.0-M32、通義千問團隊發(fā)布的Qwen1.5-MoE-A2.7B、MiniMax全量發(fā)布的abab6、幻方量化旗下的DeepSeek發(fā)布的DeepSeek-MoE 16B等等也都屬于MoE模型。

另一方面，在MoE模型被廣泛應用的同時，也有部分廠商爭先開源了自家的MoE模型。前不久，昆侖萬維宣布開源2千億參數(shù)的Skywork-MoE。而在此之前，浪潮信息的源2.0-M32、DeepSeek的DeepSeek-MoE 16B等，也都紛紛開源。

為什么MoE模型如此火爆，備受各大廠商的青睞？在開源的背后，MoE模型又是以什么樣的優(yōu)勢使各大主流廠商成為其擁躉，試圖作為改變AI行業(yè)的利器？

MoE模型火爆的背后： 全新的AI解題思路

客觀來說，MoE模型的具體工作原理更接近中國的一句古語“術業(yè)有專攻”，通過把任務分門別類，然后分給多個特定的“專家”進行解決。

它的工作流程大致如此，首先數(shù)據(jù)會被分割為多個區(qū)塊（token），然后通過門控網(wǎng)絡技術（Gating Network）再把每組數(shù)據(jù)分配到特定的專家模型（Experts）進行處理，也就是讓專業(yè)的人處理專業(yè)的事，最終匯總所有專家的處理結果，根據(jù)關聯(lián)性加權輸出答案。

當然，這只是一個大致的思路，關于門控網(wǎng)絡的位置、模型、專家數(shù)量、以及MoE與Transformer架構的具體結合方案，各家方案都不盡相同，也逐漸成為各家競爭的方向——誰的算法更優(yōu)，便能在這個流程上拉開MoE模型之間的差距。

像浪潮信息就提出了基于注意力機制的門控網(wǎng)絡（Attention Router），這種算法結構的亮點在于可以通過局部過濾增強的注意力機制（LFA, Localized Filtering-based Attention），率先學習相鄰詞之間的關聯(lián)性，然后再計算全局關聯(lián)性的方法，能夠更好地學習到自然語言的局部和全局的語言特征，對于自然語言的關聯(lián)語義理解更準確，從而更好地匹配專家模型，保證了專家之間協(xié)同處理數(shù)據(jù)的水平，促使模型精度得以提升。

基于注意力機制的門控網(wǎng)絡（Attention Router）

拋開目前各家廠商在算法結構上的創(chuàng)新與優(yōu)化不談，MoE模型這種工作思路本身所帶來的性能提升就非常顯著——通過細粒度的數(shù)據(jù)分割和專家匹配，從而實現(xiàn)了更高的專家專業(yè)化和知識覆蓋。

這使得MoE模型在處理處理復雜任務時能夠更準確地捕捉和利用相關知識，提高了模型的性能和適用范圍。因此，「智能相對論」嘗試了去體驗天工3.0加持的AI搜索，就發(fā)現(xiàn)對于用戶較為籠統(tǒng)的問題，AI居然可以快速的完成拆解，并給出多個項目參數(shù)的詳細對比，屬實是強大。

天工AI搜索提問“對比一下小米su7和特斯拉model3”所得出的結果

由此我們可以看到，AI在對比兩款車型的過程中，巧妙地將這一問題拆解成了續(xù)航里程、動力性能、外觀設計、內飾設計、智能化與自動駕駛、市場表現(xiàn)與用戶口碑、價格等多個項目，分別處理得出較為完整且專業(yè)的答案。

這便是“術業(yè)有專攻”的優(yōu)勢——MoE模型之所以受到越來越多廠商的關注，首要的關鍵就在于其所帶來的全新解決問題的思路促使模型的性能得到了較為顯著的提高。特別是伴隨著行業(yè)復雜問題的涌現(xiàn)，這一優(yōu)勢將使得MoE模型得到更廣泛的應用。

各大廠商爭先開源MoE模型： 解決AI算力荒的另一條路徑

開源的意義在于讓MoE模型更好的普及。那么，對于市場而言，為什么要選擇MoE模型？

拋開性能來說，MoE模型更突出的一點優(yōu)勢則在于算力效率的提升。

DeepSeek-MoE 16B在保持與7B參數(shù)規(guī)模模型相當?shù)男阅艿耐瑫r，只需要大約40%的計算量。而37億參數(shù)的源2.0-M32在取得與700億參數(shù)LLaMA3相當性能水平的同時，所消耗的算力也僅為LLaMA3的1/19。

也就意味著，同樣的智能水平，MoE模型可以用更少的計算量和內存需求來實現(xiàn)。這得益于MoE模型在應用中并非要完全激活所有專家網(wǎng)絡，而只需要激活部分專家網(wǎng)絡就可以解決相關問題，很好避免了過去“殺雞用牛刀”的尷尬局面。

舉個例子，盡管DeepSeek-MoE 16B的總參數(shù)量為16.4B，但每次推理只激活約2.8B的參數(shù)。與此同時，它的部署成本較低，可以在單卡40G GPU上進行部署，這使得它在實際應用中更加輕量化、靈活且經(jīng)濟。

在當前算力資源越來越緊張的“算力荒”局面下，MoE模型的出現(xiàn)和應用可以說為行業(yè)提供了一個較為現(xiàn)實且理想的解決方案。

更值得一提的是，MoE模型還可以輕松擴展到成百上千個專家，使得模型容量極大增加，同時也允許在大型分布式系統(tǒng)上進行并行計算。由于各個專家只負責一部分數(shù)據(jù)處理，因此在保持模型性能的同時，又能顯著降低了單個節(jié)點的內存和計算需求。

如此一來，AI能力的普惠便有了非常可行的路徑。這樣的特性再加上廠商開源，將促使更多中小企業(yè)不需要重復投入大模型研發(fā)以及花費過多算力資源的情況下便能接入AI大模型，獲取相關的AI能力，促進技術普及和行業(yè)創(chuàng)新。

當然，在這個過程中，MoE模型廠商們在為市場提供開源技術的同時，也有機會吸引更多企業(yè)轉化成為付費用戶，進而走通商業(yè)化路徑。畢竟，MoE模型的優(yōu)勢擺在眼前，接下來或許將有更多的企業(yè)斗都會嘗試新的架構來拓展AI能力，越早開源越能吸引更多市場主體接觸并參與其中。

但是，開源最關鍵的優(yōu)勢還是在于MoE模型對當前算力問題的解決。或許，隨著MoE模型被越來越多的企業(yè)所接受并應用，行業(yè)在獲得相應AI能力的同時也不必困頓于算力資源緊張的問題了。

寫在最后

MoE大模型作為當前人工智能領域的技術熱點，其獨特的架構和卓越的性能為人工智能的發(fā)展帶來了新的機遇。不管是應用還是開源，隨著技術的不斷進步和應用場景的不斷拓展，MoE大模型有望在更多領域發(fā)揮巨大的潛力。

MoE模型的本質在于為AI行業(yè)的發(fā)展提供了兩條思路，一是解決應用上的性能問題，讓AI有了更強大的解題思路。二是解決算力上的欠缺問題，讓AI有了更全面的發(fā)展空間。由此來看MoE模型能成為行業(yè)各大廠商的寵兒，也是水到渠成的事情。

*本文圖片均來源于網(wǎng)絡

此內容為【智能相對論】原創(chuàng)，

僅代表個人觀點，未經(jīng)授權，任何人不得以任何方式使用，包括轉載、摘編、復制或建立鏡像。

部分圖片來自網(wǎng)絡，且未核實版權歸屬，不作為商業(yè)用途，如有侵犯，請作者與我們聯(lián)系。

•AI產業(yè)新媒體;

•澎湃新聞科技榜單月度top5;

•文章長期“霸占”鈦媒體熱門文章排行榜TOP10;

•著有《人工智能十萬個為什么》

•【重點關注領域】智能家電（含白電、黑電、智能手機、無人機等AIoT設備）、智能駕駛、AI+醫(yī)療、機器人、物聯(lián)網(wǎng)、AI+金融、AI+教育、AR/VR、云計算、開發(fā)者以及背后的芯片、算法等。

申請創(chuàng)業(yè)報道，分享創(chuàng)業(yè)好點子。點擊此處，共同探討創(chuàng)業(yè)新機遇！

相關標簽: ai智能

Figma股價熱情僅存1天，AI焦慮成關鍵隱憂？

文/道哥美國設計軟件公司Figma近期在紐約證券交易所掛牌上市，首日即上演“狂飆”行情——發(fā)行價定每股33美元，開盤報價85美元，較發(fā)行價翻倍。首日收報115.50美元，較發(fā)行價大漲約250%，市值飆升至近670億美元，創(chuàng)下近30年來同等規(guī)模美股IPO的最大單日漲幅紀錄。然而，隨著短線資金獲利了結，

標簽：

ai智能
AI「帶飛」騰訊業(yè)績

文/一燈來源/節(jié)點財經(jīng)在當前無人敢缺席的AI軍備競賽中，巨頭們一面為巨額的資本支出焦慮，一面又向市場勾勒著未來的宏偉藍圖。在各家動輒千億級投入的背景下，市場迫切需要一份關于AI回報價值的有力證明。而騰訊，率先給出了答卷。8月13日，騰訊控股發(fā)布2025年第二季度財報。盡管資本開支同比劇增119%，達

標簽：

ai智能

騰訊
Meta用億元薪酬發(fā)起「人才狙擊」能否買來一個AI未來？

文/二風來源/節(jié)點財經(jīng)2025年的硅谷，一場沒有硝煙的戰(zhàn)爭正以前所未有的烈度上演。這場戰(zhàn)爭的核心武器不是代碼或芯片，而是人——那些全球僅有數(shù)千名、能夠構建未來人工智能基礎模型的頂尖大腦。在這場激烈的人才爭奪戰(zhàn)中，Meta及其首席執(zhí)行官馬克·扎克伯格（MarkZuckerberg）正扮演著最具侵略性的

標簽：

ai智能
騰訊AI夢：克制的雄心

關乎14億用戶的深刻變化

標簽：

ai智能
Manus「撤出」中國，昔日AI Agent新星為何倉促離場？

文/道哥大舉裁員、清空賬號、國內IP無法訪問——曾被譽為“中國AIAgent希望之星”的Manus，在估值飆至5億美元的高光時刻“閃離”中國市場。近日，Manus“裁員、出走”的消息在媒體端大量發(fā)酵。消息稱，Manus公司總部將由中國遷至新加坡，其國內團隊也將大幅裁撤——原有120人規(guī)模團隊除40余

標簽：

ai智能

一秒當導演：小云雀上線短劇Agent，10萬字劇本一鍵生成60集

凌晨兩點，小王合上筆記本，揉了揉酸脹的眼睛。花了一個月寫出來的10萬字短劇劇本躺在硬盤里，要真正把它拍成劇，得找演員、租場地、請攝像、做后期……粗算下來少說要幾十萬，他只能把劇本繼續(xù)鎖在抽屜里。不過，現(xiàn)在小王的劇本可以“見光”了。2026年3月19日，字節(jié)跳動旗下的小云雀AI正式上線了短劇Agent

標簽：

大模型
騰訊云推出“龍蝦”記憶服務，準確率飆升近六成

你一定遇到過這樣的場景：明明剛和AI助手聊了半個小時的項目細節(jié)，退出會話后重新打開，它卻像個失憶患者一樣，連你上一輪說過什么背景信息都忘得一干二凈，你又得從頭把需求講一遍。這種“聊完就忘”的體驗，讓無數(shù)使用AI智能體的用戶深感頭疼。為了解決這一普遍困擾，騰訊云在4月3日正式推出了名為“龍蝦”的記憶服

標簽：

騰訊云

ai龍蝦是什么
谷歌 Gemma 4 正式開源，開源賽道迎來變局！

4月3日凌晨，谷歌DeepMind悄然甩出一枚重磅炸彈——全新一代開源大模型Gemma4正式發(fā)布，以極其寬松的Apache2.0協(xié)議向全球開發(fā)者免費開放。這是自2025年3月發(fā)布Gemma3以來，谷歌時隔整整一年的重大迭代。本次發(fā)布的Gemma4包含四個不同規(guī)格的版本：E2B（有效20億參數(shù)）、E4

標簽：

大模型
OpenClaw常見的五種“病”，到底該怎么“治”？

AI龍蝦也會生病。別怕，大部分病不是什么絕癥，自己在家就能治。我養(yǎng)OpenClaw一年多，總結出五種最常見的毛病，附上我的“土方子”，希望對你有用。病一：不吃食（完全不執(zhí)行任何任務）癥狀：你給了指令，它沒反應，日志里一片空白。就像龍蝦趴在塘底不動彈，碰它也不理。病因：通常是進程卡死了，或者依賴服務沒

標簽：

ai龍蝦是什么

ai小龍蝦什么意思

openclaw小龍蝦
普通人怎么養(yǎng)AI龍蝦，別讓你的AI龍蝦餓著或撐著

養(yǎng)過真龍蝦的人都知道，投喂是個技術活。喂少了，龍蝦餓得互相殘殺；喂多了，剩餌壞水，整塘發(fā)病。OpenClaw這個AI龍蝦也一樣——你給它安排的任務太少，它會“閑得發(fā)慌”，反應遲鈍；你一次塞給它太多復雜任務，它會“消化不良”，要么報錯要么干一半就卡住。每天該喂幾次？我的經(jīng)驗是：每天喂兩次，早上一次簡單

標簽：

ai龍蝦是什么

ai小龍蝦什么意思

openclaw小龍蝦
選對版本和“飼料”，OpenClaw小龍蝦才能長得壯

養(yǎng)過真龍蝦的人都知道，苗種的好壞直接決定收成。養(yǎng)AI龍蝦也一樣——OpenClaw有不同版本，有的穩(wěn)定但功能少，有的功能多但愛“鬧脾氣”。新手該怎么選？我用自己的踩坑經(jīng)歷告訴你。版本怎么選？OpenClaw目前主要有三個分支：穩(wěn)定版（Stable）、測試版（Beta）和社區(qū)魔改版（Community

標簽：

ai龍蝦是什么

ai小龍蝦什么意思

openclaw小龍蝦

入坑OpenClaw前，先問問自己這三件事

我第一次聽說OpenClaw，是在一個技術群里。有人發(fā)了一串代碼，說“這個AI龍蝦特別好養(yǎng)，會自己找食吃”。我好奇點進去，結果對著終端發(fā)了一小時呆——連環(huán)境都沒搭起來。后來我才明白，養(yǎng)AI龍蝦跟養(yǎng)真龍蝦一樣，新手入門得先做足功課。第一問：我的電腦跑得動嗎？很多人以為AI龍蝦就是個聊天機器人，打開網(wǎng)頁

標簽：

ai龍蝦是什么

openclaw小龍蝦

ai小龍蝦什么意思
字節(jié)火山引擎Seedance 2.0正式面向普通API客戶開放申請，豆包大模型日均Token使用量突破120萬億

4月2日，字節(jié)跳動旗下火山引擎在武漢舉行的AI創(chuàng)新巡展上宣布，Seedance2.0API正式面向企業(yè)用戶開啟公測。同時，火山引擎總裁譚待在會上披露，截至今年3月，豆包大模型日均Token使用量已突破120萬億，在過去三個月內增長一倍，比2024年5月發(fā)布時增長1000倍。Seedance2.0：從

標簽：

大模型

火山引擎
養(yǎng)“蝦”被騙、數(shù)據(jù)泄露、天價賬單……遇到這些糟心事該怎么辦？

養(yǎng)AI小龍蝦的路上，坑不少。有人被代裝服務騙了錢，有人電腦中了毒，有人收到天價賬單，還有人發(fā)現(xiàn)AI“失控”了，開始亂刪文件。如果你也遇到這些糟心事，別慌。下面這份“養(yǎng)蝦應急包”，告訴你第一時間該做什么。場景一：代裝被騙，錢打水漂了花了300塊找人遠程裝OpenClaw，結果對方收了錢就拉黑，或者裝了

標簽：

ai龍蝦是什么

ai小龍蝦什么意思

openclaw小龍蝦
把“鑰匙”交給AI，如何防止它“拆家”？數(shù)據(jù)安全實操手冊

把AI智能體請進電腦，就像把家里所有的鑰匙交給了一個陌生人。它能幫你打掃房間、整理文件，但萬一它“起了壞心”，或者被壞人利用了，你的家就不再安全了。這不是危言聳聽。國家互聯(lián)網(wǎng)應急中心已經(jīng)發(fā)布風險提示，指出OpenClaw的默認配置“極為脆弱”，攻擊者一旦得手，能輕易獲取系統(tǒng)控制權。微軟安全團隊也警告

標簽：

ai龍蝦是什么

ai小龍蝦什么意思

openclaw小龍蝦

加載更多

晉升業(yè)內新寵兒，MoE模型給了AI行業(yè)兩條關鍵出路

相關文章

Figma股價熱情僅存1天，AI焦慮成關鍵隱憂？

AI「帶飛」騰訊業(yè)績

Meta用億元薪酬發(fā)起「人才狙擊」能否買來一個AI未來？

騰訊AI夢：克制的雄心

Manus「撤出」中國，昔日AI Agent新星為何倉促離場？

一秒當導演：小云雀上線短劇Agent，10萬字劇本一鍵生成60集

騰訊云推出“龍蝦”記憶服務，準確率飆升近六成

谷歌 Gemma 4 正式開源，開源賽道迎來變局！

OpenClaw常見的五種“病”，到底該怎么“治”？

普通人怎么養(yǎng)AI龍蝦，別讓你的AI龍蝦餓著或撐著

選對版本和“飼料”，OpenClaw小龍蝦才能長得壯

入坑OpenClaw前，先問問自己這三件事

字節(jié)火山引擎Seedance 2.0正式面向普通API客戶開放申請，豆包大模型日均Token使用量突破120萬億

養(yǎng)“蝦”被騙、數(shù)據(jù)泄露、天價賬單……遇到這些糟心事該怎么辦？

把“鑰匙”交給AI，如何防止它“拆家”？數(shù)據(jù)安全實操手冊

熱門排行

編輯推薦

晉升業(yè)內新寵兒，MoE模型給了AI行業(yè)兩條關鍵出路

相關文章

熱門排行

編輯推薦

晉升業(yè)內新寵兒，MoE模型給了AI行業(yè)兩條關鍵出路