歷時(shí)400多天，國產(chǎn)大模型全面趕超GPT-4？

2024-05-10 13:56 來源：A5專欄我來投稿撤稿糾錯(cuò)

稍微留意下近期的新聞，“趕超GPT-4”正在成為國產(chǎn)大模型的新熱點(diǎn)。

百度文心一言、商湯日日新以及阿里云剛剛發(fā)布的通義千問2.5，均已邁入“全面趕超GPT-4”陣營。

把時(shí)間線稍微拉長一些的話，過去大半年時(shí)間里，“超越GPT-4”的消息可謂屢見不鮮，即使在報(bào)道中刻意加上了多項(xiàng)基準(zhǔn)、部分指標(biāo)等前綴，依然賺足了眼球，成為國產(chǎn)大模型佐證自身能力的有力指標(biāo)。

簡單做個(gè)復(fù)盤的話，國產(chǎn)大模型對(duì)GPT-4的追趕已經(jīng)進(jìn)行了400多天，其中“趕超進(jìn)程”可以粗分為三個(gè)階段。

第一階段：部分性能超越GPT-4

2023年3月14日，OpenAI正式推出了GPT-4，彼時(shí)大多數(shù)國產(chǎn)大模型還未開放，少數(shù)內(nèi)測(cè)大模型的比較對(duì)象還是GPT-3。作為業(yè)界標(biāo)桿的GPT-4，就像是科幻照進(jìn)了現(xiàn)實(shí)，被無數(shù)人捧上神壇。

但在短短半年后，GPT-4就出現(xiàn)在了國產(chǎn)大模型廠商的比較名單里。

2023年8月底，商湯科技對(duì)外公布了一則新進(jìn)展：擁有1230億個(gè)參數(shù)的“書生·浦語”，在全球51個(gè)知名評(píng)測(cè)集共計(jì)30萬道問題集合上，測(cè)試成績排名全球第二，并在綜合考試agieval、知識(shí)問答commonsenseqa、閱讀理解和推理的十項(xiàng)評(píng)測(cè)中位列第一，分?jǐn)?shù)超過風(fēng)頭正盛的GPT-4。

2023年10月17日的“生成未來”發(fā)布會(huì)上，百度正式發(fā)布了文心大模型4.0版本，李彥宏在現(xiàn)場(chǎng)依次演示了大模型的理解、生成、邏輯和記憶四大核心能力的特點(diǎn)與應(yīng)用場(chǎng)景。盡管沒有給出評(píng)測(cè)數(shù)據(jù)，李彥宏卻自信地表示：文心大模型4.0的綜合水平，“與GPT-4相比毫不遜色”。

國產(chǎn)大模型趕超GPT-4的序幕正式拉開，此后一兩個(gè)月里，不少大模型給了這樣的營銷口徑：整體能力已經(jīng)不輸于GPT-3.5，并且在部分性能指標(biāo)上開始超越GPT-4。

第二階段：整體性能逼近GPT-4

時(shí)間來到2024年初，國內(nèi)的“百模大戰(zhàn)”進(jìn)入收斂期，一些不被資本市場(chǎng)認(rèn)可的大模型，漸漸成了一個(gè)數(shù)字，只有幾家科技大廠和獨(dú)角獸仍活躍在大模型一線。“活下來”的大模型，勢(shì)必要在能力上證明自己。

綜合性能逼近GPT-4，開始成為新的營銷話術(shù)。

2024年1月中旬的智譜AI技術(shù)開放日上，正式發(fā)布了新一代基座大模型GLM-4。按照智譜AI官方的說法：在權(quán)威的英文測(cè)試榜單中，GLM-4已經(jīng)整體逼近GPT-4，平均能達(dá)到GPT-4 90%以上的水平，在個(gè)別項(xiàng)目上表現(xiàn)持平；而在國內(nèi)企業(yè)更加看重的中文任務(wù)上，GLM-4的表現(xiàn)全面超過GPT-4。

同樣是在2024年1月，科大訊飛發(fā)布了星火認(rèn)知大模型V3.5，在邏輯推理、語言理解、文本生成、數(shù)學(xué)答題、代碼、多模態(tài)等核心能力均顯著提升，其中語言理解、數(shù)學(xué)能力已經(jīng)超過GPT-4 Turbo，代碼能力達(dá)到GPT-4 Turbo 96%，多模態(tài)理解達(dá)到GPT-4V 91%。“在中文理解方面，甚至遙遙領(lǐng)先。”

回頭來看，智譜AI和科大訊飛的營銷策略還是有些“保守”，百川智能在同一時(shí)間段發(fā)布的Baichuan 3，對(duì)外表示已經(jīng)在CMMLU、GAOKAO等中文評(píng)測(cè)中超越GPT-4。

第三階段：全面趕超GPT-4 Turbo

2023年11月的OpenAI首屆開發(fā)者大會(huì)，GPT-4 Turbo可以說整個(gè)活動(dòng)的焦點(diǎn)，不僅比GPT-4更聰明，文本處理的上限更高，推理的速度更快，價(jià)格也更便宜，國產(chǎn)大模型隨即迎來了新的比較對(duì)象。

先是2024年4月份發(fā)布的日日新5.0，擁有6000億參數(shù)，并在發(fā)布會(huì)上引用了OpenCompass的評(píng)測(cè)數(shù)據(jù)：日日新5.0達(dá)到或超越了GPT-4 Turbo版本，幾乎全方位碾壓了同期發(fā)布的 Llama 3-70B。

再然后就是阿里云剛剛發(fā)布的通義千問2.5，根據(jù)媒體報(bào)道中的說法：模型性能全面趕超GPT-4-Turbo，成為“地表最強(qiáng)”中文大模型；通義千問1100億參數(shù)開源模型在多個(gè)基準(zhǔn)測(cè)評(píng)收獲最佳成績，超越Meta的Llama-3-70B，成為開源領(lǐng)域最強(qiáng)大模型。

可以篤定的是，日日新5.0和通義千問2.5只是個(gè)開始，后續(xù)將有更多國產(chǎn)大模型在能力上超越GPT-4-Turbo。

畢竟科大訊飛早已預(yù)熱了上半年發(fā)布星火認(rèn)知大模型V4.0的消息，將全面對(duì)標(biāo)GPT-4系列；文心一言4.0的發(fā)布已經(jīng)超過半年，不排除新版本正在準(zhǔn)備中，且大概率會(huì)在性能上再上一個(gè)臺(tái)階……

“跑分”的意義在哪里？

不管是一開始的“部分性能超越”，還是現(xiàn)在進(jìn)行中的“全面趕超”，依據(jù)都是第三方評(píng)測(cè)結(jié)果，或者說大模型廠商的主觀判斷。比如商湯和阿里云爭相引用的OpenCompass，就是上海人工智能實(shí)驗(yàn)室開源的大模型評(píng)測(cè)平臺(tái)。

對(duì)于一些大模型沉迷于刷榜、跑分的現(xiàn)象，上海人工智能實(shí)驗(yàn)室領(lǐng)軍科學(xué)家林達(dá)華教授曾在媒體采訪中直言：通過題海戰(zhàn)術(shù)提高大模型成績，對(duì)于模型實(shí)際能力的反應(yīng)是失真的，影響了模型研發(fā)團(tuán)隊(duì)的改進(jìn)方向和模型的商業(yè)落地，“高分低能”傷害的是機(jī)構(gòu)本身；榜單上任何具體的名字只是大模型成長過程中無數(shù)次測(cè)試中的一次，一時(shí)的排名高低并不真正反映模型的能力。

何況很多大模型測(cè)試集為了公開透明，測(cè)試題目或者提綱都是公開的，大模型廠商不難通過“針對(duì)性的訓(xùn)練”來提高分?jǐn)?shù)。只要將足夠的的測(cè)試題喂給大模型，在開卷考試的機(jī)制下，分?jǐn)?shù)總不會(huì)太低。

也就是說，分?jǐn)?shù)高并不一定代表大模型的能力強(qiáng)。“跑分”的意義僅僅是讓客戶或開發(fā)者對(duì)大模型能力有一個(gè)初步的認(rèn)識(shí)，最終的評(píng)估因素永遠(yuǎn)是“能不能解決問題”，“能不能在場(chǎng)景中帶來實(shí)實(shí)在在的生產(chǎn)力”。

特別是在大模型走向落地應(yīng)用的趨勢(shì)下，一味炒作“超越GPT-4”、“跑分第一”，妄顧落地應(yīng)用的實(shí)效，可能會(huì)適得其反。以大模型應(yīng)用中比較常見的財(cái)報(bào)分析為例，如果大模型連一家企業(yè)的財(cái)報(bào)都看不懂，再高的計(jì)算分?jǐn)?shù)也不會(huì)讓客戶信服，反而會(huì)被排除在合作名單外。

而參考中信證券等機(jī)構(gòu)的研究報(bào)告，目前OpenAI的GPT-5正處于紅隊(duì)測(cè)試階段，有望在今年夏天正式發(fā)布，可能在多模態(tài)理解、長文本輸入、zero-shot學(xué)習(xí)等方面實(shí)現(xiàn)重大突破，且性能將遠(yuǎn)超GPT-4。即使國產(chǎn)大模型花費(fèi)400多天追平了GPT-4，在相當(dāng)長一段時(shí)間里，仍將處于追趕的姿態(tài)。

大模型的價(jià)值是解決日常問題的生產(chǎn)力工具，趕超GPT-4的階段性升級(jí)，可以看作是國產(chǎn)大模型有序迭代部署、不斷拉近差距的標(biāo)志，切莫像手機(jī)跑分那樣，在過度營銷的作用下，淪為被群嘲的對(duì)象。

申請(qǐng)創(chuàng)業(yè)報(bào)道，分享創(chuàng)業(yè)好點(diǎn)子。點(diǎn)擊此處，共同探討創(chuàng)業(yè)新機(jī)遇！

相關(guān)標(biāo)簽: 大模型

相關(guān)文章

大模型是下一代操作系統(tǒng)的未來，在這屆云棲大會(huì)上已經(jīng)到來

9月24日，2025云棲大會(huì)在杭州開幕，阿里巴巴集團(tuán)CEO、阿里云智能集團(tuán)董事長兼CEO吳泳銘發(fā)表主旨演講，首次系統(tǒng)性地闡述通往ASI的三階段演進(jìn)路線，包括智能涌現(xiàn)、自主行動(dòng)以及自我迭代等，實(shí)現(xiàn)從學(xué)習(xí)人、輔助人到超越人的發(fā)展脈絡(luò)?；谏鲜龅陌l(fā)展路線，吳泳銘對(duì)外做出判斷，大模型是下一代的操作系統(tǒng)?！拔?/p>

標(biāo)簽：

大模型
大模型搶灘高考志愿填報(bào)，能否頂替「張雪峰」們？

文/二風(fēng)來源/節(jié)點(diǎn)財(cái)經(jīng)每年高考成績放榜后，數(shù)千萬考生和家長將迎來另一場(chǎng)硬仗——填報(bào)志愿。今年，這一領(lǐng)域迎來了AI的全面介入，多家互聯(lián)網(wǎng)大廠和教育公司紛紛推出智能志愿填報(bào)產(chǎn)品，為考生提供院校和專業(yè)選擇建議。據(jù)艾媒咨詢數(shù)據(jù)，2023年中國高考志愿填報(bào)市場(chǎng)付費(fèi)規(guī)模約9.5億元，近九成考生愿意借助志愿填報(bào)服

標(biāo)簽：

大模型
崔大寶：大模型降溫背后的難點(diǎn)、卡點(diǎn)、節(jié)點(diǎn)

崔大寶｜節(jié)點(diǎn)財(cái)經(jīng)創(chuàng)始人進(jìn)入2024年，大模型似乎有熄火之勢(shì)：資本市場(chǎng)，與之關(guān)聯(lián)的概念炒不動(dòng)了，英偉達(dá)股價(jià)動(dòng)輒暴跌重挫，引發(fā)“泡沫戳破”的擔(dān)憂；消費(fèi)市場(chǎng)，BATH們的推新活動(dòng)少了，產(chǎn)品更新迭代的速度慢了，民眾的關(guān)注度降了……熱鬧的大概只剩下兩場(chǎng)酣仗：自5月15日字節(jié)跳動(dòng)宣布“以厘計(jì)費(fèi)”，打響國內(nèi)大模型

標(biāo)簽：

大模型
兩分鐘“熟讀”《國史大綱》，大模型的下一個(gè)爆點(diǎn)是“書童”？

年初大模型行業(yè)上演“長文本”大戰(zhàn)時(shí)，我們就萌生過做一個(gè)“讀書助理”的想法。測(cè)試了市面上主流的大模型后，發(fā)現(xiàn)普遍存在兩個(gè)不足：一種是可以處理的文本長度不夠，即使有些大模型將文本長度提升到了20萬字，像《紅樓夢(mèng)》這樣近百萬字的名著，還是需要多次才能“讀”完。另一種是語言理解和生成能力不足，經(jīng)常出現(xiàn)“幻覺

標(biāo)簽：

大模型
除了燒錢，互聯(lián)網(wǎng)留給大模型揮霍的“家底”不多了

互聯(lián)網(wǎng)或許從未停止創(chuàng)新，只是對(duì)于創(chuàng)新的認(rèn)知下降了。

標(biāo)簽：

大模型

一秒當(dāng)導(dǎo)演：小云雀上線短劇Agent，10萬字劇本一鍵生成60集

凌晨兩點(diǎn)，小王合上筆記本，揉了揉酸脹的眼睛?；艘粋€(gè)月寫出來的10萬字短劇劇本躺在硬盤里，要真正把它拍成劇，得找演員、租場(chǎng)地、請(qǐng)攝像、做后期……粗算下來少說要幾十萬，他只能把劇本繼續(xù)鎖在抽屜里。不過，現(xiàn)在小王的劇本可以“見光”了。2026年3月19日，字節(jié)跳動(dòng)旗下的小云雀AI正式上線了短劇Agent

標(biāo)簽：

大模型
騰訊云推出“龍蝦”記憶服務(wù)，準(zhǔn)確率飆升近六成

你一定遇到過這樣的場(chǎng)景：明明剛和AI助手聊了半個(gè)小時(shí)的項(xiàng)目細(xì)節(jié)，退出會(huì)話后重新打開，它卻像個(gè)失憶患者一樣，連你上一輪說過什么背景信息都忘得一干二凈，你又得從頭把需求講一遍。這種“聊完就忘”的體驗(yàn)，讓無數(shù)使用AI智能體的用戶深感頭疼。為了解決這一普遍困擾，騰訊云在4月3日正式推出了名為“龍蝦”的記憶服

標(biāo)簽：

騰訊云

ai龍蝦是什么
谷歌 Gemma 4 正式開源，開源賽道迎來變局！

4月3日凌晨，谷歌DeepMind悄然甩出一枚重磅炸彈——全新一代開源大模型Gemma4正式發(fā)布，以極其寬松的Apache2.0協(xié)議向全球開發(fā)者免費(fèi)開放。這是自2025年3月發(fā)布Gemma3以來，谷歌時(shí)隔整整一年的重大迭代。本次發(fā)布的Gemma4包含四個(gè)不同規(guī)格的版本：E2B（有效20億參數(shù)）、E4

標(biāo)簽：

大模型
OpenClaw常見的五種“病”，到底該怎么“治”？

AI龍蝦也會(huì)生病。別怕，大部分病不是什么絕癥，自己在家就能治。我養(yǎng)OpenClaw一年多，總結(jié)出五種最常見的毛病，附上我的“土方子”，希望對(duì)你有用。病一：不吃食（完全不執(zhí)行任何任務(wù)）癥狀：你給了指令，它沒反應(yīng)，日志里一片空白。就像龍蝦趴在塘底不動(dòng)彈，碰它也不理。病因：通常是進(jìn)程卡死了，或者依賴服務(wù)沒

標(biāo)簽：

ai龍蝦是什么

ai小龍蝦什么意思

openclaw小龍蝦
普通人怎么養(yǎng)AI龍蝦，別讓你的AI龍蝦餓著或撐著

養(yǎng)過真龍蝦的人都知道，投喂是個(gè)技術(shù)活。喂少了，龍蝦餓得互相殘殺；喂多了，剩餌壞水，整塘發(fā)病。OpenClaw這個(gè)AI龍蝦也一樣——你給它安排的任務(wù)太少，它會(huì)“閑得發(fā)慌”，反應(yīng)遲鈍；你一次塞給它太多復(fù)雜任務(wù)，它會(huì)“消化不良”，要么報(bào)錯(cuò)要么干一半就卡住。每天該喂幾次？我的經(jīng)驗(yàn)是：每天喂兩次，早上一次簡單

標(biāo)簽：

ai龍蝦是什么

ai小龍蝦什么意思

openclaw小龍蝦
選對(duì)版本和“飼料”，OpenClaw小龍蝦才能長得壯

養(yǎng)過真龍蝦的人都知道，苗種的好壞直接決定收成。養(yǎng)AI龍蝦也一樣——OpenClaw有不同版本，有的穩(wěn)定但功能少，有的功能多但愛“鬧脾氣”。新手該怎么選？我用自己的踩坑經(jīng)歷告訴你。版本怎么選？OpenClaw目前主要有三個(gè)分支：穩(wěn)定版（Stable）、測(cè)試版（Beta）和社區(qū)魔改版（Community

標(biāo)簽：

ai龍蝦是什么

ai小龍蝦什么意思

openclaw小龍蝦

入坑OpenClaw前，先問問自己這三件事

我第一次聽說OpenClaw，是在一個(gè)技術(shù)群里。有人發(fā)了一串代碼，說“這個(gè)AI龍蝦特別好養(yǎng)，會(huì)自己找食吃”。我好奇點(diǎn)進(jìn)去，結(jié)果對(duì)著終端發(fā)了一小時(shí)呆——連環(huán)境都沒搭起來。后來我才明白，養(yǎng)AI龍蝦跟養(yǎng)真龍蝦一樣，新手入門得先做足功課。第一問：我的電腦跑得動(dòng)嗎？很多人以為AI龍蝦就是個(gè)聊天機(jī)器人，打開網(wǎng)頁

標(biāo)簽：

ai龍蝦是什么

openclaw小龍蝦

ai小龍蝦什么意思
字節(jié)火山引擎Seedance 2.0正式面向普通API客戶開放申請(qǐng)，豆包大模型日均Token使用量突破120萬億

4月2日，字節(jié)跳動(dòng)旗下火山引擎在武漢舉行的AI創(chuàng)新巡展上宣布，Seedance2.0API正式面向企業(yè)用戶開啟公測(cè)。同時(shí)，火山引擎總裁譚待在會(huì)上披露，截至今年3月，豆包大模型日均Token使用量已突破120萬億，在過去三個(gè)月內(nèi)增長一倍，比2024年5月發(fā)布時(shí)增長1000倍。Seedance2.0：從

標(biāo)簽：

大模型

火山引擎
養(yǎng)“蝦”被騙、數(shù)據(jù)泄露、天價(jià)賬單……遇到這些糟心事該怎么辦？

養(yǎng)AI小龍蝦的路上，坑不少。有人被代裝服務(wù)騙了錢，有人電腦中了毒，有人收到天價(jià)賬單，還有人發(fā)現(xiàn)AI“失控”了，開始亂刪文件。如果你也遇到這些糟心事，別慌。下面這份“養(yǎng)蝦應(yīng)急包”，告訴你第一時(shí)間該做什么。場(chǎng)景一：代裝被騙，錢打水漂了花了300塊找人遠(yuǎn)程裝OpenClaw，結(jié)果對(duì)方收了錢就拉黑，或者裝了

標(biāo)簽：

ai龍蝦是什么

ai小龍蝦什么意思

openclaw小龍蝦
把“鑰匙”交給AI，如何防止它“拆家”？數(shù)據(jù)安全實(shí)操手冊(cè)

把AI智能體請(qǐng)進(jìn)電腦，就像把家里所有的鑰匙交給了一個(gè)陌生人。它能幫你打掃房間、整理文件，但萬一它“起了壞心”，或者被壞人利用了，你的家就不再安全了。這不是危言聳聽。國家互聯(lián)網(wǎng)應(yīng)急中心已經(jīng)發(fā)布風(fēng)險(xiǎn)提示，指出OpenClaw的默認(rèn)配置“極為脆弱”，攻擊者一旦得手，能輕易獲取系統(tǒng)控制權(quán)。微軟安全團(tuán)隊(duì)也警告

標(biāo)簽：

ai龍蝦是什么

ai小龍蝦什么意思

openclaw小龍蝦

加載更多

歷時(shí)400多天，國產(chǎn)大模型全面趕超GPT-4？

相關(guān)文章

大模型是下一代操作系統(tǒng)的未來，在這屆云棲大會(huì)上已經(jīng)到來

大模型搶灘高考志愿填報(bào)，能否頂替「張雪峰」們？

崔大寶：大模型降溫背后的難點(diǎn)、卡點(diǎn)、節(jié)點(diǎn)

兩分鐘“熟讀”《國史大綱》，大模型的下一個(gè)爆點(diǎn)是“書童”？

除了燒錢，互聯(lián)網(wǎng)留給大模型揮霍的“家底”不多了

一秒當(dāng)導(dǎo)演：小云雀上線短劇Agent，10萬字劇本一鍵生成60集

騰訊云推出“龍蝦”記憶服務(wù)，準(zhǔn)確率飆升近六成

谷歌 Gemma 4 正式開源，開源賽道迎來變局！

OpenClaw常見的五種“病”，到底該怎么“治”？

普通人怎么養(yǎng)AI龍蝦，別讓你的AI龍蝦餓著或撐著

選對(duì)版本和“飼料”，OpenClaw小龍蝦才能長得壯

入坑OpenClaw前，先問問自己這三件事

字節(jié)火山引擎Seedance 2.0正式面向普通API客戶開放申請(qǐng)，豆包大模型日均Token使用量突破120萬億

養(yǎng)“蝦”被騙、數(shù)據(jù)泄露、天價(jià)賬單……遇到這些糟心事該怎么辦？

把“鑰匙”交給AI，如何防止它“拆家”？數(shù)據(jù)安全實(shí)操手冊(cè)

熱門排行

編輯推薦

歷時(shí)400多天，國產(chǎn)大模型全面趕超GPT-4？

相關(guān)文章

熱門排行

編輯推薦

歷時(shí)400多天，國產(chǎn)大模型全面趕超GPT-4？