1. 創(chuàng)業(yè)頭條
  2. 前沿領(lǐng)域
  3. AI智能
  4. 正文

歷時(shí)400多天,國產(chǎn)大模型全面趕超GPT-4?

 2024-05-10 13:56  來源:A5專欄  我來投稿 撤稿糾錯(cuò)

  一鍵部署OpenClaw

稍微留意下近期的新聞,“趕超GPT-4”正在成為國產(chǎn)大模型的新熱點(diǎn)。

百度文心一言、商湯日日新以及阿里云剛剛發(fā)布的通義千問2.5,均已邁入“全面趕超GPT-4”陣營。

把時(shí)間線稍微拉長一些的話,過去大半年時(shí)間里,“超越GPT-4”的消息可謂屢見不鮮,即使在報(bào)道中刻意加上了多項(xiàng)基準(zhǔn)、部分指標(biāo)等前綴,依然賺足了眼球,成為國產(chǎn)大模型佐證自身能力的有力指標(biāo)。

簡單做個(gè)復(fù)盤的話,國產(chǎn)大模型對GPT-4的追趕已經(jīng)進(jìn)行了400多天,其中“趕超進(jìn)程”可以粗分為三個(gè)階段。

第一階段:部分性能超越GPT-4

2023年3月14日,OpenAI正式推出了GPT-4,彼時(shí)大多數(shù)國產(chǎn)大模型還未開放,少數(shù)內(nèi)測大模型的比較對象還是GPT-3。作為業(yè)界標(biāo)桿的GPT-4,就像是科幻照進(jìn)了現(xiàn)實(shí),被無數(shù)人捧上神壇。

但在短短半年后,GPT-4就出現(xiàn)在了國產(chǎn)大模型廠商的比較名單里。

2023年8月底,商湯科技對外公布了一則新進(jìn)展:擁有1230億個(gè)參數(shù)的“書生·浦語”,在全球51個(gè)知名評測集共計(jì)30萬道問題集合上,測試成績排名全球第二,并在綜合考試agieval、知識問答commonsenseqa、閱讀理解和推理的十項(xiàng)評測中位列第一,分?jǐn)?shù)超過風(fēng)頭正盛的GPT-4。

2023年10月17日的“生成未來”發(fā)布會上,百度正式發(fā)布了文心大模型4.0版本,李彥宏在現(xiàn)場依次演示了大模型的理解、生成、邏輯和記憶四大核心能力的特點(diǎn)與應(yīng)用場景。盡管沒有給出評測數(shù)據(jù),李彥宏卻自信地表示:文心大模型4.0的綜合水平,“與GPT-4相比毫不遜色”。

國產(chǎn)大模型趕超GPT-4的序幕正式拉開,此后一兩個(gè)月里,不少大模型給了這樣的營銷口徑:整體能力已經(jīng)不輸于GPT-3.5,并且在部分性能指標(biāo)上開始超越GPT-4。

第二階段:整體性能逼近GPT-4

時(shí)間來到2024年初,國內(nèi)的“百模大戰(zhàn)”進(jìn)入收斂期,一些不被資本市場認(rèn)可的大模型,漸漸成了一個(gè)數(shù)字,只有幾家科技大廠和獨(dú)角獸仍活躍在大模型一線。“活下來”的大模型,勢必要在能力上證明自己。

綜合性能逼近GPT-4,開始成為新的營銷話術(shù)。

2024年1月中旬的智譜AI技術(shù)開放日上,正式發(fā)布了新一代基座大模型GLM-4。按照智譜AI官方的說法:在權(quán)威的英文測試榜單中,GLM-4已經(jīng)整體逼近GPT-4,平均能達(dá)到GPT-4 90%以上的水平,在個(gè)別項(xiàng)目上表現(xiàn)持平;而在國內(nèi)企業(yè)更加看重的中文任務(wù)上,GLM-4的表現(xiàn)全面超過GPT-4。

同樣是在2024年1月,科大訊飛發(fā)布了星火認(rèn)知大模型V3.5,在邏輯推理、語言理解、文本生成、數(shù)學(xué)答題、代碼、多模態(tài)等核心能力均顯著提升,其中語言理解、數(shù)學(xué)能力已經(jīng)超過GPT-4 Turbo,代碼能力達(dá)到GPT-4 Turbo 96%,多模態(tài)理解達(dá)到GPT-4V 91%。“在中文理解方面,甚至遙遙領(lǐng)先。”

回頭來看,智譜AI和科大訊飛的營銷策略還是有些“保守”,百川智能在同一時(shí)間段發(fā)布的Baichuan 3,對外表示已經(jīng)在CMMLU、GAOKAO等中文評測中超越GPT-4。

第三階段:全面趕超GPT-4 Turbo

2023年11月的OpenAI首屆開發(fā)者大會,GPT-4 Turbo可以說整個(gè)活動(dòng)的焦點(diǎn),不僅比GPT-4更聰明,文本處理的上限更高,推理的速度更快,價(jià)格也更便宜,國產(chǎn)大模型隨即迎來了新的比較對象。

先是2024年4月份發(fā)布的日日新5.0,擁有6000億參數(shù),并在發(fā)布會上引用了OpenCompass的評測數(shù)據(jù):日日新5.0達(dá)到或超越了GPT-4 Turbo版本,幾乎全方位碾壓了同期發(fā)布的 Llama 3-70B。

再然后就是阿里云剛剛發(fā)布的通義千問2.5,根據(jù)媒體報(bào)道中的說法:模型性能全面趕超GPT-4-Turbo,成為“地表最強(qiáng)”中文大模型;通義千問1100億參數(shù)開源模型在多個(gè)基準(zhǔn)測評收獲最佳成績,超越Meta的Llama-3-70B,成為開源領(lǐng)域最強(qiáng)大模型。

可以篤定的是,日日新5.0和通義千問2.5只是個(gè)開始,后續(xù)將有更多國產(chǎn)大模型在能力上超越GPT-4-Turbo。

畢竟科大訊飛早已預(yù)熱了上半年發(fā)布星火認(rèn)知大模型V4.0的消息,將全面對標(biāo)GPT-4系列;文心一言4.0的發(fā)布已經(jīng)超過半年,不排除新版本正在準(zhǔn)備中,且大概率會在性能上再上一個(gè)臺階……

“跑分”的意義在哪里?

不管是一開始的“部分性能超越”,還是現(xiàn)在進(jìn)行中的“全面趕超”,依據(jù)都是第三方評測結(jié)果,或者說大模型廠商的主觀判斷。比如商湯和阿里云爭相引用的OpenCompass,就是上海人工智能實(shí)驗(yàn)室開源的大模型評測平臺。

對于一些大模型沉迷于刷榜、跑分的現(xiàn)象,上海人工智能實(shí)驗(yàn)室領(lǐng)軍科學(xué)家林達(dá)華教授曾在媒體采訪中直言:通過題海戰(zhàn)術(shù)提高大模型成績,對于模型實(shí)際能力的反應(yīng)是失真的,影響了模型研發(fā)團(tuán)隊(duì)的改進(jìn)方向和模型的商業(yè)落地,“高分低能”傷害的是機(jī)構(gòu)本身;榜單上任何具體的名字只是大模型成長過程中無數(shù)次測試中的一次,一時(shí)的排名高低并不真正反映模型的能力。

何況很多大模型測試集為了公開透明,測試題目或者提綱都是公開的,大模型廠商不難通過“針對性的訓(xùn)練”來提高分?jǐn)?shù)。只要將足夠的的測試題喂給大模型,在開卷考試的機(jī)制下,分?jǐn)?shù)總不會太低。

也就是說,分?jǐn)?shù)高并不一定代表大模型的能力強(qiáng)。“跑分”的意義僅僅是讓客戶或開發(fā)者對大模型能力有一個(gè)初步的認(rèn)識,最終的評估因素永遠(yuǎn)是“能不能解決問題”,“能不能在場景中帶來實(shí)實(shí)在在的生產(chǎn)力”。

特別是在大模型走向落地應(yīng)用的趨勢下,一味炒作“超越GPT-4”、“跑分第一”,妄顧落地應(yīng)用的實(shí)效,可能會適得其反。以大模型應(yīng)用中比較常見的財(cái)報(bào)分析為例,如果大模型連一家企業(yè)的財(cái)報(bào)都看不懂,再高的計(jì)算分?jǐn)?shù)也不會讓客戶信服,反而會被排除在合作名單外。

而參考中信證券等機(jī)構(gòu)的研究報(bào)告,目前OpenAI的GPT-5正處于紅隊(duì)測試階段,有望在今年夏天正式發(fā)布,可能在多模態(tài)理解、長文本輸入、zero-shot學(xué)習(xí)等方面實(shí)現(xiàn)重大突破,且性能將遠(yuǎn)超GPT-4。即使國產(chǎn)大模型花費(fèi)400多天追平了GPT-4,在相當(dāng)長一段時(shí)間里,仍將處于追趕的姿態(tài)。

大模型的價(jià)值是解決日常問題的生產(chǎn)力工具,趕超GPT-4的階段性升級,可以看作是國產(chǎn)大模型有序迭代部署、不斷拉近差距的標(biāo)志,切莫像手機(jī)跑分那樣,在過度營銷的作用下,淪為被群嘲的對象。

申請創(chuàng)業(yè)報(bào)道,分享創(chuàng)業(yè)好點(diǎn)子。點(diǎn)擊此處,共同探討創(chuàng)業(yè)新機(jī)遇!

相關(guān)標(biāo)簽
大模型

相關(guān)文章

  • 大模型是下一代操作系統(tǒng)的未來,在這屆云棲大會上已經(jīng)到來

    9月24日,2025云棲大會在杭州開幕,阿里巴巴集團(tuán)CEO、阿里云智能集團(tuán)董事長兼CEO吳泳銘發(fā)表主旨演講,首次系統(tǒng)性地闡述通往ASI的三階段演進(jìn)路線,包括智能涌現(xiàn)、自主行動(dòng)以及自我迭代等,實(shí)現(xiàn)從學(xué)習(xí)人、輔助人到超越人的發(fā)展脈絡(luò)?;谏鲜龅陌l(fā)展路線,吳泳銘對外做出判斷,大模型是下一代的操作系統(tǒng)?!拔?/p>

    標(biāo)簽:
    大模型
  • 大模型搶灘高考志愿填報(bào),能否頂替「張雪峰」們?

    文/二風(fēng)來源/節(jié)點(diǎn)財(cái)經(jīng)每年高考成績放榜后,數(shù)千萬考生和家長將迎來另一場硬仗——填報(bào)志愿。今年,這一領(lǐng)域迎來了AI的全面介入,多家互聯(lián)網(wǎng)大廠和教育公司紛紛推出智能志愿填報(bào)產(chǎn)品,為考生提供院校和專業(yè)選擇建議。據(jù)艾媒咨詢數(shù)據(jù),2023年中國高考志愿填報(bào)市場付費(fèi)規(guī)模約9.5億元,近九成考生愿意借助志愿填報(bào)服

    標(biāo)簽:
    大模型
  • 崔大寶:大模型降溫背后的難點(diǎn)、卡點(diǎn)、節(jié)點(diǎn)

    崔大寶|節(jié)點(diǎn)財(cái)經(jīng)創(chuàng)始人進(jìn)入2024年,大模型似乎有熄火之勢:資本市場,與之關(guān)聯(lián)的概念炒不動(dòng)了,英偉達(dá)股價(jià)動(dòng)輒暴跌重挫,引發(fā)“泡沫戳破”的擔(dān)憂;消費(fèi)市場,BATH們的推新活動(dòng)少了,產(chǎn)品更新迭代的速度慢了,民眾的關(guān)注度降了……熱鬧的大概只剩下兩場酣仗:自5月15日字節(jié)跳動(dòng)宣布“以厘計(jì)費(fèi)”,打響國內(nèi)大模型

    標(biāo)簽:
    大模型
  • 兩分鐘“熟讀”《國史大綱》,大模型的下一個(gè)爆點(diǎn)是“書童”?

    年初大模型行業(yè)上演“長文本”大戰(zhàn)時(shí),我們就萌生過做一個(gè)“讀書助理”的想法。測試了市面上主流的大模型后,發(fā)現(xiàn)普遍存在兩個(gè)不足:一種是可以處理的文本長度不夠,即使有些大模型將文本長度提升到了20萬字,像《紅樓夢》這樣近百萬字的名著,還是需要多次才能“讀”完。另一種是語言理解和生成能力不足,經(jīng)常出現(xiàn)“幻覺

    標(biāo)簽:
    大模型
  • 除了燒錢,互聯(lián)網(wǎng)留給大模型揮霍的“家底”不多了

    互聯(lián)網(wǎng)或許從未停止創(chuàng)新,只是對于創(chuàng)新的認(rèn)知下降了。

    標(biāo)簽:
    大模型
  • 20%員工或被裁、1.6萬人離開:Meta醞釀史上最大規(guī)模裁員

    文/楊雪健來源/節(jié)點(diǎn)財(cái)經(jīng)Meta或迎來史上最大規(guī)模裁員潮。2026年3月14日,路透社曝出Meta正計(jì)劃啟動(dòng)新一輪大規(guī)模裁員,此次裁員比例或達(dá)公司總員工數(shù)的20%,按其近7.9萬的員工規(guī)模計(jì)算,約1.58萬名員工或?qū)⒈徊?。若該?jì)劃執(zhí)行,將成為Meta自2022年底實(shí)行“效率之年”重組后規(guī)模最大的一次

  • 阿里發(fā)布全球首個(gè)企業(yè)級Agent平臺“悟空”

    3月17日,阿里發(fā)布全球首個(gè)企業(yè)級AI原生工作平臺——“悟空”,讓每個(gè)團(tuán)隊(duì)、每家公司,都能擁有一支24h工作的”龍蝦軍團(tuán)”。悟空是一款獨(dú)立應(yīng)用,即日起開啟邀測,也將直接內(nèi)置到超2000萬企業(yè)組織的釘釘之中。擁有8億用戶的釘釘重寫底層代碼,進(jìn)行全面CLI(命令行界面)化改造,讓悟空Agent能夠原生操

  • 90%的AI中間商會消失:Google封號只是第一槍

    AI的“免費(fèi)紅利期”結(jié)束了,未來18個(gè)月,靠“API倒賣”的公司,會成片消失。這個(gè)導(dǎo)火索就是最近Google的一輪封號導(dǎo)致的,隨著封號風(fēng)波的結(jié)束,這也標(biāo)志著AI行業(yè)【收租時(shí)代】來了。2月封號潮:高付費(fèi)用戶被一鍋端一周前,Google開始大規(guī)模封號,付著250美金月費(fèi)的人,賬號說沒就沒,Gmail、Y

  • DeepSeek V4意外泄露,原生多模態(tài)

    來自路透社等媒體報(bào)道的最新消息:DeepSeek未發(fā)布的V4Lite模型遭泄露上網(wǎng),華為獲得早期訪問權(quán)限,英偉達(dá)被排除在外。近期,谷歌發(fā)表了2篇Multi-Agent協(xié)作學(xué)習(xí)新論文有網(wǎng)友提供了更加詳細(xì)的信息,DeepSeekV4Lite:100萬token上下文窗口(V3為128K)內(nèi)置原生多模態(tài)推

  • 中國開啟AI全民化元年,BAT同入“億級俱樂部”

    春節(jié)紅包會結(jié)束,但AI已融入數(shù)億人生活里

  • 開源模型再突破,全球AI行業(yè)的拐點(diǎn)要來了?

    性能、商業(yè)、生態(tài)詮釋開源模型的最佳姿態(tài)

  • 看懂黃仁勛CES演講,就看懂 AI 接下來十年的走向

    2026年剛開年,全世界最狂的那個(gè)男人,穿著他的經(jīng)典黑皮衣,在CES舞臺上發(fā)出了未來十年的信號。他搞了個(gè)“能吃飽套餐”:6個(gè)包子+一碟小菜+一碗粥=肉包子套餐,這樣以后你只要買一個(gè)套餐就能吃飽了。(Rubin平臺)同時(shí)他們店里還免費(fèi)提供的筷子、勺子、蘸料、醬油、醋、水果、零食等等。(開放10萬億語言

  • GDPS2025賽場直擊!開普勒大黃蜂助力華理斬獲搬運(yùn)賽項(xiàng)桂冠

    12月12日-14日,2025全球開發(fā)者先鋒大會暨國際具身智能技能大賽(GDPS2025)于上海張江科學(xué)會堂舉行,大會以具身智能競技為核心,融合了技術(shù)比拼、產(chǎn)業(yè)展示與科普體驗(yàn),為全球觀眾呈現(xiàn)出具身智能的現(xiàn)在與未來。上海開普勒機(jī)器人有限公司(以下簡稱"開普勒機(jī)器人")攜明星產(chǎn)品K2"大黃蜂"亮相,并參

    標(biāo)簽:
    GDPS
    2025
  • 弈動(dòng) Dynamic·數(shù)智躍遷 博弈無界|2025TechWorld智慧安全大會在京召開

    在數(shù)字化與智能化深度交織的時(shí)代浪潮中,安全的邊界不斷延展,技術(shù)的演進(jìn)正引領(lǐng)產(chǎn)業(yè)邁向新一輪變革。10月24日,以“弈動(dòng)Dynamic·數(shù)智躍遷博弈無界”為主題的2025TechWorld智慧安全大會在北京盛大召開。來自國家部委、院士學(xué)者、高??蒲袡C(jī)構(gòu)和企業(yè)的權(quán)威專家與業(yè)界精英齊聚北京,共議AI安全、數(shù)

    標(biāo)簽:
    弈動(dòng)
  • 甌江論道:AI賦能綠色發(fā)展

    2025年10月25日,2025世界青年科學(xué)家峰會之人工智能(AI)融合創(chuàng)新發(fā)展論壇在浙江溫州成功舉辦。本次論壇由國際院士科創(chuàng)中心主辦,中國投資協(xié)會能源投資專業(yè)委員會、溫港院士科創(chuàng)中心承辦,中國電工技術(shù)學(xué)會、中科先進(jìn)技術(shù)溫州研究院與溫州市電力工程學(xué)會提供支持,以“甌江論道-AI賦能綠色發(fā)展”為主題,

    標(biāo)簽:
    ai技術(shù)

編輯推薦