夏季大模型行業(yè)的密集上新隨著上周GPT-5的推出終于落下帷幕。北京時(shí)間8月8日凌晨,OpenAI正式發(fā)布下一代旗艦?zāi)P虶PT-5,距離上代模型GPT-4的推出已經(jīng)過(guò)去了29個(gè)月。
但GPT-5上線(xiàn)初期的反饋卻有些兩極分化。GPT-5仍然是當(dāng)前能力最為全面的模型,但和此前OpenAI一直保持著斷代式的模型性能領(lǐng)先相比,GPT-5并未與市場(chǎng)主流模型拉開(kāi)顯著差距,部分基準(zhǔn)測(cè)試場(chǎng)景下甚至被馬斯克的Grok 4或者同期發(fā)布的Claude Opus 4.1超越。
部分原因在于OpenAI的先發(fā)優(yōu)勢(shì)正在減弱,但更關(guān)鍵的原因或許在于OpenAI試圖將大模型從“能用”推向“好用”。和此前發(fā)布的旗艦?zāi)P筒煌?,OpenAI在此次GPT-5發(fā)布會(huì)中尤其強(qiáng)調(diào)他們?cè)跍p少模型幻覺(jué)、提升指令遵循能力和降低模型諂媚性方面的進(jìn)展。
這和此前國(guó)內(nèi)大模型代表星火 X1 的升級(jí)不謀而合。作為當(dāng)前市面上唯一全棧自主可控的全國(guó)產(chǎn)大模型,星火X1在7月25日的升級(jí)同樣著重強(qiáng)調(diào)對(duì)大模型實(shí)用痛點(diǎn)尤其是幻覺(jué)問(wèn)題的精準(zhǔn)攻克上。
在對(duì)模型幻覺(jué)問(wèn)題治理上,星火X1取得顯著突破,無(wú)論是對(duì)自身生成內(nèi)容真實(shí)性的把控(事實(shí)性幻覺(jué)治理),還是參考外部資料時(shí)對(duì)原文的忠實(shí)程度都有顯著改善(忠誠(chéng)性幻覺(jué)治理),大大提升了大模型在行業(yè)應(yīng)用中的可靠性。
甚至二者在技術(shù)路線(xiàn)的探索上都頗為一致。OpenAI在官網(wǎng)介紹,針對(duì)模型幻覺(jué)問(wèn)題,他們?cè)贕PT-5訓(xùn)練中加入了多目標(biāo)獎(jiǎng)勵(lì)機(jī)制以及思維鏈監(jiān)控等手段,來(lái)改善模型幻覺(jué)問(wèn)題。多目標(biāo)獎(jiǎng)勵(lì)改變了此前模型單一獎(jiǎng)懲機(jī)制容易迎合用戶(hù)的弊病,即便模型給出不確定性回答也可以得到正向反饋,思維鏈監(jiān)控則可以有限防止推理模型在深度思考過(guò)程中的幻覺(jué)問(wèn)題。
大模型幻覺(jué)的后果
在強(qiáng)化學(xué)習(xí)技術(shù)上,科大訊飛同樣試圖改進(jìn)大模型粗糙的數(shù)值獎(jiǎng)勵(lì)機(jī)制,將評(píng)語(yǔ)模型與細(xì)粒度反饋的強(qiáng)化學(xué)習(xí)技術(shù)結(jié)合起來(lái),就像是給AI配了一個(gè)耐心的老師,能在解題的每個(gè)環(huán)節(jié)給出具體建議。這種做法讓復(fù)雜的數(shù)學(xué)推理訓(xùn)練變得更加高效,也解決了強(qiáng)化學(xué)習(xí)訓(xùn)練中“獎(jiǎng)勵(lì)太少”的痛點(diǎn)問(wèn)題。
此外,科大訊飛提出的基于多路徑采樣驗(yàn)證及事實(shí)性約束強(qiáng)化學(xué)習(xí)的幻覺(jué)治理技術(shù),則可以在大模型思考過(guò)程及恢復(fù)生成階段,實(shí)現(xiàn)客觀(guān)問(wèn)題與標(biāo)準(zhǔn)答案的深度對(duì)齊,從而大幅減少慢思考下的幻覺(jué)率。
但在治理模型幻覺(jué)問(wèn)題上,作為大模型國(guó)家隊(duì)的科大訊飛還是比OpenAI更多走了一步??拼笥嶏w不僅從模型訓(xùn)練與監(jiān)督角度入手,還深入介入了大模型訓(xùn)練更前置的數(shù)據(jù)環(huán)節(jié)。
在此前已經(jīng)建立行業(yè)高質(zhì)量數(shù)據(jù)集以及訊飛知識(shí)工程平臺(tái)的基礎(chǔ)上,科大訊飛還開(kāi)創(chuàng)性地提出了基于多路徑采樣驗(yàn)證及事實(shí)性約束強(qiáng)化學(xué)習(xí)的幻覺(jué)治理技術(shù),在大模型思考過(guò)程及回復(fù)生成階段,實(shí)現(xiàn)客觀(guān)問(wèn)題與標(biāo)準(zhǔn)答案的深度強(qiáng)對(duì)齊,大幅減少了在慢思考下的幻覺(jué)率讓大模型回復(fù)通用常識(shí)及專(zhuān)業(yè)知識(shí)問(wèn)題更加可靠。
從全國(guó)產(chǎn)大模型代表的星火X1,到海外大模型代表的GPT-5,全球頂尖大模型同時(shí)強(qiáng)調(diào)模型可靠性的升級(jí)。這背后是因?yàn)?,大模型已?jīng)日益深入到社會(huì)應(yīng)用的方方面面,在性能穩(wěn)步提升的同時(shí),也對(duì)模型的可靠性和易用性提出了更高要求。
“我們的核心追求的是模型的實(shí)際應(yīng)用價(jià)值以及大眾的可訪(fǎng)問(wèn)性/可負(fù)擔(dān)性。我們可以發(fā)布更智能的模型,但更重要的這次的模型可以讓超過(guò)十億人受益。”OpenAI創(chuàng)始人兼CEO薩姆·奧爾特曼說(shuō)。
縱觀(guān)此次OpenAI針對(duì)GPT-5的升級(jí),你可能會(huì)感到些許熟悉。在發(fā)布會(huì)中,模型性能的提升一筆帶過(guò),更多時(shí)間都用在了講述GPT-5的具體行業(yè)應(yīng)用,尤其是編程、寫(xiě)作以及醫(yī)療等三個(gè)大模型核心應(yīng)用場(chǎng)景上。
其實(shí),大模型行業(yè)中最早呼吁關(guān)注模型行業(yè)應(yīng)用價(jià)值的正是科大訊飛。早在科大訊飛立項(xiàng)攻堅(jiān)大模型時(shí),就確立了“1+N”的研發(fā)方向,在研發(fā)一個(gè)通用大模型的同時(shí),也同步推出教育、醫(yī)療、法律等行業(yè)大模型。過(guò)去幾年來(lái),訊飛星火圍繞醫(yī)療、教育、法律、汽車(chē)、科研等多個(gè)重點(diǎn)行業(yè)發(fā)布多個(gè)行業(yè)大模型,同時(shí)與多個(gè)行業(yè)龍頭、央國(guó)企展開(kāi)深入合作,共同推進(jìn)大模型落地應(yīng)用。
7月25日全新升級(jí)的星火X1,更是科大訊飛推動(dòng)模型從“能用”走向“好用”的關(guān)鍵一步。二者雖然只一字之差,但背后的技術(shù)深度和應(yīng)用廣度完全不同。升級(jí)后的星火X1已全面賦能教育、醫(yī)療、企業(yè)應(yīng)用、代碼、科研等行業(yè)大模型和智能體,在復(fù)雜行業(yè)場(chǎng)景任務(wù)上進(jìn)一步滿(mǎn)足用戶(hù)核心需求。
星火代碼大模型已深度賦能金融、制造、能源、科技等100余家關(guān)鍵領(lǐng)域客戶(hù),在典型應(yīng)用場(chǎng)景中驅(qū)動(dòng)研發(fā)效率提升超過(guò)50%。測(cè)試集合來(lái)源:測(cè)試集合來(lái)自認(rèn)知智能全國(guó)重點(diǎn)實(shí)驗(yàn)室構(gòu)建的代碼實(shí)用場(chǎng)景測(cè)試集
大模型產(chǎn)業(yè)已經(jīng)到了產(chǎn)業(yè)化與規(guī)?;涞氐年P(guān)鍵時(shí)期,大模型不僅要能用,更要好用。作為大模型產(chǎn)業(yè)真正的國(guó)家隊(duì)代表,星火X1更是肩負(fù)著中國(guó)大模型產(chǎn)業(yè)真正自主可控的使命要求。在保持性能領(lǐng)先的同時(shí),也要真正賦能關(guān)乎社會(huì)民生的重點(diǎn)行業(yè),為世界提供第二種選擇。
量子位智庫(kù)
星火X1能夠先于GPT-5提出大模型要從“能用”走向“好用”,要在智能領(lǐng)先的同時(shí)擁有更廣的行業(yè)應(yīng)用,這背后彰顯了中國(guó)人工智能產(chǎn)業(yè)已經(jīng)從追趕逐漸走向領(lǐng)先階段。
今年是國(guó)家《新一代人工智能發(fā)展規(guī)劃》“第二步”的關(guān)鍵之年,在人工智能基礎(chǔ)理論實(shí)現(xiàn)重大突破的同時(shí),尤為強(qiáng)調(diào)在技術(shù)與應(yīng)用達(dá)到世界領(lǐng)先水平,人工智能成為帶動(dòng)我國(guó)產(chǎn)業(yè)升級(jí)和經(jīng)濟(jì)轉(zhuǎn)型的主要?jiǎng)恿Α?/p>
作為大模型國(guó)家隊(duì)的突出代表,星火X1更要率先解決橫亙?cè)诖竽P托袠I(yè)落地難的關(guān)鍵技術(shù)與應(yīng)用難題。從這個(gè)角度上來(lái)說(shuō),星火X1已經(jīng)交出了一份出色的答卷。
申請(qǐng)創(chuàng)業(yè)報(bào)道,分享創(chuàng)業(yè)好點(diǎn)子。點(diǎn)擊此處,共同探討創(chuàng)業(yè)新機(jī)遇!