當(dāng)前位置:首頁 >  科技 >  IT業(yè)界 >  正文

金智維登頂ScreenSpot-Pro榜單,多項指標(biāo)領(lǐng)先全球

 2026-03-25 17:12  來源: 互聯(lián)網(wǎng)   我來投稿 撤稿糾錯

  一鍵部署OpenClaw

摘要:以小模型實現(xiàn)高精度界面定位,AI執(zhí)行能力進(jìn)入新階段

近日,一項聚焦AI操作能力的全球性基準(zhǔn)測試——ScreenSpot-Pro,開始從技術(shù)圈走向更廣泛的行業(yè)視野。

在最新公布的ScreenSpot-Pro榜單中,金智維KV-Ground模型取得全面領(lǐng)先:其中,主流8B模型位列全榜單第一,超越了包括更大參數(shù)規(guī)模在內(nèi)的所有模型;4B小模型位列4B參數(shù)模型第一,以更小模型實現(xiàn)更高性能。

這一結(jié)果也充分反映出,AI 正在從“聽得懂指令”向“真正能夠操作”邁進(jìn)了關(guān)鍵一步。

ScreenSpot-Pro 測的是什么?

過去幾年,業(yè)界常用“多模態(tài)能力”來衡量AI進(jìn)步,例如能否看懂圖片、理解頁面內(nèi)容,但在真實企業(yè)環(huán)境中,這些能力往往只停留在理解層面。真正決定AI能否落地的,是更具體的一環(huán):AI能否在復(fù)雜的軟件界面中,準(zhǔn)確找到并指向應(yīng)該點擊的控件。例如,當(dāng)財務(wù)人員需要在企業(yè)ERP系統(tǒng)中“生成上月銷售匯總報表”時,AI不僅要理解指令,還必須在滿是菜單、工具欄和層層彈窗的完整界面里,精準(zhǔn)定位那個可能藏在角落的“導(dǎo)出”按鈕。

ScreenSpot-Pro 重點考察的正是這一能力。在真實測試中,它會給模型一句自然語言指令,例如“打開高級篩選”或“導(dǎo)出當(dāng)前報表”,然后要求模型在一張完整的、高分辨率的真實軟件界面截圖中,精準(zhǔn)定位對應(yīng)的按鈕、菜單或輸入框。這種技術(shù)能力被稱為GUI Grounding,通俗來說,就是AI是否具備“操作電腦”的基礎(chǔ)執(zhí)行力。

ScreenSpot-Pro采用的是整屏、專業(yè)軟件的高難度場景,覆蓋辦公、開發(fā)、設(shè)計、工程分析等23款真實應(yīng)用,橫跨多個行業(yè)與操作系統(tǒng),所有任務(wù)均由資深專業(yè)人士標(biāo)注。相比早期許多僅使用簡化網(wǎng)頁截圖的測試,這個基準(zhǔn)更接近企業(yè)日常工作的真實復(fù)雜程度,因此被廣泛視為判斷智能體能否真正落地的世界級關(guān)鍵標(biāo)桿。它由多家知名學(xué)術(shù)機(jī)構(gòu)聯(lián)合打造,目前已被OmniParser v2、Qwen2.5-VL、UI-TARS等多個主流GUI智能體項目采用,成為行業(yè)共識性的重要參考。

金智維KV-Ground在高難度基準(zhǔn)上的表現(xiàn)

根據(jù)ScreenSpot-Pro官方榜單數(shù)據(jù),金智維KV-Ground-8B模型作為一款與智能體策略深度融合的模型,在ScreenSpot-Pro上得分80.5分,位列所有模型第一,成功超越包括更大參數(shù)模型在內(nèi)的多個競品;KV-Ground-4B模型得分67.0分,摘得4B規(guī)模組第一,在全榜單中同樣表現(xiàn)突出。

這一成績已非常接近人類在復(fù)雜界面定位任務(wù)中的表現(xiàn)水平,標(biāo)志著金智維KV-Ground不僅能在專業(yè)高分辨率GUI場景中精準(zhǔn)理解指令,更具備接近人類水準(zhǔn)的動手執(zhí)行能力。

值得關(guān)注的是,這一成績并非單純依賴更大參數(shù)規(guī)模。從基礎(chǔ)模型到KV-Ground版本的對比實驗顯示,金智維KV-Ground在界面定位精度上實現(xiàn)了穩(wěn)定提升,其采用的專項優(yōu)化方法,能夠在不同規(guī)模模型上被穩(wěn)定復(fù)現(xiàn)和擴(kuò)展,而非針對單一榜單的偶然突破。

小模型領(lǐng)先:企業(yè)真正需要的落地優(yōu)勢

在企業(yè)真實應(yīng)用場景中,模型參數(shù)規(guī)模仍是重要指標(biāo)之一,但并非唯一決定因素。金融機(jī)構(gòu)需要快速處理報表,制造企業(yè)要在CAD軟件中執(zhí)行設(shè)計調(diào)整,研發(fā)團(tuán)隊則經(jīng)常面對MATLAB或SolidWorks等專業(yè)工具……這些場景下,部署成本、響應(yīng)速度和系統(tǒng)兼容性同樣關(guān)鍵。在這一背景下,金智維KV-Ground-4B 小模型在復(fù)雜專業(yè)界面中仍保持較高精度,意味著企業(yè)可以在更低算力條件下實現(xiàn)類似能力。

換句話說,原本可能需要較高硬件投入的界面理解與操作能力,如今在更輕量的部署環(huán)境中也可以實現(xiàn),原本中大模型動輒幾十萬甚至上百萬元的服務(wù)器,大幅降低到僅需萬元左右的設(shè)備即可滿足,實現(xiàn)更低的時延和更高的性價比。當(dāng)小模型也能精準(zhǔn)完成復(fù)雜界面定位時,AI才真正具備大規(guī)模進(jìn)入企業(yè)系統(tǒng)的條件,極大降低了企業(yè)級智能體的部署門檻。

從“能理解”到“能執(zhí)行”:智能體落地邁出關(guān)鍵一步

長期以來,企業(yè)智能體一直都面臨一道難關(guān):大模型可以清晰理解任務(wù),卻難以直接完成操作;傳統(tǒng)自動化工具可以執(zhí)行固定流程,卻缺乏靈活適應(yīng)能力。而GUI Grounding能力的突破,填補(bǔ)了這條斷層。

這也意味著,系統(tǒng)不需要改變,AI可以主動適應(yīng)系統(tǒng),企業(yè)因此能夠以更低的門檻,將智能體融入日常業(yè)務(wù)流程,實現(xiàn)從輔助決策到直接執(zhí)行的躍遷。

此次金智維KV-Ground在ScreenSpot-Pro這一世界級高難度基準(zhǔn)上的領(lǐng)先表現(xiàn),打破了“參數(shù)越大越強(qiáng)”的單一認(rèn)知,展現(xiàn)出一條更注重效率與實用性的優(yōu)化路徑,即在專業(yè)GUI操作這一真實難題上,通過針對性優(yōu)化,小規(guī)模模型同樣能夠達(dá)到世界領(lǐng)先水平,這也為行業(yè)提供了新的參考思路。

如今,AI的發(fā)展正在從拼規(guī)模轉(zhuǎn)向拼能力結(jié)構(gòu),尤其是在企業(yè)落地場景中,高效與實用正成為核心競爭力。隨著GUI Grounding等底層能力的持續(xù)成熟,企業(yè)級智能體將進(jìn)一步走向?qū)嵱秒A段,AI不僅“會想”,更“會做”,真正成為驅(qū)動企業(yè)生產(chǎn)力的可靠力量。

申請創(chuàng)業(yè)報道,分享創(chuàng)業(yè)好點子。點擊此處,共同探討創(chuàng)業(yè)新機(jī)遇!

相關(guān)標(biāo)簽
金智維

相關(guān)文章

熱門排行

信息推薦