123,123

摘要：以小模型實(shí)現(xiàn)高精度界面定位，AI執(zhí)行能力進(jìn)入新階段

近日，一項(xiàng)聚焦AI操作能力的全球性基準(zhǔn)測試——ScreenSpot-Pro，開始從技術(shù)圈走向更廣泛的行業(yè)視野。

在最新公布的ScreenSpot-Pro榜單中，金智維KV-Ground模型取得全面領(lǐng)先：其中，主流8B模型位列全榜單第一，超越了包括更大參數(shù)規(guī)模在內(nèi)的所有模型；4B小模型位列4B參數(shù)模型第一，以更小模型實(shí)現(xiàn)更高性能。

這一結(jié)果也充分反映出，AI 正在從“聽得懂指令”向“真正能夠操作”邁進(jìn)了關(guān)鍵一步。

ScreenSpot-Pro 測的是什么？

過去幾年，業(yè)界常用“多模態(tài)能力”來衡量AI進(jìn)步，例如能否看懂圖片、理解頁面內(nèi)容，但在真實(shí)企業(yè)環(huán)境中，這些能力往往只停留在理解層面。真正決定AI能否落地的，是更具體的一環(huán)：AI能否在復(fù)雜的軟件界面中，準(zhǔn)確找到并指向應(yīng)該點(diǎn)擊的控件。例如，當(dāng)財(cái)務(wù)人員需要在企業(yè)ERP系統(tǒng)中“生成上月銷售匯總報(bào)表”時(shí)，AI不僅要理解指令，還必須在滿是菜單、工具欄和層層彈窗的完整界面里，精準(zhǔn)定位那個(gè)可能藏在角落的“導(dǎo)出”按鈕。

ScreenSpot-Pro 重點(diǎn)考察的正是這一能力。在真實(shí)測試中，它會(huì)給模型一句自然語言指令，例如“打開高級篩選”或“導(dǎo)出當(dāng)前報(bào)表”，然后要求模型在一張完整的、高分辨率的真實(shí)軟件界面截圖中，精準(zhǔn)定位對應(yīng)的按鈕、菜單或輸入框。這種技術(shù)能力被稱為GUI Grounding，通俗來說，就是AI是否具備“操作電腦”的基礎(chǔ)執(zhí)行力。

ScreenSpot-Pro采用的是整屏、專業(yè)軟件的高難度場景，覆蓋辦公、開發(fā)、設(shè)計(jì)、工程分析等23款真實(shí)應(yīng)用，橫跨多個(gè)行業(yè)與操作系統(tǒng)，所有任務(wù)均由資深專業(yè)人士標(biāo)注。相比早期許多僅使用簡化網(wǎng)頁截圖的測試，這個(gè)基準(zhǔn)更接近企業(yè)日常工作的真實(shí)復(fù)雜程度，因此被廣泛視為判斷智能體能否真正落地的世界級關(guān)鍵標(biāo)桿。它由多家知名學(xué)術(shù)機(jī)構(gòu)聯(lián)合打造，目前已被OmniParser v2、Qwen2.5-VL、UI-TARS等多個(gè)主流GUI智能體項(xiàng)目采用，成為行業(yè)共識性的重要參考。

金智維KV-Ground在高難度基準(zhǔn)上的表現(xiàn)

根據(jù)ScreenSpot-Pro官方榜單數(shù)據(jù)，金智維KV-Ground-8B模型作為一款與智能體策略深度融合的模型，在ScreenSpot-Pro上得分80.5分，位列所有模型第一，成功超越包括更大參數(shù)模型在內(nèi)的多個(gè)競品；KV-Ground-4B模型得分67.0分，摘得4B規(guī)模組第一，在全榜單中同樣表現(xiàn)突出。

這一成績已非常接近人類在復(fù)雜界面定位任務(wù)中的表現(xiàn)水平，標(biāo)志著金智維KV-Ground不僅能在專業(yè)高分辨率GUI場景中精準(zhǔn)理解指令，更具備接近人類水準(zhǔn)的動(dòng)手執(zhí)行能力。

值得關(guān)注的是，這一成績并非單純依賴更大參數(shù)規(guī)模。從基礎(chǔ)模型到KV-Ground版本的對比實(shí)驗(yàn)顯示，金智維KV-Ground在界面定位精度上實(shí)現(xiàn)了穩(wěn)定提升，其采用的專項(xiàng)優(yōu)化方法，能夠在不同規(guī)模模型上被穩(wěn)定復(fù)現(xiàn)和擴(kuò)展，而非針對單一榜單的偶然突破。

小模型領(lǐng)先：企業(yè)真正需要的落地優(yōu)勢

在企業(yè)真實(shí)應(yīng)用場景中，模型參數(shù)規(guī)模仍是重要指標(biāo)之一，但并非唯一決定因素。金融機(jī)構(gòu)需要快速處理報(bào)表，制造企業(yè)要在CAD軟件中執(zhí)行設(shè)計(jì)調(diào)整，研發(fā)團(tuán)隊(duì)則經(jīng)常面對MATLAB或SolidWorks等專業(yè)工具……這些場景下，部署成本、響應(yīng)速度和系統(tǒng)兼容性同樣關(guān)鍵。在這一背景下，金智維KV-Ground-4B 小模型在復(fù)雜專業(yè)界面中仍保持較高精度，意味著企業(yè)可以在更低算力條件下實(shí)現(xiàn)類似能力。

換句話說，原本可能需要較高硬件投入的界面理解與操作能力，如今在更輕量的部署環(huán)境中也可以實(shí)現(xiàn)，原本中大模型動(dòng)輒幾十萬甚至上百萬元的服務(wù)器，大幅降低到僅需萬元左右的設(shè)備即可滿足，實(shí)現(xiàn)更低的時(shí)延和更高的性價(jià)比。當(dāng)小模型也能精準(zhǔn)完成復(fù)雜界面定位時(shí)，AI才真正具備大規(guī)模進(jìn)入企業(yè)系統(tǒng)的條件，極大降低了企業(yè)級智能體的部署門檻。

從“能理解”到“能執(zhí)行”：智能體落地邁出關(guān)鍵一步

長期以來，企業(yè)智能體一直都面臨一道難關(guān)：大模型可以清晰理解任務(wù)，卻難以直接完成操作；傳統(tǒng)自動(dòng)化工具可以執(zhí)行固定流程，卻缺乏靈活適應(yīng)能力。而GUI Grounding能力的突破，填補(bǔ)了這條斷層。

這也意味著，系統(tǒng)不需要改變，AI可以主動(dòng)適應(yīng)系統(tǒng)，企業(yè)因此能夠以更低的門檻，將智能體融入日常業(yè)務(wù)流程，實(shí)現(xiàn)從輔助決策到直接執(zhí)行的躍遷。

此次金智維KV-Ground在ScreenSpot-Pro這一世界級高難度基準(zhǔn)上的領(lǐng)先表現(xiàn)，打破了“參數(shù)越大越強(qiáng)”的單一認(rèn)知，展現(xiàn)出一條更注重效率與實(shí)用性的優(yōu)化路徑，即在專業(yè)GUI操作這一真實(shí)難題上，通過針對性優(yōu)化，小規(guī)模模型同樣能夠達(dá)到世界領(lǐng)先水平，這也為行業(yè)提供了新的參考思路。

如今，AI的發(fā)展正在從拼規(guī)模轉(zhuǎn)向拼能力結(jié)構(gòu)，尤其是在企業(yè)落地場景中，高效與實(shí)用正成為核心競爭力。隨著GUI Grounding等底層能力的持續(xù)成熟，企業(yè)級智能體將進(jìn)一步走向?qū)嵱秒A段，AI不僅“會(huì)想”，更“會(huì)做”，真正成為驅(qū)動(dòng)企業(yè)生產(chǎn)力的可靠力量。

申請創(chuàng)業(yè)報(bào)道，分享創(chuàng)業(yè)好點(diǎn)子。點(diǎn)擊此處，共同探討創(chuàng)業(yè)新機(jī)遇！

當(dāng)前位置：首頁 > 科技 > IT業(yè)界 > 正文

金智維登頂ScreenSpot-Pro榜單，多項(xiàng)指標(biāo)領(lǐng)先全球

相關(guān)文章

熱門排行

信息推薦

編輯推薦

阿里一元店是新解“囊”雜貨鋪？

億企聯(lián)解答互聯(lián)網(wǎng)廣告的存在意義何在？

熱門標(biāo)簽