123,123,123

　一鍵部署OpenClaw

11月18日，昆侖萬(wàn)維正式發(fā)布Skywork R1V4-Lite，一款集成視覺(jué)操作、推理與規(guī)劃的輕量級(jí)多模態(tài)智能體。它不僅能進(jìn)行深度推理，還在同一模型中統(tǒng)一了主動(dòng)圖像操作、外部工具調(diào)用、多模態(tài)深度研究三大能力。

與傳統(tǒng)只能“看圖回答”的模型不同，Skywork R1V4-Lite能夠在真實(shí)場(chǎng)景中隨手拍照即可完成復(fù)雜任務(wù)：自動(dòng)旋轉(zhuǎn)圖像判斷空間位置、多次放大讀取模糊文字、繪制輔助線驗(yàn)證幾何關(guān)系、跨模態(tài)搜索定位真實(shí)地點(diǎn)……這些過(guò)去只有在大型模型或?qū)Ｓ肁gent系統(tǒng)中才能實(shí)現(xiàn)的能力，如今在輕量多模態(tài)智能體Skywork R1V4-Lite中即可完成。

這意味著用戶不需要設(shè)計(jì)提示詞，不需要提供額外信息，只需拍一張圖，Skywork R1V4-Lite就能自己觀察、操作、推理并給出答案。從感知到行動(dòng)，從推理到驗(yàn)證，Skywork R1V4-Lite讓“即時(shí)多模態(tài)洞察”成為現(xiàn)實(shí)，為多模態(tài)智能體從封閉推理邁向開放式交互提供了新的技術(shù)路徑。

在多個(gè)權(quán)威視覺(jué)與感知基準(zhǔn)上，Skywork R1V4-Lite展現(xiàn)出超過(guò)預(yù)期的競(jìng)爭(zhēng)力：在8個(gè)多模態(tài)理解基準(zhǔn)評(píng)測(cè)上整體領(lǐng)先Gemini 2.5 Flash，其中5個(gè)任務(wù)上超過(guò)Gemini 2.5 Pro的水平。

這證實(shí)了“圖像操作 × 深度推理”訓(xùn)練范式的有效性，并展現(xiàn)出極強(qiáng)的scaling潛力：即便是小模型，也能逼近頂級(jí)閉源模型的表現(xiàn)。

01核心優(yōu)勢(shì)一：隨手拍解題，即時(shí)理解的主動(dòng)視覺(jué)操作

Skywork R1V4-Lite在推理過(guò)程中并非被動(dòng)“看圖回答”，而是具備主動(dòng)式圖像操作能力：在遇到視角受限或信息不足的場(chǎng)景時(shí)，模型會(huì)自動(dòng)執(zhí)行裁切（Crop）、放大（Zoom）、旋轉(zhuǎn)（Rotate）、區(qū)域定位等操作，構(gòu)建一條透明且可回溯的“視覺(jué)行動(dòng)鏈”。

R1V4-Lite展現(xiàn)出物理邏輯理解力：它先對(duì)圖像進(jìn)行幾何校正，再基于正確視角進(jìn)行空間關(guān)系推理。

當(dāng)任務(wù)要求極高精度時(shí)，R1V4-Lite會(huì)進(jìn)一步主動(dòng)進(jìn)行微觀級(jí)操作：放大區(qū)域、生成參考線、構(gòu)建輔助判斷策略。對(duì)于需要“精密判斷”的任務(wù)，模型不會(huì)直接給答案，而是會(huì)先構(gòu)建輔助工具來(lái)確保結(jié)果嚴(yán)謹(jǐn)可靠。

在需要主動(dòng)式圖像操作能力的任務(wù)中，模型會(huì)主動(dòng)進(jìn)行多步裁剪放大的圖像操作，找到對(duì)應(yīng)的圖片區(qū)域，使推理結(jié)果具備可解釋性與嚴(yán)謹(jǐn)性。這一過(guò)程完整展示了R1V4-Lite的視覺(jué)行動(dòng)力：模型不再“被動(dòng)看圖”，而是在復(fù)雜場(chǎng)景中主動(dòng)探索、驗(yàn)證、修正與整合，實(shí)現(xiàn)真正意義上的「邊觀察、邊思考、邊行動(dòng)」。

02核心優(yōu)勢(shì)二：多模態(tài)深度研究，領(lǐng)先的輕量級(jí)搜索增強(qiáng)能力

Skywork R1V4-Lite也支持接入聯(lián)網(wǎng)搜索功能，在聯(lián)網(wǎng)搜索下會(huì)自動(dòng)觸發(fā)深度研究能力：

通過(guò)構(gòu)建推理腳手架，與外部世界進(jìn)行搜索、檢索、比對(duì)等主動(dòng)交互。觸發(fā)搜索、檢索、比對(duì)等多種外部資源交互，將搜索結(jié)果與視覺(jué)推理深度融合，形成“搜索—推理—驗(yàn)證”的閉環(huán)。模型由此獲得跨模態(tài)、跨資源的知識(shí)擴(kuò)展能力，推理邊界顯著拉寬。

從結(jié)果上看，R1V4-Lite在多模態(tài)DeepResearch類任務(wù)中展現(xiàn)出了領(lǐng)先趨勢(shì)：在mm-search上以66分超過(guò)Gemini 2.5 Flash的64.9分，在FVQA上以67分顯著領(lǐng)先Gemini 2.5 Flash的60.8分。這一系列結(jié)果強(qiáng)有力地驗(yàn)證了「圖像操作 × 深度推理交織訓(xùn)練」范式的有效性。

面對(duì)復(fù)雜問(wèn)題，R1V4-Lite能夠進(jìn)行多輪推理與信息整合。

R1V4-Lite 不僅在學(xué)術(shù)、法律、生態(tài)與醫(yī)學(xué)場(chǎng)景中展現(xiàn)出強(qiáng)大的多模態(tài)深度推理能力，在電商智能與內(nèi)容理解方面同樣表現(xiàn)卓越。 r1v4-lite在復(fù)雜的圖片輸入下，找到了商品來(lái)源并給出了詳細(xì)的商品介紹。這種能力可直接應(yīng)用于智能導(dǎo)購(gòu)、圖搜找同款、跨平臺(tái)商品比價(jià)等典型電商場(chǎng)景。

03核心優(yōu)勢(shì)三：看圖即可規(guī)劃，主動(dòng)式多模態(tài)任務(wù)規(guī)劃

R1V4-planner-lite可以支持真正意義上的主動(dòng)式多模態(tài) Agentic 規(guī)劃，首次讓視覺(jué)輸入能夠直接驅(qū)動(dòng)任務(wù)鏈規(guī)劃，將推理鏈擴(kuò)展為可執(zhí)行鏈。

從一張圖像出發(fā)，Planner能夠自動(dòng)構(gòu)建一條可執(zhí)行的多輪任務(wù)鏈（task chain），并完成：

任務(wù)分解（Task Decomposition）

工具選擇（Tool Selection）

參數(shù)生成（Parameter Generation）

執(zhí)行順序規(guī)劃（Execution Ordering）

這意味著模型首次從傳統(tǒng)的 “看圖回答” → “看圖行動(dòng)”，具備了由視覺(jué)驅(qū)動(dòng)的行動(dòng)規(guī)劃能力。

在此基礎(chǔ)上，R1V4-Planner-Lite將規(guī)劃能力擴(kuò)展到系統(tǒng)級(jí)（system-level planning）：模型會(huì)綜合用戶意圖、上下文、可用工具與任務(wù)依賴關(guān)系（dependency graph），自動(dòng)生成結(jié)構(gòu)化的執(zhí)行方案，并以高度可解釋的形式給出每一步的工具、參數(shù)與目的。這為Agentic智能提供了可控性、透明度和穩(wěn)定性。

Skywork R1V4-Lite并非傳統(tǒng)意義上的“小模型”。它是業(yè)界首個(gè)在輕量級(jí)架構(gòu)下同時(shí)實(shí)現(xiàn)：圖像操作（Crop / Zoom / Rotate）、深度推理（Long-form Reasoning）和任務(wù)規(guī)劃（Agentic Planning）三能力統(tǒng)一的多模態(tài)智能體。

在極小參數(shù)規(guī)模下，Skywork R1V4-Lite依然能進(jìn)行端到端的深度思考與主動(dòng)執(zhí)行，實(shí)現(xiàn)從 “視覺(jué)輸入” 一直推到 “任務(wù)完成” 的完整能力鏈。

04核心優(yōu)勢(shì)四：小尺寸、快響應(yīng)、低成本

Skywork R1V4-Lite在模型規(guī)模、推理速度與吞吐效率之間實(shí)現(xiàn)了極佳工程平衡。這意味著它不僅適合工程落地，也能支撐極高的并發(fā)和實(shí)時(shí)性要求，是移動(dòng)端、應(yīng)用內(nèi)推理和高 QPS 產(chǎn)品的更優(yōu)選項(xiàng)。

通過(guò)更高效的模型優(yōu)化與繼承Qwen3 A3B輕量架構(gòu)設(shè)計(jì)，它在真實(shí)生產(chǎn)環(huán)境中展現(xiàn)出遠(yuǎn)超同體量模型的性能表現(xiàn)：

1.響應(yīng)速度（Latency）

- 約為Gemini 2.5 Pro的1/19

- 約為Gemini 2.5 Flash的1/5

2.Token 吞吐（TPS）

- 為Gemini 2.5 Pro/Flash的約2倍

3.端到端完成速度：依托更強(qiáng)的推理壓縮能力與極低的工具調(diào)用輪次，在工具調(diào)用與長(zhǎng)推理任務(wù)（端到端使用工具），R1V4-Lite實(shí)現(xiàn)了：

- 比Gemini 2.5 Pro快2.9×

- 比Gemini 2.5 Flash快1.7×

憑借低延遲×高吞吐×極低成本的組合優(yōu)勢(shì)，R1V4-Lite完美適用于：

實(shí)時(shí)問(wèn)答

視覺(jué)檢索

智能助手

多模態(tài)工具調(diào)用

高并發(fā)的在線生產(chǎn)場(chǎng)景

R1V4-Lite的發(fā)布證明了——小模型也能很強(qiáng)，小模型也能很快，小模型也能多模態(tài)。

05展望

R1V4-Lite的成功不僅來(lái)自工程優(yōu)化，更源自其背后的多模態(tài)新范式：圖像操作×深度推理交織訓(xùn)練。這一訓(xùn)練路線讓輕量模型具備跨模態(tài)推理、主動(dòng)圖像操作、任務(wù)規(guī)劃與搜索增強(qiáng)的統(tǒng)一能力，展示了輕量多模態(tài)智能體的全新可能性。

這一結(jié)果進(jìn)一步說(shuō)明：能力密度比參數(shù)規(guī)模更重要，小模型也能逼近閉源模型的真實(shí)表現(xiàn)。隨著更大容量與更強(qiáng)結(jié)構(gòu)進(jìn)一步加入該范式，其scaling潛力將持續(xù)釋放。目前，Skywork R1V4-Pro也即將準(zhǔn)備發(fā)布。

未來(lái)，昆侖萬(wàn)維旗下Skywork將沿著 “Multimodal Reasoning×Agentic Intelligence×Tool Augmentation” 路線繼續(xù)前進(jìn)，讓模型不僅理解世界，還能更有效地與世界信息交互，并在真實(shí)任務(wù)中產(chǎn)生實(shí)際價(jià)值。

申請(qǐng)創(chuàng)業(yè)報(bào)道，分享創(chuàng)業(yè)好點(diǎn)子。點(diǎn)擊此處，共同探討創(chuàng)業(yè)新機(jī)遇！

當(dāng)前位置：首頁(yè) > 科技 > IT業(yè)界 > 正文

昆侖萬(wàn)維正式發(fā)布Skywork R1V4-Lite，多模態(tài)智能體邁向開放式交互時(shí)代

相關(guān)文章

昆侖萬(wàn)維「Matrix-Game 2.0」發(fā)布，國(guó)產(chǎn)開源的Genie 3來(lái)啦！

AI淘汰歌手又近一步，昆侖萬(wàn)維正式上線Mureka V7

我們不是“鋼鐵俠”，但每個(gè)人都需要一個(gè)“賈維斯”

熱門排行

信息推薦

編輯推薦

阿里一元店是新解“囊”雜貨鋪？

億企聯(lián)解答互聯(lián)網(wǎng)廣告的存在意義何在？

熱門標(biāo)簽