11月18日,昆侖萬維正式發(fā)布Skywork R1V4-Lite,一款集成視覺操作、推理與規(guī)劃的輕量級多模態(tài)智能體。它不僅能進行深度推理,還在同一模型中統(tǒng)一了主動圖像操作、外部工具調(diào)用、多模態(tài)深度研究三大能力。
與傳統(tǒng)只能“看圖回答”的模型不同,Skywork R1V4-Lite能夠在真實場景中隨手拍照即可完成復(fù)雜任務(wù):自動旋轉(zhuǎn)圖像判斷空間位置、多次放大讀取模糊文字、繪制輔助線驗證幾何關(guān)系、跨模態(tài)搜索定位真實地點……這些過去只有在大型模型或?qū)S肁gent系統(tǒng)中才能實現(xiàn)的能力,如今在輕量多模態(tài)智能體Skywork R1V4-Lite中即可完成。
這意味著用戶不需要設(shè)計提示詞,不需要提供額外信息,只需拍一張圖,Skywork R1V4-Lite就能自己觀察、操作、推理并給出答案。從感知到行動,從推理到驗證,Skywork R1V4-Lite讓“即時多模態(tài)洞察”成為現(xiàn)實,為多模態(tài)智能體從封閉推理邁向開放式交互提供了新的技術(shù)路徑。
在多個權(quán)威視覺與感知基準上,Skywork R1V4-Lite展現(xiàn)出超過預(yù)期的競爭力:在8個多模態(tài)理解基準評測上整體領(lǐng)先Gemini 2.5 Flash,其中5個任務(wù)上超過Gemini 2.5 Pro的水平。


這證實了“圖像操作 × 深度推理”訓練范式的有效性,并展現(xiàn)出極強的scaling潛力:即便是小模型,也能逼近頂級閉源模型的表現(xiàn)。
01核心優(yōu)勢一:隨手拍解題,即時理解的主動視覺操作
Skywork R1V4-Lite在推理過程中并非被動“看圖回答”,而是具備主動式圖像操作能力:在遇到視角受限或信息不足的場景時,模型會自動執(zhí)行裁切(Crop)、放大(Zoom)、旋轉(zhuǎn)(Rotate)、區(qū)域定位等操作,構(gòu)建一條透明且可回溯的“視覺行動鏈”。
R1V4-Lite展現(xiàn)出物理邏輯理解力:它先對圖像進行幾何校正,再基于正確視角進行空間關(guān)系推理。
當任務(wù)要求極高精度時,R1V4-Lite會進一步主動進行微觀級操作:放大區(qū)域、生成參考線、構(gòu)建輔助判斷策略。對于需要“精密判斷”的任務(wù),模型不會直接給答案,而是會先構(gòu)建輔助工具來確保結(jié)果嚴謹可靠。
在需要主動式圖像操作能力的任務(wù)中,模型會主動進行多步裁剪放大的圖像操作,找到對應(yīng)的圖片區(qū)域,使推理結(jié)果具備可解釋性與嚴謹性。這一過程完整展示了R1V4-Lite的視覺行動力:模型不再“被動看圖”,而是在復(fù)雜場景中主動探索、驗證、修正與整合,實現(xiàn)真正意義上的「邊觀察、邊思考、邊行動」。
02核心優(yōu)勢二:多模態(tài)深度研究,領(lǐng)先的輕量級搜索增強能力
Skywork R1V4-Lite也支持接入聯(lián)網(wǎng)搜索功能,在聯(lián)網(wǎng)搜索下會自動觸發(fā)深度研究能力:
通過構(gòu)建推理腳手架,與外部世界進行搜索、檢索、比對等主動交互。觸發(fā)搜索、檢索、比對等多種外部資源交互,將搜索結(jié)果與視覺推理深度融合,形成“搜索—推理—驗證”的閉環(huán)。模型由此獲得跨模態(tài)、跨資源的知識擴展能力,推理邊界顯著拉寬。

從結(jié)果上看,R1V4-Lite在多模態(tài)DeepResearch類任務(wù)中展現(xiàn)出了領(lǐng)先趨勢:在mm-search上以66分超過Gemini 2.5 Flash的64.9分,在FVQA上以67分顯著領(lǐng)先Gemini 2.5 Flash的60.8分。這一系列結(jié)果強有力地驗證了「圖像操作 × 深度推理交織訓練」范式的有效性。
面對復(fù)雜問題,R1V4-Lite能夠進行多輪推理與信息整合。
R1V4-Lite 不僅在學術(shù)、法律、生態(tài)與醫(yī)學場景中展現(xiàn)出強大的多模態(tài)深度推理能力,在電商智能與內(nèi)容理解方面同樣表現(xiàn)卓越。 r1v4-lite在復(fù)雜的圖片輸入下,找到了商品來源并給出了詳細的商品介紹。這種能力可直接應(yīng)用于智能導(dǎo)購、圖搜找同款、跨平臺商品比價等典型電商場景。
03核心優(yōu)勢三:看圖即可規(guī)劃,主動式多模態(tài)任務(wù)規(guī)劃
R1V4-planner-lite可以支持真正意義上的主動式多模態(tài) Agentic 規(guī)劃,首次讓視覺輸入能夠直接驅(qū)動任務(wù)鏈規(guī)劃,將推理鏈擴展為可執(zhí)行鏈。
從一張圖像出發(fā),Planner能夠自動構(gòu)建一條可執(zhí)行的多輪任務(wù)鏈(task chain),并完成:
任務(wù)分解(Task Decomposition)
工具選擇(Tool Selection)
參數(shù)生成(Parameter Generation)
執(zhí)行順序規(guī)劃(Execution Ordering)
這意味著模型首次從傳統(tǒng)的 “看圖回答” → “看圖行動”,具備了由視覺驅(qū)動的行動規(guī)劃能力。
在此基礎(chǔ)上,R1V4-Planner-Lite將規(guī)劃能力擴展到系統(tǒng)級(system-level planning):模型會綜合用戶意圖、上下文、可用工具與任務(wù)依賴關(guān)系(dependency graph),自動生成結(jié)構(gòu)化的執(zhí)行方案,并以高度可解釋的形式給出每一步的工具、參數(shù)與目的。這為Agentic智能提供了可控性、透明度和穩(wěn)定性。
Skywork R1V4-Lite并非傳統(tǒng)意義上的“小模型”。它是業(yè)界首個在輕量級架構(gòu)下同時實現(xiàn):圖像操作(Crop / Zoom / Rotate)、深度推理(Long-form Reasoning)和任務(wù)規(guī)劃(Agentic Planning)三能力統(tǒng)一的多模態(tài)智能體。
在極小參數(shù)規(guī)模下,Skywork R1V4-Lite依然能進行端到端的深度思考與主動執(zhí)行,實現(xiàn)從 “視覺輸入” 一直推到 “任務(wù)完成” 的完整能力鏈。
04核心優(yōu)勢四:小尺寸、快響應(yīng)、低成本
Skywork R1V4-Lite在模型規(guī)模、推理速度與吞吐效率之間實現(xiàn)了極佳工程平衡。這意味著它不僅適合工程落地,也能支撐極高的并發(fā)和實時性要求,是移動端、應(yīng)用內(nèi)推理和高 QPS 產(chǎn)品的更優(yōu)選項。
通過更高效的模型優(yōu)化與繼承Qwen3 A3B輕量架構(gòu)設(shè)計,它在真實生產(chǎn)環(huán)境中展現(xiàn)出遠超同體量模型的性能表現(xiàn):
1.響應(yīng)速度(Latency)
- 約為Gemini 2.5 Pro的1/19
- 約為Gemini 2.5 Flash的1/5
2.Token 吞吐(TPS)
- 為Gemini 2.5 Pro/Flash的約2倍
3.端到端完成速度:依托更強的推理壓縮能力與極低的工具調(diào)用輪次,在工具調(diào)用與長推理任務(wù)(端到端使用工具),R1V4-Lite實現(xiàn)了:
- 比Gemini 2.5 Pro快2.9×
- 比Gemini 2.5 Flash快1.7×
憑借低延遲×高吞吐×極低成本的組合優(yōu)勢,R1V4-Lite完美適用于:
實時問答
視覺檢索
智能助手
多模態(tài)工具調(diào)用
高并發(fā)的在線生產(chǎn)場景
R1V4-Lite的發(fā)布證明了——小模型也能很強,小模型也能很快,小模型也能多模態(tài)。
05展望
R1V4-Lite的成功不僅來自工程優(yōu)化,更源自其背后的多模態(tài)新范式:圖像操作×深度推理交織訓練。這一訓練路線讓輕量模型具備跨模態(tài)推理、主動圖像操作、任務(wù)規(guī)劃與搜索增強的統(tǒng)一能力,展示了輕量多模態(tài)智能體的全新可能性。
這一結(jié)果進一步說明:能力密度比參數(shù)規(guī)模更重要,小模型也能逼近閉源模型的真實表現(xiàn)。隨著更大容量與更強結(jié)構(gòu)進一步加入該范式,其scaling潛力將持續(xù)釋放。目前,Skywork R1V4-Pro也即將準備發(fā)布。
未來,昆侖萬維旗下Skywork將沿著 “Multimodal Reasoning×Agentic Intelligence×Tool Augmentation” 路線繼續(xù)前進,讓模型不僅理解世界,還能更有效地與世界信息交互,并在真實任務(wù)中產(chǎn)生實際價值。
申請創(chuàng)業(yè)報道,分享創(chuàng)業(yè)好點子。點擊此處,共同探討創(chuàng)業(yè)新機遇!


