123,123

　一鍵部署OpenClaw

1月29日，Skywork AI正式開源自研視頻生成模型SkyReels-V3。作為一系列多模態(tài)視頻生成模型，該系列支持參考圖像轉(zhuǎn)視頻（Reference Images-to-Video）、視頻延長（Video Extension）和音頻驅(qū)動虛擬形象（Talking Avatar）三大核心能力，在單一建模架構(gòu)中實現(xiàn)高保真多模態(tài)視頻生成，達到行業(yè)領(lǐng)先水平。

三大核心能力作為獨立模塊，每個模塊深度優(yōu)化且支持靈活組合。Skywork AI團隊通過企業(yè)級數(shù)據(jù)處理、極速推理能力和高效的訓(xùn)練架構(gòu)等技術(shù)實現(xiàn)，讓生成的視頻達到專業(yè)級效果，多項指標(biāo)達到或超越行業(yè)領(lǐng)先水平。

SkyReels-V3現(xiàn)已開源，期待與你共創(chuàng)無限可能！

1 參考圖像轉(zhuǎn)視頻（Reference Images-to-Video）：讓靜態(tài)圖像"活"起來

SkyReels-V3可根據(jù)1至4張參考圖像，并結(jié)合文本提示，生成時間連貫、語義一致的高質(zhì)量視頻序列。無論是人物形象、商品展示還是背景場景，生成的視頻都能精準(zhǔn)保留原始身份特征、空間構(gòu)圖和敘事連貫性。

其背后是Skywork AI團隊在數(shù)據(jù)構(gòu)建、多參考條件融合和混合訓(xùn)練策略上的多重技術(shù)創(chuàng)新：

高質(zhì)量數(shù)據(jù)構(gòu)建：團隊從海量視頻中篩選具有顯著動態(tài)運動的素材，并采用跨幀配對策略確保時間多樣性。更為關(guān)鍵的是，利用圖像編輯模型對主體區(qū)域進行提取、背景補全和語義重寫，有效避免了常見的“復(fù)制粘貼”偽影，從數(shù)據(jù)源頭保障了生成質(zhì)量。

多參考條件融合：模型采用統(tǒng)一的策略聯(lián)合編碼視覺和文本信息，最多支持4張參考圖像。這意味著用戶無需進行復(fù)雜的圖像拼接或手動蒙版，即可實現(xiàn)復(fù)雜多主體、多元素的自然交互與場景組合。例如，在電商場景中，可將商品圖與虛擬主播形象結(jié)合，直接生成一段在特定環(huán)境下的帶貨視頻，精準(zhǔn)保留商品細節(jié)與主播身份特征。

混合訓(xùn)練策略：團隊利用圖像-視頻混合訓(xùn)練，聯(lián)合利用大規(guī)模圖像和視頻數(shù)據(jù)集，且利用多分辨率聯(lián)合優(yōu)化提升不同空間尺度和寬高比的魯棒性。

在包含200對混合測試集（涵蓋電影電視、電商、廣告等多領(lǐng)域）的評估中，SkyReels-V3展現(xiàn)出卓越的性能表現(xiàn)。

面對人物、動物、物體和背景場景等多種參考類型，SkyReels-V3在參考一致性指標(biāo)上達到0.6698，超越Vidu Q2（0.5961）、Kling 1.6（0.6630）和PixVerse V5（0.6542）等主流商用模型；在視覺質(zhì)量指標(biāo)上更以0.8119的得分領(lǐng)先全場，證明了其在保持參考特征的同時生成高保真視頻的強大能力。

圖片1.png

圖丨SkyReels-V3與行業(yè)SOTA模型在多主體參考視頻生成上的定量指標(biāo)對比

2 視頻延長（Video Extension）：突破時長限制，擴展敘事邊界

SkyReels-V3視頻延長模型可將輸入視頻片段延伸為時間連貫、語義一致的后續(xù)內(nèi)容，在文本指導(dǎo)下保持運動動態(tài)、場景結(jié)構(gòu)和視覺風(fēng)格。未來有望應(yīng)用在電影/電視內(nèi)容創(chuàng)作、短視頻系列制作、游戲過場動畫和長視頻增強等領(lǐng)域。

首先，其支持“雙模式延長”功能。傳統(tǒng)視頻延長技術(shù)大多局限于簡單拉長時間維度，而SkyReels-V3的視頻延長功能實現(xiàn)了質(zhì)的飛躍。它基于視頻語義和用戶Prompt，能夠智能預(yù)測下一個鏡頭的合理延續(xù)與場景內(nèi)容，使視頻創(chuàng)作從“時間擴展”升級為“敘事擴展”。

這一功能提供兩種專業(yè)模式：單鏡頭延長模式保持原有視角和敘事連貫性，實現(xiàn)平滑的鏡頭延續(xù)；而更具創(chuàng)新性的鏡頭切換延長模式則支持五種專業(yè)轉(zhuǎn)場技術(shù)，包括切入（Cut In）、切出（Cut Out）、多角度（Multi Angle）、正反鏡頭（Shot/Reverse Shot）和切離（Cut Away）等專業(yè)電影轉(zhuǎn)場手法。這意味著用戶可以從一個簡單的短視頻片段出發(fā)，通過智能鏡頭擴展，構(gòu)建出具有完整敘事結(jié)構(gòu)的專業(yè)級視頻內(nèi)容。

此外，模型中內(nèi)置智能鏡頭切換檢測器，能夠自動分析長視頻中的轉(zhuǎn)場點，識別并分類不同的轉(zhuǎn)場類型。SkyReels-V3視頻延長功能支持多種輸出配置，包括480p/720p分辨率，1:1、3:4、4:3、16:9、9:16等多種寬高比，滿足不同平臺的發(fā)布需求；單鏡頭延長支持5-30秒可調(diào)節(jié)長度，為用戶提供了充分的創(chuàng)作靈活性。

從技術(shù)實現(xiàn)上來看，SkyReels-V3采用創(chuàng)新的統(tǒng)一多分段位置編碼技術(shù)，能夠精準(zhǔn)建模復(fù)雜視頻序列中的運動軌跡。通過分層混合訓(xùn)練策略，模型實現(xiàn)了不同鏡頭之間的平滑切換，解決了傳統(tǒng)視頻延長中常見的“跳躍”和“斷裂”問題。這一技術(shù)確保即使在多主體交互、快速運動和場景劇變的情況下，延長內(nèi)容也能保持高度的物理可信度和時間連貫性。

3 虛擬形象模型（Talking Avatar Model）：聲畫同步，打造“會說話的數(shù)字人”新時代

SkyReels-V3虛擬形象模型可從單張肖像圖和音頻片段生成高質(zhì)量、音視頻同步的視頻，支持分鐘級長視頻生成和多角色交互。其卓越的音視頻同步能力和高質(zhì)量生成效果，為虛擬主播、在線教育、企業(yè)宣傳等多個行業(yè)帶來了前所未有的創(chuàng)作可能。

SkyReels-V3虛擬形象模型具備四大核心能力，重新定義行業(yè)標(biāo)準(zhǔn)：

高保真視覺合成技術(shù)

SkyReels V3在視覺合成方面達到了新的高度。模型不僅能夠精準(zhǔn)還原唇部運動，更能夠捕捉細微的面部表情變化，使虛擬形象的表現(xiàn)力更加豐富自然。無論是真實人物、卡通角色，還是動物形象或藝術(shù)化風(fēng)格，系統(tǒng)都能保持原有的特征一致性，為不同應(yīng)用場景提供量身定制的解決方案。

廣泛的風(fēng)格兼容性

這一功能的突出優(yōu)勢在于其卓越的風(fēng)格適應(yīng)能力。從企業(yè)虛擬代言人到動漫角色，從教育講解員到創(chuàng)意內(nèi)容主角，SkyReels V3能夠根據(jù)不同的肖像輸入，生成相應(yīng)風(fēng)格的虛擬形象視頻，滿足從專業(yè)商業(yè)用途到個人創(chuàng)意表達的多樣化需求。

長視頻穩(wěn)定生成能力

通過關(guān)鍵幀約束生成技術(shù)，系統(tǒng)能夠建立結(jié)構(gòu)重要的關(guān)鍵幀，并生成關(guān)鍵幀間的平滑過渡，確保在長視頻生成過程中始終保持高度的穩(wěn)定性和一致性。這一突破使得制作高質(zhì)量的教育視頻、新聞播報、長篇故事敘述成為可能，大大拓展了虛擬形象的應(yīng)用邊界。

多人物場景支持

SkyReels V3在多虛擬形象場景優(yōu)化方面展現(xiàn)了行業(yè)領(lǐng)先的技術(shù)實力。系統(tǒng)支持顯式的角色分配和協(xié)調(diào)交互，通過掩碼指定說話人，能夠?qū)崿F(xiàn)對話、采訪等復(fù)雜場景的自然呈現(xiàn)。這一功能為虛擬訪談、多角色教學(xué)等應(yīng)用場景打開了新的可能性。

SkyReels-V3虛擬形象模型的卓越性能源于多項技術(shù)創(chuàng)新。精準(zhǔn)音視頻對齊技術(shù)確保了語音與口型的完美匹配，即使在處理快速語速或特殊發(fā)音時也能保持高度同步。而關(guān)鍵幀約束生成機制則通過智能識別關(guān)鍵表情和口型節(jié)點，在保證生成效率的同時，確保了長視頻的內(nèi)容連貫性和視覺穩(wěn)定性。

圖片2.png

圖丨SkyReels-V3模型和當(dāng)前主流視頻生成模型在數(shù)字人生成場景的定量指標(biāo)結(jié)果對比

4 三合一能力革新視頻生成創(chuàng)作，SkyReels-V3現(xiàn)已全面開源

2025年至今，昆侖萬維已經(jīng)陸續(xù)發(fā)布并開源多個SkyReels模型，包括SkyReels V1、SkyReels V2、SkyReels A1、SkyReels A2和SkyReels A3。

截至目前，SkyReels系列開源模型在HuggingFace中的累計總下載量近30萬次、GitHub stars累計超10k，它們獲得開源社區(qū)、海內(nèi)外AI機構(gòu)組織、科研學(xué)者等AI從業(yè)者和開發(fā)者的廣泛關(guān)注與喜愛。

昆侖萬維始終堅守開源理念、積極擁抱AI開源，致力于推動AI技術(shù)的開放共享與社區(qū)共建。秉承昆侖萬維“All in AGI與AIGC”的戰(zhàn)略決心，SkyReels-V3現(xiàn)已全面開源，我們希望通過開源實現(xiàn)AGI平權(quán)，推動AI視頻創(chuàng)作生態(tài)的持續(xù)建設(shè)和繁榮，歡迎開發(fā)者與用戶下載SkyReels開源模型。

申請創(chuàng)業(yè)報道，分享創(chuàng)業(yè)好點子。點擊此處，共同探討創(chuàng)業(yè)新機遇！

當(dāng)前位置：首頁 > 科技 > IT業(yè)界 > 正文

昆侖萬維SkyReels-V3開源，視頻生成進入“全能”時代

相關(guān)文章

昆侖萬維正式發(fā)布Skywork R1V4-Lite，多模態(tài)智能體邁向開放式交互時代

昆侖萬維「Matrix-Game 2.0」發(fā)布，國產(chǎn)開源的Genie 3來啦！

AI淘汰歌手又近一步，昆侖萬維正式上線Mureka V7

我們不是“鋼鐵俠”，但每個人都需要一個“賈維斯”

熱門排行

信息推薦

編輯推薦

阿里一元店是新解“囊”雜貨鋪？

億企聯(lián)解答互聯(lián)網(wǎng)廣告的存在意義何在？

熱門標(biāo)簽