當前位置:首頁 >  科技 >  IT業(yè)界 >  正文

昆侖萬維SkyReels-V3開源,視頻生成進入“全能”時代

 2026-01-30 13:26  來源: 互聯(lián)網   我來投稿 撤稿糾錯

  阿里云優(yōu)惠券 先領券再下單

1月29日,Skywork AI正式開源自研視頻生成模型SkyReels-V3。作為一系列多模態(tài)視頻生成模型,該系列支持參考圖像轉視頻(Reference Images-to-Video)、視頻延長(Video Extension)和音頻驅動虛擬形象(Talking Avatar)三大核心能力,在單一建模架構中實現(xiàn)高保真多模態(tài)視頻生成,達到行業(yè)領先水平。

三大核心能力作為獨立模塊,每個模塊深度優(yōu)化且支持靈活組合。Skywork AI團隊通過企業(yè)級數據處理、極速推理能力和高效的訓練架構等技術實現(xiàn),讓生成的視頻達到專業(yè)級效果,多項指標達到或超越行業(yè)領先水平。

SkyReels-V3現(xiàn)已開源,期待與你共創(chuàng)無限可能!

參考圖像轉視頻(Reference Images-to-Video):讓靜態(tài)圖像"活"起來

SkyReels-V3可根據1至4張參考圖像,并結合文本提示,生成時間連貫、語義一致的高質量視頻序列。無論是人物形象、商品展示還是背景場景,生成的視頻都能精準保留原始身份特征、空間構圖和敘事連貫性。

其背后是Skywork AI團隊在數據構建、多參考條件融合和混合訓練策略上的多重技術創(chuàng)新:

高質量數據構建:團隊從海量視頻中篩選具有顯著動態(tài)運動的素材,并采用跨幀配對策略確保時間多樣性。更為關鍵的是,利用圖像編輯模型對主體區(qū)域進行提取、背景補全和語義重寫,有效避免了常見的“復制粘貼”偽影,從數據源頭保障了生成質量。

多參考條件融合:模型采用統(tǒng)一的策略聯(lián)合編碼視覺和文本信息,最多支持4張參考圖像。這意味著用戶無需進行復雜的圖像拼接或手動蒙版,即可實現(xiàn)復雜多主體、多元素的自然交互與場景組合。例如,在電商場景中,可將商品圖與虛擬主播形象結合,直接生成一段在特定環(huán)境下的帶貨視頻,精準保留商品細節(jié)與主播身份特征。

混合訓練策略:團隊利用圖像-視頻混合訓練,聯(lián)合利用大規(guī)模圖像和視頻數據集,且利用多分辨率聯(lián)合優(yōu)化提升不同空間尺度和寬高比的魯棒性。

在包含200對混合測試集(涵蓋電影電視、電商、廣告等多領域)的評估中,SkyReels-V3展現(xiàn)出卓越的性能表現(xiàn)。

面對人物、動物、物體和背景場景等多種參考類型,SkyReels-V3在參考一致性指標上達到0.6698,超越Vidu Q2(0.5961)、Kling 1.6(0.6630)和PixVerse V5(0.6542)等主流商用模型;在視覺質量指標上更以0.8119的得分領先全場,證明了其在保持參考特征的同時生成高保真視頻的強大能力。

圖片1.png

圖丨SkyReels-V3與行業(yè)SOTA模型在多主體參考視頻生成上的定量指標對比

視頻延長(Video Extension):突破時長限制,擴展敘事邊界

SkyReels-V3視頻延長模型可將輸入視頻片段延伸為時間連貫、語義一致的后續(xù)內容,在文本指導下保持運動動態(tài)、場景結構和視覺風格。未來有望應用在電影/電視內容創(chuàng)作、短視頻系列制作、 游戲過場動畫和長視頻增強等領域。

首先,其支持“雙模式延長”功能。傳統(tǒng)視頻延長技術大多局限于簡單拉長時間維度,而SkyReels-V3的視頻延長功能實現(xiàn)了質的飛躍。它基于視頻語義和用戶Prompt,能夠智能預測下一個鏡頭的合理延續(xù)與場景內容,使視頻創(chuàng)作從“時間擴展”升級為“敘事擴展”。

這一功能提供兩種專業(yè)模式:單鏡頭延長模式保持原有視角和敘事連貫性,實現(xiàn)平滑的鏡頭延續(xù);而更具創(chuàng)新性的鏡頭切換延長模式則支持五種專業(yè)轉場技術,包括切入(Cut In)、切出(Cut Out)、多角度(Multi Angle)、正反鏡頭(Shot/Reverse Shot)和切離(Cut Away)等專業(yè)電影轉場手法。這意味著用戶可以從一個簡單的短視頻片段出發(fā),通過智能鏡頭擴展,構建出具有完整敘事結構的專業(yè)級視頻內容。

此外,模型中內置智能鏡頭切換檢測器,能夠自動分析長視頻中的轉場點,識別并分類不同的轉場類型。SkyReels-V3視頻延長功能支持多種輸出配置,包括480p/720p分辨率,1:1、3:4、4:3、16:9、9:16等多種寬高比,滿足不同平臺的發(fā)布需求;單鏡頭延長支持5-30秒可調節(jié)長度,為用戶提供了充分的創(chuàng)作靈活性。

從技術實現(xiàn)上來看,SkyReels-V3采用創(chuàng)新的統(tǒng)一多分段位置編碼技術,能夠精準建模復雜視頻序列中的運動軌跡。通過分層混合訓練策略,模型實現(xiàn)了不同鏡頭之間的平滑切換,解決了傳統(tǒng)視頻延長中常見的“跳躍”和“斷裂”問題。這一技術確保即使在多主體交互、快速運動和場景劇變的情況下,延長內容也能保持高度的物理可信度和時間連貫性。

虛擬形象模型(Talking Avatar Model):聲畫同步,打造“會說話的數字人”新時代

SkyReels-V3虛擬形象模型可從單張肖像圖和音頻片段生成高質量、音視頻同步的視頻,支持分鐘級長視頻生成和多角色交互。其卓越的音視頻同步能力和高質量生成效果,為虛擬主播、在線教育、企業(yè)宣傳等多個行業(yè)帶來了前所未有的創(chuàng)作可能。

SkyReels-V3虛擬形象模型具備四大核心能力,重新定義行業(yè)標準:

高保真視覺合成技術

SkyReels V3在視覺合成方面達到了新的高度。模型不僅能夠精準還原唇部運動,更能夠捕捉細微的面部表情變化,使虛擬形象的表現(xiàn)力更加豐富自然。無論是真實人物、卡通角色,還是動物形象或藝術化風格,系統(tǒng)都能保持原有的特征一致性,為不同應用場景提供量身定制的解決方案。

廣泛的風格兼容性

這一功能的突出優(yōu)勢在于其卓越的風格適應能力。從企業(yè)虛擬代言人到動漫角色,從教育講解員到創(chuàng)意內容主角,SkyReels V3能夠根據不同的肖像輸入,生成相應風格的虛擬形象視頻,滿足從專業(yè)商業(yè)用途到個人創(chuàng)意表達的多樣化需求。

長視頻穩(wěn)定生成能力

通過關鍵幀約束生成技術,系統(tǒng)能夠建立結構重要的關鍵幀,并生成關鍵幀間的平滑過渡,確保在長視頻生成過程中始終保持高度的穩(wěn)定性和一致性。這一突破使得制作高質量的教育視頻、新聞播報、長篇故事敘述成為可能,大大拓展了虛擬形象的應用邊界。

多人物場景支持

SkyReels V3在多虛擬形象場景優(yōu)化方面展現(xiàn)了行業(yè)領先的技術實力。系統(tǒng)支持顯式的角色分配和協(xié)調交互,通過掩碼指定說話人,能夠實現(xiàn)對話、采訪等復雜場景的自然呈現(xiàn)。這一功能為虛擬訪談、多角色教學等應用場景打開了新的可能性。

SkyReels-V3虛擬形象模型的卓越性能源于多項技術創(chuàng)新。精準音視頻對齊技術確保了語音與口型的完美匹配,即使在處理快速語速或特殊發(fā)音時也能保持高度同步。而關鍵幀約束生成機制則通過智能識別關鍵表情和口型節(jié)點,在保證生成效率的同時,確保了長視頻的內容連貫性和視覺穩(wěn)定性。

圖片2.png

圖丨SkyReels-V3模型和當前主流視頻生成模型在數字人生成場景的定量指標結果對比

三合一能力革新視頻生成創(chuàng)作,SkyReels-V3現(xiàn)已全面開源

2025年至今,昆侖萬維已經陸續(xù)發(fā)布并開源多個SkyReels模型,包括SkyReels V1、SkyReels V2、SkyReels A1、SkyReels A2和SkyReels A3。

截至目前,SkyReels系列開源模型在HuggingFace中的累計總下載量近30萬次、GitHub stars累計超10k,它們獲得開源社區(qū)、海內外AI機構組織、科研學者等AI從業(yè)者和開發(fā)者的廣泛關注與喜愛。

昆侖萬維始終堅守開源理念、積極擁抱AI開源,致力于推動AI技術的開放共享與社區(qū)共建。秉承昆侖萬維“All in AGI與AIGC”的戰(zhàn)略決心,SkyReels-V3現(xiàn)已全面開源,我們希望通過開源實現(xiàn)AGI平權,推動AI視頻創(chuàng)作生態(tài)的持續(xù)建設和繁榮,歡迎開發(fā)者與用戶下載SkyReels開源模型。

申請創(chuàng)業(yè)報道,分享創(chuàng)業(yè)好點子。點擊此處,共同探討創(chuàng)業(yè)新機遇!

相關標簽
昆侖萬維

相關文章

熱門排行

信息推薦