通義萬相2.5系列模型發(fā)布，可生成音畫同步視頻

2025-09-24 15:15 來源：互聯(lián)網(wǎng) 我來投稿撤稿糾錯(cuò)

9月24日，在2025杭州云棲大會(huì)上，阿里發(fā)布通義萬相Wan2.5 preview系列模型，涵蓋文生視頻、圖生視頻、文生圖和圖像編輯四大模型，其中，通義萬相2.5視頻生成模型能生成和畫面匹配的人聲、音效和音樂BGM，首次實(shí)現(xiàn)音畫同步的視頻生成能力，進(jìn)一步降低電影級視頻創(chuàng)作的門檻。即日起，用戶可在阿里云百煉平臺調(diào)用API，或在通義萬相官網(wǎng)直接體驗(yàn)。

全新的通義萬相2.5在創(chuàng)作能力上實(shí)現(xiàn)了全面升級：視頻生成時(shí)長從5秒提升至10秒，單次生成可實(shí)現(xiàn)更完整的劇情故事；支持24幀每秒的1080P高清視頻生成，畫面質(zhì)量進(jìn)一步提升，滿足電影級場景的創(chuàng)作需求；與此同時(shí)，模型指令遵循能力進(jìn)一步提升，在視頻生成任務(wù)中可理解運(yùn)鏡等復(fù)雜連續(xù)變化指令控制，圖像編輯任務(wù)也可以跟隨指令一鍵實(shí)現(xiàn)人物變身、風(fēng)格變化等效果。

據(jù)介紹，相比前幾代通義萬相模型，通義萬相2.5在技術(shù)架構(gòu)上實(shí)現(xiàn)了重大更新：首次采用原生多模態(tài)架構(gòu)，在同一套框架下支持理解和生成等多種任務(wù)，支持文本、圖像、視頻、音頻多種模態(tài)的輸入和輸出，能實(shí)現(xiàn)音畫同步的視頻生成等多模態(tài)能力。用戶輸入提示詞即可生成人聲、環(huán)境音效和背景音樂，并且精準(zhǔn)與畫面內(nèi)容、人物口型匹配，讓視頻演繹更加生動(dòng)形象。通義萬相2.5也支持輸入一段音頻作為參考，來驅(qū)動(dòng)文字或圖片生成音畫同步的視頻。

例如，輸入Prompt：仰視角度拍攝，全景，日光，晴天光，側(cè)光，暖色調(diào)，中心構(gòu)圖。一名外國男子在城市公園的水泥廣場上玩滑板，他約二十多歲，身材健碩，深色短發(fā)藏在黑色棒球帽下，身穿深灰色連帽上衣和黑色工裝褲，腳踩一雙黑白拼色運(yùn)動(dòng)鞋。鏡頭從低角度仰拍，突出其騰空動(dòng)作的張力。他站在滑板上加速前行，身體前傾，雙臂自然張開以維持平衡；隨后猛然躍起，右腳輕踢板尾，滑板在空中完成180度翻轉(zhuǎn)，他迅速下壓接住滑板，雙腳精準(zhǔn)落回板面，穩(wěn)穩(wěn)著地后繼續(xù)向前滑行。背景中，三兩名滑板者在遠(yuǎn)處滑行穿梭，梧桐樹葉在微風(fēng)中輕輕搖曳，陽光穿過樹葉間隙灑下斑駁光影，投射在地面和滑板輪跡上。伴隨著節(jié)奏鮮明的都市電子音樂，背景傳來輪子摩擦地面的沙沙聲與遠(yuǎn)處隱約的交談聲。男子落地瞬間輕哼一聲“Yeah!”，語氣輕快自信。

通義萬相能精準(zhǔn)理解復(fù)雜指令的多個(gè)關(guān)鍵詞，生成一段男子滑板的動(dòng)感視頻，不僅實(shí)現(xiàn)動(dòng)作、拍攝角度和光影遵循指令，視頻展現(xiàn)的人聲、滑板滾動(dòng)音效以及背景音也和畫面內(nèi)容、指令保持同步。

輸入一張圖片和一段文字，通義萬相可生成音畫同步的視頻

此次，通義萬相2.5還全面升級了圖像生成能力，可生成中英文文字和圖表，包含復(fù)雜文字排版、藝術(shù)海報(bào)、流程圖、架構(gòu)圖等，同時(shí)支持圖像編輯功能，輸入一句話即可完成P圖。

通義萬相模型家族已支持文生圖、文生視頻、圖生視頻、人聲生視頻和動(dòng)作生成等10多種視覺創(chuàng)作能力，累計(jì)生成3.9億張圖片、7000萬個(gè)視頻。自今年 2 月以來，通義萬相已連續(xù)開源20多款模型，在開源社區(qū)和三方平臺的下載量已超3000萬，是開源社區(qū)最受歡迎的視頻生成模型之一。

申請創(chuàng)業(yè)報(bào)道，分享創(chuàng)業(yè)好點(diǎn)子。點(diǎn)擊此處，共同探討創(chuàng)業(yè)新機(jī)遇！