1. 創(chuàng)業(yè)頭條
  2. 前沿領(lǐng)域
  3. AI智能
  4. 正文

通義萬相2.5系列模型發(fā)布,可生成音畫同步視頻

 2025-09-24 15:15  來源:互聯(lián)網(wǎng)  我來投稿 撤稿糾錯(cuò)

  一鍵部署OpenClaw

9月24日,在2025杭州云棲大會(huì)上,阿里發(fā)布通義萬相Wan2.5 preview系列模型,涵蓋文生視頻、圖生視頻、文生圖和圖像編輯四大模型,其中,通義萬相2.5視頻生成模型能生成和畫面匹配的人聲、音效和音樂BGM,首次實(shí)現(xiàn)音畫同步的視頻生成能力,進(jìn)一步降低電影級視頻創(chuàng)作的門檻。即日起,用戶可在阿里云百煉平臺調(diào)用API,或在通義萬相官網(wǎng)直接體驗(yàn)。

 

全新的通義萬相2.5在創(chuàng)作能力上實(shí)現(xiàn)了全面升級:視頻生成時(shí)長從5秒提升至10秒,單次生成可實(shí)現(xiàn)更完整的劇情故事;支持24幀每秒的1080P高清視頻生成,畫面質(zhì)量進(jìn)一步提升,滿足電影級場景的創(chuàng)作需求;與此同時(shí),模型指令遵循能力進(jìn)一步提升,在視頻生成任務(wù)中可理解運(yùn)鏡等復(fù)雜連續(xù)變化指令控制,圖像編輯任務(wù)也可以跟隨指令一鍵實(shí)現(xiàn)人物變身、風(fēng)格變化等效果。

據(jù)介紹,相比前幾代通義萬相模型,通義萬相2.5在技術(shù)架構(gòu)上實(shí)現(xiàn)了重大更新:首次采用原生多模態(tài)架構(gòu),在同一套框架下支持理解和生成等多種任務(wù),支持文本、圖像、視頻、音頻多種模態(tài)的輸入和輸出,能實(shí)現(xiàn)音畫同步的視頻生成等多模態(tài)能力。用戶輸入提示詞即可生成人聲、環(huán)境音效和背景音樂,并且精準(zhǔn)與畫面內(nèi)容、人物口型匹配,讓視頻演繹更加生動(dòng)形象。通義萬相2.5也支持輸入一段音頻作為參考,來驅(qū)動(dòng)文字或圖片生成音畫同步的視頻。

例如,輸入Prompt:仰視角度拍攝,全景,日光,晴天光,側(cè)光,暖色調(diào),中心構(gòu)圖。一名外國男子在城市公園的水泥廣場上玩滑板,他約二十多歲,身材健碩,深色短發(fā)藏在黑色棒球帽下,身穿深灰色連帽上衣和黑色工裝褲,腳踩一雙黑白拼色運(yùn)動(dòng)鞋。鏡頭從低角度仰拍,突出其騰空動(dòng)作的張力。他站在滑板上加速前行,身體前傾,雙臂自然張開以維持平衡;隨后猛然躍起,右腳輕踢板尾,滑板在空中完成180度翻轉(zhuǎn),他迅速下壓接住滑板,雙腳精準(zhǔn)落回板面,穩(wěn)穩(wěn)著地后繼續(xù)向前滑行。背景中,三兩名滑板者在遠(yuǎn)處滑行穿梭,梧桐樹葉在微風(fēng)中輕輕搖曳,陽光穿過樹葉間隙灑下斑駁光影,投射在地面和滑板輪跡上。伴隨著節(jié)奏鮮明的都市電子音樂,背景傳來輪子摩擦地面的沙沙聲與遠(yuǎn)處隱約的交談聲。男子落地瞬間輕哼一聲“Yeah!”,語氣輕快自信。

 通義萬相能精準(zhǔn)理解復(fù)雜指令的多個(gè)關(guān)鍵詞,生成一段男子滑板的動(dòng)感視頻,不僅實(shí)現(xiàn)動(dòng)作、拍攝角度和光影遵循指令,視頻展現(xiàn)的人聲、滑板滾動(dòng)音效以及背景音也和畫面內(nèi)容、指令保持同步。

 輸入一張圖片和一段文字,通義萬相可生成音畫同步的視頻

此次,通義萬相2.5還全面升級了圖像生成能力,可生成中英文文字和圖表,包含復(fù)雜文字排版、藝術(shù)海報(bào)、流程圖、架構(gòu)圖等,同時(shí)支持圖像編輯功能,輸入一句話即可完成P圖。

圖片1(7)

通義萬相模型家族已支持文生圖、文生視頻、圖生視頻、人聲生視頻和動(dòng)作生成等10多種視覺創(chuàng)作能力,累計(jì)生成3.9億張圖片、7000萬個(gè)視頻。自今年 2 月以來,通義萬相已連續(xù)開源20多款模型,在開源社區(qū)和三方平臺的下載量已超3000萬,是開源社區(qū)最受歡迎的視頻生成模型之一。

申請創(chuàng)業(yè)報(bào)道,分享創(chuàng)業(yè)好點(diǎn)子。點(diǎn)擊此處,共同探討創(chuàng)業(yè)新機(jī)遇!

相關(guān)文章

  • 《EAI-100 具身智能領(lǐng)域2025年度百項(xiàng)代表性成果與人物》重磅發(fā)布

    2025年,被業(yè)界公認(rèn)為具身智能(EmbodiedAI)真正覺醒的元年。當(dāng)人工智能跨越數(shù)字世界的邊界,轟然撞開物理世界的大門,是誰在荒野中劈開荊棘?又是誰在定義行業(yè)的未來?由魔搭社區(qū)(ModelScope)、CCF智能機(jī)器人專委會(huì)、工信部裝備數(shù)字孿生技術(shù)重點(diǎn)實(shí)驗(yàn)室、Lumina具身智能社區(qū)、開放原子

  • Token中文新譯名:「符元」——一文七個(gè)維度講清Token的本質(zhì)定義

    拒絕“智元”走私語義,七維拆解Token物理本質(zhì),定義AI時(shí)代唯一真名:「符元」。

    標(biāo)簽:
    Token
    人工智能
    AI
    Token譯名
  • 9個(gè)月內(nèi)用戶增長千萬,魔搭社區(qū)已服務(wù)2500萬開發(fā)者

    3月22日,智匯金陵·AI開源人才峰會(huì)暨魔搭開發(fā)者大會(huì)在南京舉辦。從去年6月30日至今,魔搭社區(qū)用戶數(shù)從1600萬增長至2500萬,9個(gè)月內(nèi)用戶增量近千萬;魔搭社區(qū)上的開源模型數(shù)量從7萬增長至17萬,9個(gè)月內(nèi)新增10萬個(gè)開源模型,包括DeepSeek、智譜、MiniMax、階躍星辰、Mistral等

  • 20%員工或被裁、1.6萬人離開:Meta醞釀史上最大規(guī)模裁員

    文/楊雪健來源/節(jié)點(diǎn)財(cái)經(jīng)Meta或迎來史上最大規(guī)模裁員潮。2026年3月14日,路透社曝出Meta正計(jì)劃啟動(dòng)新一輪大規(guī)模裁員,此次裁員比例或達(dá)公司總員工數(shù)的20%,按其近7.9萬的員工規(guī)模計(jì)算,約1.58萬名員工或?qū)⒈徊?。若該?jì)劃執(zhí)行,將成為Meta自2022年底實(shí)行“效率之年”重組后規(guī)模最大的一次

  • 阿里發(fā)布全球首個(gè)企業(yè)級Agent平臺“悟空”

    3月17日,阿里發(fā)布全球首個(gè)企業(yè)級AI原生工作平臺——“悟空”,讓每個(gè)團(tuán)隊(duì)、每家公司,都能擁有一支24h工作的”龍蝦軍團(tuán)”。悟空是一款獨(dú)立應(yīng)用,即日起開啟邀測,也將直接內(nèi)置到超2000萬企業(yè)組織的釘釘之中。擁有8億用戶的釘釘重寫底層代碼,進(jìn)行全面CLI(命令行界面)化改造,讓悟空Agent能夠原生操

  • 90%的AI中間商會(huì)消失:Google封號只是第一槍

    AI的“免費(fèi)紅利期”結(jié)束了,未來18個(gè)月,靠“API倒賣”的公司,會(huì)成片消失。這個(gè)導(dǎo)火索就是最近Google的一輪封號導(dǎo)致的,隨著封號風(fēng)波的結(jié)束,這也標(biāo)志著AI行業(yè)【收租時(shí)代】來了。2月封號潮:高付費(fèi)用戶被一鍋端一周前,Google開始大規(guī)模封號,付著250美金月費(fèi)的人,賬號說沒就沒,Gmail、Y

  • DeepSeek V4意外泄露,原生多模態(tài)

    來自路透社等媒體報(bào)道的最新消息:DeepSeek未發(fā)布的V4Lite模型遭泄露上網(wǎng),華為獲得早期訪問權(quán)限,英偉達(dá)被排除在外。近期,谷歌發(fā)表了2篇Multi-Agent協(xié)作學(xué)習(xí)新論文有網(wǎng)友提供了更加詳細(xì)的信息,DeepSeekV4Lite:100萬token上下文窗口(V3為128K)內(nèi)置原生多模態(tài)推

  • 中國開啟AI全民化元年,BAT同入“億級俱樂部”

    春節(jié)紅包會(huì)結(jié)束,但AI已融入數(shù)億人生活里

  • 開源模型再突破,全球AI行業(yè)的拐點(diǎn)要來了?

    性能、商業(yè)、生態(tài)詮釋開源模型的最佳姿態(tài)

  • 看懂黃仁勛CES演講,就看懂 AI 接下來十年的走向

    2026年剛開年,全世界最狂的那個(gè)男人,穿著他的經(jīng)典黑皮衣,在CES舞臺上發(fā)出了未來十年的信號。他搞了個(gè)“能吃飽套餐”:6個(gè)包子+一碟小菜+一碗粥=肉包子套餐,這樣以后你只要買一個(gè)套餐就能吃飽了。(Rubin平臺)同時(shí)他們店里還免費(fèi)提供的筷子、勺子、蘸料、醬油、醋、水果、零食等等。(開放10萬億語言

編輯推薦