1. 創(chuàng)業(yè)頭條
  2. 前沿領域
  3. AI智能
  4. 正文

搜狗-清華天工研究院提出ChoreoNet模型:讓數(shù)字人聞聲起舞

 2020-08-22 08:42  來源:A5專欄  我來投稿 撤稿糾錯

  阿里云優(yōu)惠券 先領券再下單

近日,搜狗分身技術團隊聯(lián)合清華大學天工智能計算研究院賈珈老師團隊共同發(fā)表的數(shù)字人技術論文《ChoreoNet:基于舞蹈動作單元的音樂-舞蹈合成框架》被2020國際頂級盛會ACM Multimedia錄用為長文。

(截圖來源:ACM Multimedia官網https://2020.acmmm.org)

ACM Multimedia專注于推進多種媒體的研究與應用,涉及人工智能、計算視覺、數(shù)據(jù)科學、深度學習、人機交互等多個新興領域,是中國計算機學會推薦的多媒體領域唯一A類國際學術會議,被認為是多媒體技術領域奧運級別的盛會。雖然鼓勵來自全球的各類機構分享、交流最新研究成果,但該會議論文接受率很低,只有對日常生活和技術突破具有巨大影響潛力的研究項目才會被通過。

“攻克難關”備受認可

音樂和舞蹈是與人們生活密不可分且高度相關的兩種藝術形式,近年來,“樂舞合成”也是業(yè)內高度關注的領域。不過,早期合成基于相似度檢索進行,合成結果的多樣性有限,而目前通行的方法是利用神經網絡模型,將音樂特征映射到人體骨骼關鍵點,但由于人類骨架關鍵點的高度冗余和帶噪特性,逐幀關鍵點預測非常困難,導致合成質量有限,成為困擾業(yè)內人士的一大“難關”。

搜狗分身技術團隊與清華天工研究院賈珈老師團隊在論文中提出了一個極具創(chuàng)造性的解決方案,該方案將人類編舞知識融合到樂舞合成框架中,設計多個舞蹈單元(CAU),并使用CAU序列預測模型,開發(fā)了一個像人類一樣根據(jù)音樂編排舞蹈動作的舞蹈合成框架——ChoreoNet。通過實驗驗證和數(shù)據(jù)對比,相較于基線法,ChoreoNet性能更好,合成動作也更加自然逼真,無論是音樂匹配度、動作自然度還是其他方面,表現(xiàn)都更加優(yōu)秀。

(截圖來源:ChoreoNet論文)

此次,該論文被ACM Multimedia認可并錄取為長文,不僅代表了搜狗AI分身技術在身體動作及姿態(tài)生成方面的突破,也從側面印證了搜狗強大的AI技術實力和能夠實現(xiàn)持續(xù)輸出的創(chuàng)新能力。值得注意的是,搜狗是在業(yè)內率先選擇通過音頻來驅動身體動作作為研究課題的先行者。

“死磕技術”引領方向

在搜狗的AI戰(zhàn)略版圖中,“自然交互+知識計算”是核心方向,技術研究和推動技術向產品的快速轉化均以此為基礎和方向,而搜狗“分身”是其中關鍵和重要一環(huán)。

在2018年發(fā)布全球首個AI合成主播之后,搜狗分身持續(xù)研究并打造更加逼真自然的數(shù)字人能力,在2D/3D數(shù)字人領域構建了音畫同步、逼真的面部表情唇動生成及驅動能力。此外,如何能夠讓數(shù)字人更加自然并且富有表現(xiàn)力也是搜狗分身的重點研究方向,其中身體動作以及姿態(tài)的表達至關重要。搜狗在首代AI合成主播問世后不到3個月的時間,便成功推出與“坐播”截然不同的“站播”合成主播,今年5月推出的3D AI合成主播不止面部細節(jié)經得起高清鏡頭考驗,更是實現(xiàn)了自如行走。本次與清華大學天工智能計算研究院的工作選擇了音樂場景,重點研究如何提升身體動作生成及驅動的表現(xiàn)力和自然度,為AI數(shù)字人的技術探索開啟了新方向。

“未來應用”前景廣闊

人工智能是未來科技的風向標,而5G時代的到來又大大加速了這一進程。自2018年搜狗推出全球首個AI合成主播之后,能夠與普通人的生活深度交融并廣泛運用于各行各業(yè)的“AI分身”便深受關注,不少科技企業(yè)躬身入局。

從上文可以看出,搜狗從未停下突破的步伐,從2D到3D、“坐播”到“站播”、從支持單一語種到支持多語種、再到支持互動。目前搜狗分身技術已經在司法、傳媒、會展、藝術、金融客服等多個場地落地,為新華社、央視、平安惠普、北京互聯(lián)網法院等打造了多個AI合成主播、AI合成客服、AI虛擬法官等,也創(chuàng)造了雅妮、新小微、新小浩、新小萌等多個經典AI數(shù)字人形象。

由音頻驅動的數(shù)字人或數(shù)字舞蹈演員,擁有巨大的想象空間和市場化應用前景。特別是與搜狗現(xiàn)有3D數(shù)字人的技術相結合后,使用場景可以從目前集中的傳媒、金融、法律等領域向影視、娛樂領域進軍,攪動萬億規(guī)模的市場。

AI為人賦能,這是搜狗人工智能的發(fā)展理念,也是搜狗分身技術的愿景。作為一項既能解決行業(yè)痛點,又能為用戶創(chuàng)造價值,既能給社會帶來變革、又能對科技產生影響,同時還能持續(xù)突破和進步的前沿技術,搜狗分身的未來,無疑具備更多的可能性、極大的想象空間。

申請創(chuàng)業(yè)報道,分享創(chuàng)業(yè)好點子。點擊此處,共同探討創(chuàng)業(yè)新機遇!

相關標簽
人工智能
ai技術

相關文章

  • 人工智能時代下閱北科技的創(chuàng)新與變革

    在信息技術持續(xù)革新與市場競爭日趨激烈的行業(yè)環(huán)境下,本地生活服務領域正經歷著深刻的智能化轉型。這一轉型過程不僅涉及技術層面的升級迭代,更關乎服務模式與行業(yè)生態(tài)的系統(tǒng)性重構。閱北科技通過持續(xù)推進算法技術的優(yōu)化與應用,在提升服務精準度和用戶滿意度方面進行了積極探索。閱北的算法系統(tǒng)建立在持續(xù)優(yōu)化的技術架構之

    標簽:
    人工智能
  • 甌江論道:AI賦能綠色發(fā)展

    2025年10月25日,2025世界青年科學家峰會之人工智能(AI)融合創(chuàng)新發(fā)展論壇在浙江溫州成功舉辦。本次論壇由國際院士科創(chuàng)中心主辦,中國投資協(xié)會能源投資專業(yè)委員會、溫港院士科創(chuàng)中心承辦,中國電工技術學會、中科先進技術溫州研究院與溫州市電力工程學會提供支持,以“甌江論道-AI賦能綠色發(fā)展”為主題,

    標簽:
    ai技術
  • 漕河涇天罡人工智能研究院正式揭牌 開啟中國人工智能產業(yè)高質量發(fā)展新篇章

    2025年10月17日,上海在人工智能技術加速演進、產業(yè)生態(tài)持續(xù)升級的關鍵時期,由上海市漕河涇新興技術開發(fā)區(qū)發(fā)展總公司聯(lián)合天罡智算交易平臺共同發(fā)起成立的“漕河涇天罡人工智能研究院”(以下簡稱“研究院”)正式揭牌。研究院將依托漕河涇的產業(yè)資源與平臺優(yōu)勢,聯(lián)合上海交通大學、上海社會科學院等權威機構,聚焦

    標簽:
    人工智能
  • 王通:未來個人創(chuàng)業(yè)的十個機會

    個人創(chuàng)業(yè)需要啟動成本低、無需龐大團隊、可快速驗證、能利用個人技能或資源。這里分享適合個人創(chuàng)業(yè)的十個機會一.AI內容優(yōu)化與本地化服務·做什么:幫助企業(yè)或個人利用AI工具(如GPT-4,Midjourney)優(yōu)化內容生產流程。例如,為跨境電商撰寫多語言產品描述,為小紅書博主生成爆款文案,為小公司制作營銷

  • 世界人工智能大會在滬召開,上海人工智能研究院多項成果精彩亮相

    以“智能時代同球共濟”為主題的2025世界人工智能大會在上海正式開幕。

    標簽:
    人工智能
  • DeepSeek V4意外泄露,原生多模態(tài)

    來自路透社等媒體報道的最新消息:DeepSeek未發(fā)布的V4Lite模型遭泄露上網,華為獲得早期訪問權限,英偉達被排除在外。近期,谷歌發(fā)表了2篇Multi-Agent協(xié)作學習新論文有網友提供了更加詳細的信息,DeepSeekV4Lite:100萬token上下文窗口(V3為128K)內置原生多模態(tài)推

  • 中國開啟AI全民化元年,BAT同入“億級俱樂部”

    春節(jié)紅包會結束,但AI已融入數(shù)億人生活里

  • 開源模型再突破,全球AI行業(yè)的拐點要來了?

    性能、商業(yè)、生態(tài)詮釋開源模型的最佳姿態(tài)

  • 看懂黃仁勛CES演講,就看懂 AI 接下來十年的走向

    2026年剛開年,全世界最狂的那個男人,穿著他的經典黑皮衣,在CES舞臺上發(fā)出了未來十年的信號。他搞了個“能吃飽套餐”:6個包子+一碟小菜+一碗粥=肉包子套餐,這樣以后你只要買一個套餐就能吃飽了。(Rubin平臺)同時他們店里還免費提供的筷子、勺子、蘸料、醬油、醋、水果、零食等等。(開放10萬億語言

  • GDPS2025賽場直擊!開普勒大黃蜂助力華理斬獲搬運賽項桂冠

    12月12日-14日,2025全球開發(fā)者先鋒大會暨國際具身智能技能大賽(GDPS2025)于上海張江科學會堂舉行,大會以具身智能競技為核心,融合了技術比拼、產業(yè)展示與科普體驗,為全球觀眾呈現(xiàn)出具身智能的現(xiàn)在與未來。上海開普勒機器人有限公司(以下簡稱"開普勒機器人")攜明星產品K2"大黃蜂"亮相,并參

    標簽:
    GDPS
    2025
  • 弈動 Dynamic·數(shù)智躍遷 博弈無界|2025TechWorld智慧安全大會在京召開

    在數(shù)字化與智能化深度交織的時代浪潮中,安全的邊界不斷延展,技術的演進正引領產業(yè)邁向新一輪變革。10月24日,以“弈動Dynamic·數(shù)智躍遷博弈無界”為主題的2025TechWorld智慧安全大會在北京盛大召開。來自國家部委、院士學者、高??蒲袡C構和企業(yè)的權威專家與業(yè)界精英齊聚北京,共議AI安全、數(shù)

    標簽:
    弈動
  • 甌江論道:AI賦能綠色發(fā)展

    2025年10月25日,2025世界青年科學家峰會之人工智能(AI)融合創(chuàng)新發(fā)展論壇在浙江溫州成功舉辦。本次論壇由國際院士科創(chuàng)中心主辦,中國投資協(xié)會能源投資專業(yè)委員會、溫港院士科創(chuàng)中心承辦,中國電工技術學會、中科先進技術溫州研究院與溫州市電力工程學會提供支持,以“甌江論道-AI賦能綠色發(fā)展”為主題,

    標簽:
    ai技術
  • AI云“分野”:阿里云們“賣鏟”,火山引擎奇襲“MaaS”

    AI云“分野”:阿里云們“賣鏟”,火山引擎奇襲“MaaS”

    標簽:
    阿里巴巴
  • 未來5年,中國AI的“大洗牌”和“內循環(huán)”

    我覺得我們AI的目標是:從芯片設計到軟件生態(tài),全鏈路自主開發(fā),建立可控的世界級AI體系。所以這是俺對未來5年中國AI圈的展望和判斷。(1)2026年,英偉達造車、國產開車26年國產芯片會在推理和垂直場景上發(fā)力。以DeepSeek為代表,大多數(shù)AI大模型會以軟件彌補硬件不足,所以訓練和推理分開,訓練就

  • H20芯片開賣即叫停,英偉達如何解圍?

    文/道哥在深陷“后門”風波、接受網信辦問詢之后,英偉達的“特供版”H20芯片,又有了新消息。近日,美國科技媒體《TheInformation》援引知情人士消息稱,英偉達已悄然向其關鍵供應商——包括負責封裝的安靠科技、供應高帶寬內存的三星電子、以及承擔后端處理的富士康發(fā)出指令,要求暫停所有與H20AI

    標簽:
    英偉達