1. 創(chuàng)業(yè)頭條
  2. 前沿領(lǐng)域
  3. AI智能
  4. 正文

真假難辨?獵戶星空10段話克隆你的聲音!

 2018-11-06 12:02  來源:互聯(lián)網(wǎng)  我來投稿 撤稿糾錯

  一鍵部署OpenClaw

今日,獵豹移動董事長兼CEO傅盛在自己的抖音號上發(fā)布了一條視頻。作為一名“科技樂觀主義者”,傅盛和世界上的另一個“自己”進行了一場隔空對話。短短幾十秒里,機器人“傅盛”的對答、繞口令樣樣精通。即使是仔細辨別,你也很難確認哪一個才是真正的傅盛。

能夠達到如此驚艷的效果,其實要歸功于獵豹移動旗下人工智能公司獵戶星空研發(fā)的語音合成技術(shù)。只要聽十段你的話,就可以克隆你的聲音,聽起來是不是很炫酷?

在人機交互的過程中,與用戶體驗感直接相關(guān)的,就是語音合成技術(shù)。這項技術(shù)是將文字轉(zhuǎn)化為聲音,可以簡單地理解為人類的嘴巴。大家在各種智能語音助手中聽到的聲音,都是由TTS來生成的。所以,讓TTS合成的語音能夠“以假亂真”,正是TTS領(lǐng)域長期以來不斷探索的主題。

傳統(tǒng)的TTS都是怎么做的?

在看獵戶星空如何實現(xiàn)“以小取大”的效果時,我們可以先看看以往的TTS是如何實現(xiàn)的。

傳統(tǒng)的TTS系統(tǒng)通常包括前端、后端兩個模塊。前端模塊主要負責(zé)對輸入文本進行分析,提取語言學(xué)信息,如果是中文還涉及文本正則化、分詞、詞性預(yù)測、多音字消歧、韻律預(yù)測等,后端模塊根據(jù)前端的分析結(jié)果,通過一定的方法生成語音波形。

后端系統(tǒng)的主流技術(shù)有兩種,一種是基于統(tǒng)計參數(shù)建模的語音合成,或者叫做參數(shù)合成、參數(shù)法,優(yōu)點是所需語料庫少,幾千句即可,訓(xùn)練與合成過程也都可以由程序自動完成,但缺點是語音質(zhì)量不高,情感韻律平淡。

現(xiàn)在大家地圖導(dǎo)航軟件中的聽到的明星音,針對導(dǎo)航場景錄制了幾千句的語料,不僅聲音生澀感強,而且需要的成本和周期較長,在其他領(lǐng)域的聲音效果不是很好。如果用戶預(yù)期不苛刻,這樣一種方式也未嘗不可。

另一種是基于單元挑選和波形拼接的語音合成,或者叫做拼接合成、拼接法,與參數(shù)法相反,優(yōu)點是合成語音自然度很好,缺點就是數(shù)據(jù)要求太大,至少萬句語料才能滿足商用需求,一些廠商會請聲優(yōu)為其智能產(chǎn)品錄制語料庫,前后時間長達數(shù)月,花費動輒幾百萬。

獵戶星空:十段話合成人聲

魚和熊掌不可兼得,傳統(tǒng)的TTS存在著或多或少的問題。所以這個領(lǐng)域的核心,在于如何降低訓(xùn)練成本,用更少的語料合成高質(zhì)量的聲音。

隨著人工智能、深度學(xué)習(xí)的應(yīng)用,TTS也迎來了新的變革。2017年3月,Google 提出了一種新的端到端的語音合成系統(tǒng):Tacotron。它可將接收的輸入字符,輸出成相應(yīng)的原始頻譜圖,然后提供給Griffin-Lim重建算法生成語音。2017年底,Tacotron 2結(jié)合了WaveNet和Tacotron的優(yōu)勢,不需要任何語法知識即可直接輸出文本對應(yīng)的語音。

在已有的技術(shù)創(chuàng)新鋪墊下,獵戶星空TTS團隊在Tactron的基礎(chǔ)上,訓(xùn)練了大語料庫的語音庫作為基礎(chǔ)模型,目標(biāo)發(fā)音人只需要錄制10段話,通過Adapt自適應(yīng)模型,提取出目標(biāo)發(fā)音人的特征,再通過World聲碼器,即可合成出目標(biāo)發(fā)音人音色相同的語音。

所以,這項技術(shù)真正落地商用后,將為明星語音、個性化語音的合成帶來重大突破,尤其是很大程度上減少明星音合成的成本、縮短應(yīng)用研發(fā)的周期。

想象一下,以后你的語音助手中住著你喜歡的明星或心愛的人,每天都可以和TA互動聊天,仿佛TA就是你的私人小秘書,是不是有點小激動呢?

除此之外,獵戶星空已掌握麥克風(fēng)陣列、語音喚醒、語音識別、語義理解和語音合成等全套遠場語音技術(shù),語音交互更快更準(zhǔn),垂直領(lǐng)域深度語義理解正確率96%,還首創(chuàng)了喚醒后人聲回應(yīng)。

獵戶語音OS成為行業(yè)標(biāo)配

在上文提到技術(shù)能力支撐之下,獵戶星空打造了獵戶tts——這個星球最溫暖的AI聲音。目前獵戶語音OS技術(shù)已經(jīng)應(yīng)用到了小米小愛同學(xué)、美的小美AI音箱、喜馬拉雅小雅音箱、獵豹移動小豹AI音箱、華為智能AI音箱等多家合作伙伴產(chǎn)品中,已經(jīng)成為行業(yè)標(biāo)配。

截至目前,搭載獵戶語音合成技術(shù)的智能音箱產(chǎn)品在國內(nèi)份額已超30%,每天都超過2000萬次語音服務(wù)請求,比如小米AI助理小愛同學(xué)月活躍設(shè)備超過3000萬臺,累計喚醒超50億次。

10月15日,中國人工智能產(chǎn)業(yè)發(fā)展聯(lián)盟(AIIA)在人工智能開發(fā)者大會公布了國內(nèi)智能音箱智能化評級結(jié)果,包括獵豹移動、小米、喜馬拉雅、百度、京東在內(nèi)的五家主流廠商攜其智能音箱產(chǎn)品參與了首批測試評估。獵戶語音OS占據(jù)了獲評產(chǎn)品前五強中的三席,支撐起了智能音箱市場的大半壁江山。

結(jié)合自身人機交互的產(chǎn)品基因和獵戶星空擁有的行業(yè)唯一的全鏈條AI技術(shù),獵豹移動也在不同行業(yè)推動人工智能產(chǎn)品的場景化落地。未來,獵豹移動與旗下獵戶星空還會將自主研發(fā)的視覺、導(dǎo)航、語音、機械臂技術(shù)等核心能力逐步對外開放,與合作伙伴一起,讓機器人產(chǎn)品走進大眾生活。

申請創(chuàng)業(yè)報道,分享創(chuàng)業(yè)好點子。點擊此處,共同探討創(chuàng)業(yè)新機遇!

相關(guān)標(biāo)簽
ai技術(shù)
智能音箱
手機克隆

相關(guān)文章

  • 甌江論道:AI賦能綠色發(fā)展

    2025年10月25日,2025世界青年科學(xué)家峰會之人工智能(AI)融合創(chuàng)新發(fā)展論壇在浙江溫州成功舉辦。本次論壇由國際院士科創(chuàng)中心主辦,中國投資協(xié)會能源投資專業(yè)委員會、溫港院士科創(chuàng)中心承辦,中國電工技術(shù)學(xué)會、中科先進技術(shù)溫州研究院與溫州市電力工程學(xué)會提供支持,以“甌江論道-AI賦能綠色發(fā)展”為主題,

    標(biāo)簽:
    ai技術(shù)
  • 王通:未來個人創(chuàng)業(yè)的十個機會

    個人創(chuàng)業(yè)需要啟動成本低、無需龐大團隊、可快速驗證、能利用個人技能或資源。這里分享適合個人創(chuàng)業(yè)的十個機會一.AI內(nèi)容優(yōu)化與本地化服務(wù)·做什么:幫助企業(yè)或個人利用AI工具(如GPT-4,Midjourney)優(yōu)化內(nèi)容生產(chǎn)流程。例如,為跨境電商撰寫多語言產(chǎn)品描述,為小紅書博主生成爆款文案,為小公司制作營銷

  • 百度智能云PaddleOCR 3.1正式發(fā)布:關(guān)鍵能力支持MCP

    百度AI團隊今日正式推出PaddleOCR3.1版本,以突破性的多語言組合識別(MultilingualCompositionPerception,MCP)技術(shù)為核心,徹底重構(gòu)復(fù)雜文檔處理邊界。此次升級標(biāo)志著OCR領(lǐng)域首次實現(xiàn)對同一文檔內(nèi)任意混合語言文本的精準(zhǔn)識別,為全球化企業(yè)、跨境業(yè)務(wù)及多元文化場

    標(biāo)簽:
    ai智能
    ai技術(shù)
  • AI工具導(dǎo)航網(wǎng)站,未來的發(fā)展前景怎么樣?

    導(dǎo)航網(wǎng)站的崛起:從信息過載到精準(zhǔn)觸達隨著全球AI工具數(shù)量爆發(fā)式增長(2025年已超數(shù)萬款),用戶面臨前所未有的選擇困境。傳統(tǒng)搜索引擎的“關(guān)鍵詞-鏈接”模式難以應(yīng)對工具篩選的場景需求,垂直化、場景化的AI導(dǎo)航網(wǎng)站應(yīng)運而生。這類平臺通過聚合、評測、分類與推薦四重機制,將分散的工具資源整合為結(jié)構(gòu)化入口。例

  • 微信AI搜索被指“強行開盒”:名字成了數(shù)據(jù)入口,騰訊回應(yīng)“僅用公開信息”

    當(dāng)微信公眾號文章中出現(xiàn)一個人的名字,它會自動變成藍色鏈接,點擊即可查看AI生成的“個人簡歷”——這一微信新功能讓不少用戶感到被“扒光”在互聯(lián)網(wǎng)上。近日,微信新上線的“AI搜索”功能陷入隱私泄露爭議漩渦。多位網(wǎng)友在社交平臺反映,當(dāng)微信公眾號推文中出現(xiàn)本人姓名時,名字會自動變?yōu)樗{色超鏈接,點擊即可瀏覽由

    標(biāo)簽:
    ai技術(shù)
    ai搜索
  • 20%員工或被裁、1.6萬人離開:Meta醞釀史上最大規(guī)模裁員

    文/楊雪健來源/節(jié)點財經(jīng)Meta或迎來史上最大規(guī)模裁員潮。2026年3月14日,路透社曝出Meta正計劃啟動新一輪大規(guī)模裁員,此次裁員比例或達公司總員工數(shù)的20%,按其近7.9萬的員工規(guī)模計算,約1.58萬名員工或?qū)⒈徊?。若該計劃?zhí)行,將成為Meta自2022年底實行“效率之年”重組后規(guī)模最大的一次

  • 阿里發(fā)布全球首個企業(yè)級Agent平臺“悟空”

    3月17日,阿里發(fā)布全球首個企業(yè)級AI原生工作平臺——“悟空”,讓每個團隊、每家公司,都能擁有一支24h工作的”龍蝦軍團”。悟空是一款獨立應(yīng)用,即日起開啟邀測,也將直接內(nèi)置到超2000萬企業(yè)組織的釘釘之中。擁有8億用戶的釘釘重寫底層代碼,進行全面CLI(命令行界面)化改造,讓悟空Agent能夠原生操

  • 90%的AI中間商會消失:Google封號只是第一槍

    AI的“免費紅利期”結(jié)束了,未來18個月,靠“API倒賣”的公司,會成片消失。這個導(dǎo)火索就是最近Google的一輪封號導(dǎo)致的,隨著封號風(fēng)波的結(jié)束,這也標(biāo)志著AI行業(yè)【收租時代】來了。2月封號潮:高付費用戶被一鍋端一周前,Google開始大規(guī)模封號,付著250美金月費的人,賬號說沒就沒,Gmail、Y

  • DeepSeek V4意外泄露,原生多模態(tài)

    來自路透社等媒體報道的最新消息:DeepSeek未發(fā)布的V4Lite模型遭泄露上網(wǎng),華為獲得早期訪問權(quán)限,英偉達被排除在外。近期,谷歌發(fā)表了2篇Multi-Agent協(xié)作學(xué)習(xí)新論文有網(wǎng)友提供了更加詳細的信息,DeepSeekV4Lite:100萬token上下文窗口(V3為128K)內(nèi)置原生多模態(tài)推

  • 中國開啟AI全民化元年,BAT同入“億級俱樂部”

    春節(jié)紅包會結(jié)束,但AI已融入數(shù)億人生活里

  • 開源模型再突破,全球AI行業(yè)的拐點要來了?

    性能、商業(yè)、生態(tài)詮釋開源模型的最佳姿態(tài)

  • 看懂黃仁勛CES演講,就看懂 AI 接下來十年的走向

    2026年剛開年,全世界最狂的那個男人,穿著他的經(jīng)典黑皮衣,在CES舞臺上發(fā)出了未來十年的信號。他搞了個“能吃飽套餐”:6個包子+一碟小菜+一碗粥=肉包子套餐,這樣以后你只要買一個套餐就能吃飽了。(Rubin平臺)同時他們店里還免費提供的筷子、勺子、蘸料、醬油、醋、水果、零食等等。(開放10萬億語言

  • GDPS2025賽場直擊!開普勒大黃蜂助力華理斬獲搬運賽項桂冠

    12月12日-14日,2025全球開發(fā)者先鋒大會暨國際具身智能技能大賽(GDPS2025)于上海張江科學(xué)會堂舉行,大會以具身智能競技為核心,融合了技術(shù)比拼、產(chǎn)業(yè)展示與科普體驗,為全球觀眾呈現(xiàn)出具身智能的現(xiàn)在與未來。上海開普勒機器人有限公司(以下簡稱"開普勒機器人")攜明星產(chǎn)品K2"大黃蜂"亮相,并參

    標(biāo)簽:
    GDPS
    2025
  • 弈動 Dynamic·數(shù)智躍遷 博弈無界|2025TechWorld智慧安全大會在京召開

    在數(shù)字化與智能化深度交織的時代浪潮中,安全的邊界不斷延展,技術(shù)的演進正引領(lǐng)產(chǎn)業(yè)邁向新一輪變革。10月24日,以“弈動Dynamic·數(shù)智躍遷博弈無界”為主題的2025TechWorld智慧安全大會在北京盛大召開。來自國家部委、院士學(xué)者、高校科研機構(gòu)和企業(yè)的權(quán)威專家與業(yè)界精英齊聚北京,共議AI安全、數(shù)

    標(biāo)簽:
    弈動
  • 甌江論道:AI賦能綠色發(fā)展

    2025年10月25日,2025世界青年科學(xué)家峰會之人工智能(AI)融合創(chuàng)新發(fā)展論壇在浙江溫州成功舉辦。本次論壇由國際院士科創(chuàng)中心主辦,中國投資協(xié)會能源投資專業(yè)委員會、溫港院士科創(chuàng)中心承辦,中國電工技術(shù)學(xué)會、中科先進技術(shù)溫州研究院與溫州市電力工程學(xué)會提供支持,以“甌江論道-AI賦能綠色發(fā)展”為主題,

    標(biāo)簽:
    ai技術(shù)

編輯推薦