1. 創(chuàng)業(yè)頭條
  2. 前沿領域
  3. AI智能
  4. 正文

湯唯成了百度地圖的“AI算法官” 女神背后靠的就是這些語音技術

 2019-01-02 09:45  來源:A5專欄  我來投稿 撤稿糾錯

  一鍵部署OpenClaw

文 |余凱文

來源 | 智能相對論

在人機交互不再滿足于“聽”時,“說”的環(huán)節(jié)變得尤為重要,“怎么說”、“誰來說”成了關鍵按鈕。

而目前語音產品賽道逐漸進入了常規(guī)化模式,邀請明星出聲也成為了基本操作,相比傳統(tǒng)的機械式AI聲音,真人語音無論是在效果還是情感方面都是無可比擬的,再加上明星效應,用戶的體驗效果將來得更加直觀。

12月24日,百度地圖官方宣布湯唯正式簽約代言人,同時上線“湯唯導航語音”。在“說”的領域,百度地圖這款“新一代人工智能地圖”又邁出了一步。

從語音導航到湯唯定制語音,百度地圖“AI+女神”到底進化了什么

傳統(tǒng)語音導航,是單調無聊的,定制語音將其變?yōu)榱诉^去式。擁有湯唯的柔美聲音作為導航,在體驗上有什么差別?當“前方路段交通擁擠,請小心駕駛”變成“前方行駛緩慢,慢慢欣賞路上風景”,會不會覺得這才是“人性化”服務?

1、擺脫中性,湯唯帶給我們的不只是女神之聲

很多人會問,一定要給AI加上性別嗎?不,AI不一定需要性別,但語音最好有。

以往我們聽到的AI語音都是機械式的聲音,是“中性”或者說是“無性”的聲音,帶來的問題也很直接,就是太冰冷、沒個性。之前也有說到,目前個性化、表現力正是語音合成所追求的方向之一,所以百度地圖帶來的湯唯語音也就不止是一款語音那么簡單??梢哉f湯唯語音從一個功能點體現出結合了人工智能的百度地圖正在變得越來越強大。

聲音具有和視覺傳達一樣很強的感染力,甚至有時,以聲音為主的交互會帶來更好的沉浸感。

并且語音合成研究已開始從文字到語音的轉換階段向概念到語音的轉換階段發(fā)展。所涉及的技術也更加復雜,百度地圖就是利用其深度神經網絡技術、深度學習技術,再結合車內應用場景進行打造。例如百度語音合成系統(tǒng)采用的全深度學習的框架,是在語音合成領域首次采用全深度學習框架,實現了語言合成上的個性化、口語化。

2、語音算法模型讓機器人性化

女神湯唯之所以能完成高質量的語音包,語音合成技術功不可沒,在龐大的道路信息和交通數據之下,誰也無法通過直錄的方式通通記錄,這時就需要靠語音系統(tǒng)來支撐。

以湯唯語音包來說,就是先錄制湯唯聲音特點的第一手資料,錄制的語句包含一些常見的導航提示語句和一些覆蓋到常見的中文發(fā)音的句子。

其實無論語音還是文字,在計算機看來都是數字化的,語音合成模型的任務就是要建立這兩組數字之間的關系,通過一系列的計算,將文本的輸入轉化為語音的輸出。首先需要建立一個神經網絡的模型,去學習湯唯錄制的語音和錄音文字之間的映射關系,就好比讓一個不會發(fā)音的孩子學湯唯說話。而在合成時,它就可以讀取導航語句,并大聲朗讀出來了。

AI浪潮之下,語言合成才是語音技術的高地

使電腦具有類似于人一樣的說話能力,是當今時代信息產業(yè)的重要競爭市場,不過大家的注意力多集中在語音合成之外。

1、差點被忽略的“黃金”場景

目前,語音技術的應用多為了語音喚醒和交互,在智能硬件和軟件上都有很多典型應用——智能音箱、智能電視、智能掃地機器人、百度地圖、百度輸入法等等。但不可否認的是,智能硬件的側重仍在于“語音識別”,對于“語音合成”的應用有,可還不夠深。

語音合成本是把文本經一系列計算處理后輸出對應音頻,通過機械的、電子的方法產生人造語音技術。因為完美的人機交互體驗無法忽略“說”的環(huán)節(jié),所以語音合成的重要性日益凸顯。

從早期的機械化語音合成開始發(fā)展至今,語音合成的應用場景也經歷了較大的轉變,以前語音合成應用都是在相對單調的場景,現在應用場景更加復雜,對于語音合成技術的要求自然變得更高。

例如,在有聲讀物方面,用戶需求越來越個性化,單調的機械聲已經完全不夠;在機場、車站廣播等服務行業(yè),需要的是溫柔、甜美的音質;在辦事機構、窗口機關又需要嚴謹、有力的聲音。而百度地圖上線湯唯語音,也是給在路上的用戶更加磁性、知性的嗓音。

在外部,車內空間顯然是一塊“寶地”,車內空間的交互可以說是市場剛需,截止到2018年9月,全國機動車保有量已經達到了3.22億輛,機動車駕駛人數超過了4億人,交互價值巨大。

百度地圖等加速車內空間交互,是將傳統(tǒng)的“室內交互”做了外延,給百度帶來的也不僅僅是用戶層面的拓寬,更體現出百度搜索之外的野心。

2、技術上,語音合成一直是語音技術的高山和壁壘

語音合成可以說是人工智能的“嘴”,是人機交互的基礎,一個沒有“嘴”的人工智能何談什么交互?

就現階段而言,語音識別已經不再是語音技術的關鍵問題,很多產品的語音識別率都到達了95%以上。但在語音生成上,能讓機器說的話與人類說出來的話相近依舊很難,即便是一些簡單的詞組,你我也能一耳就聽出是機器合成的還是真人播報。

如果將語音合成技術拆解,可以分為文本分析、韻律分析和聲學分析三個部分,每一個部分都是技術難點。首先需要對文本進行解析,對文本的語言、字符進行分析,提取出文本特征;接著在文本信息的基礎上,要判斷文本信息字符間奏、長度、頻率等多種特征;然后通過聲學模型實現從前端參數到語音參數的映射,最后通過聲碼器合成語音。

而且,目前主流的語音合成方法為統(tǒng)計參數語音合成和波形拼接的語音合成,統(tǒng)計參數語音合成由前端文本分析、統(tǒng)計參數模型和聲碼器三個部分組成,對語料庫的時長要求較低且在合成目標波形時具有較高靈活性,但重建出來的語音比較機械,缺乏自然度。主要為聲碼器在對語音信號建模時舍棄了語音細節(jié),合成的語音相比原始語音丟失部分信息。

而百度地圖采用的百度語音合成系統(tǒng),可以將很多模塊用深度神經網絡去實現,有效解決了使用統(tǒng)計參數合成時所帶來的問題。

波形拼接的語音合成不使用聲碼器,直接通過拼接原始錄制語音片段來合成目標語音,相比參數法,合成的語音更加自然真實。由于直接面向語料庫操作,故對語料時長和基元種類具有較高要求。

當然,當語音流暢度達到人們預期時,也并不是完結,音質、自然度和情感等要素也依舊需要攻克。

就拿漢語語音合成來說,目前在單字和詞組一級上,合成語音的可懂度和自然度已基本解決,但是到句子乃至篇章一級時其自然度問題就比較大。

比如,國內外大多數語音合成研究是針對文語轉換系統(tǒng),且只能解決以某種朗讀風格將書面語言轉換成口語輸出,缺乏不同年齡、性別特征及語氣、語速的表現,更不用說賦予個人的感*彩。

3、比起聽得清和聽得懂,“說得好”要求的是更懂人

正如上文所提到過的,目前大部分產品的語音識別率都達到了95%以上,卻無法像人類一樣表達,其根本原因就是還“不懂人”。

何為“懂人”?我們人與人之間可以從對方的音量、聲調、語速、用詞等方面聽懂對方的要求、情緒、心情、狀態(tài),這就是所謂的“懂人”。

說得直白點就是“情感表達”,這是目前而言語音合成技術需要攻克的關鍵要素。

想要達成這一目標,針對普通生活場景的語音合成是提高情感表達的最佳方式。目前使用語音合成技術播報下天氣或者閱讀簡訊,無疑能合成出完美的語音,但遇到生活化的場景,或者在特定氛圍之下,語音合成的效果就會降低很多。一方面由于系統(tǒng)對韻律信息的捕獲不準確,另一方面由于生成的聲學參數存在誤差。當語音合成可以完美消化各類生活化的語境時,其應用場景將得到極大的拓寬。

另外,在語音合成的應用中,大多都是單人、單語言、單語音,如何能由單變多也是語音合成應用中的一大困擾。在“3單”語境的限制下,語言合成技術難以完成應用突破,而目前一些解決“3單”語境的解決方案也不夠完美,或多或少都存在瑕疵,并且也沒有足夠的語料素材來進行支撐。

如何使計算機算法能夠自適應技術實現任意說話人、不同風格的高質量語音合成,如何充分挖掘不同語言的發(fā)音空間,在語料受限條件下實現多語言語音合成,也是語音合成現階段的一大挑戰(zhàn)。

百度地圖在深度神經網絡技術的支撐下,已經開始對“3單”語境作出反應,并已收到成效,百度語音合成開始支持中文英文混讀,可以提供數十種不同音色,更支持語速、音調、音量設置。這些技術活功能上的增加,無疑將給語音合成帶來更加廣闊的想象空間。

近年來,在語音技術行業(yè)中開始流行一句話:“得語音合成者得天下”,百度地圖此時牽手國民女神,導航語音全量上線似乎也在卡這個時間點。

語音技術個性化時代,百度地圖占領AI地圖高地

地圖從羊皮到紙卷,從PC到手機,其實一直在隨技術的進步而進化。放眼整個行業(yè),在人工智能浪潮下,百度地圖已經走在了前列。語音合成上越來越講究個性化,個性化的需求就無法繞開大數據和AI,而在這兩個方面百度的經驗正好合適。

1、湯唯女神的定制語音,不止是百度語音合成技術體現出情感特征的標志

賦予合成語音情感,讓合成語音表現出個性生理、心理等特點,是語音合成領域一個難題。

百度地圖在推出湯唯語音導航的同時,也足以證明其語音組技術能力的成熟。

神經網絡的模型隨著百度技術經驗的積累,也越來越精巧和高效。湯唯采用的模型,正是百度近期研發(fā)出的高質量合成模型,具有很好的音質,音色還原度和自然度。

讓語音合成具備情感,還要建立多視角情感描述模型,需要描述認知、心理、生理等影響因素之間的關聯(lián)性,再通過語音頻譜特征表現出來。并且不能一廂情愿,還需要從用戶的角度模擬不同人群的使用習慣,偏好等。

而這一系列過程背后,是一套復雜且龐大的數據系統(tǒng)在支撐,百度之所以能夠完成還得益于百度地圖大數據的豐富。目前百度地圖覆蓋了全球209個國家及地區(qū)超過850萬公里道路里程,每日響應位置服務近千億次等,這些正是百度語音組在打造語音合成技術時的基石。

2、兩款導航語音開始滿足個性化需求,百度地圖AI化已經不再只是技術端

在今年3月,百度地圖事業(yè)部正式并入AI技術平臺體系(AIG),不僅是對其作為基礎性服務地位的肯定,也意味著百度地圖能夠獲得更直接的AI技術支持。

依托于整個百度,百度地圖在AI技術研發(fā)上處于先發(fā)行列,有著比較全面的AI技術積累,涵蓋語音、圖像、大數據智能等。

而“湯唯迷人語音”和“湯唯常規(guī)語音”兩款導航語音就能直觀體現出百度語音組在韻律模型、聲學模型預測(神經網絡的模型)、彈性單元挑選技術等技術上的功力。

從AI技術應用來看,百度地圖已經表現出強大的AI能力,除了能提供實時路況、提前規(guī)劃路線,推測擁堵等智能地圖的“常規(guī)功能”外,百度地圖開始提供更加個性化的交互,例如,AR實景導航、全景地圖、旅游地圖、充電樁地圖、急救車讓行播報等個性化功,這些創(chuàng)新功能不止是聽覺還包括視覺上。值得一提的是,百度智能地圖還能夠“學習”不同路段對應的交規(guī)信息,這一點是極具應用價值的。

由此可見,百度地圖AI化已經真正意義上實現了從技術端走到了應用端。

結論

湯唯女神導航語音對于百度地圖而言是一個標志性事件,是在AI風口下,百度地圖作出的重大變革之一,意味著百度地圖AI能力呈現立體化。

從楊洋到湯唯,百度地圖致力于展現地圖AI的先進性,一直不竭余力,智能語音助手作為一個輔助功能,對于其他地圖產品的無足輕重,百度地圖則是高度重視,僅在視覺提供上,百度地圖的語音助手就一定會是在最顯眼的位置,并且不止于輔助,百度為語音助手所寄予的是“交互”,充分發(fā)揮導航語音“聽”和“說”的能力。

如今,百度地圖邀請女神湯唯“獻聲”,無疑是給百度地圖語音的錦上添花,在打造新一代人工智能地圖上百度地圖又先行一步。

從以前的聽清、聽懂到滿足,發(fā)展到在滿足之后更有“反饋和應變”。在交互方式上也由單一交互變?yōu)榱苏嬲碾p向交互。

同時在百度地圖“更精準、更豐富、更易用”的理念基礎上可以再加上一條“更具情感”。

在搶占智能地圖高地上,百度地圖已然領先。

*以上圖片來源于網絡。

【完】

智能相對論:深挖人工智能這口井,評出咸淡,講出黑白,道出vb深淺。重點關注領域:AI+醫(yī)療、機器人、智能駕駛、AI+硬件、物聯(lián)網、AI+金融、AI+安全、AR/VR、開發(fā)者以及背后的芯片、算法、人機交互等。

申請創(chuàng)業(yè)報道,分享創(chuàng)業(yè)好點子。點擊此處,共同探討創(chuàng)業(yè)新機遇!

相關文章

  • 甌江論道:AI賦能綠色發(fā)展

    2025年10月25日,2025世界青年科學家峰會之人工智能(AI)融合創(chuàng)新發(fā)展論壇在浙江溫州成功舉辦。本次論壇由國際院士科創(chuàng)中心主辦,中國投資協(xié)會能源投資專業(yè)委員會、溫港院士科創(chuàng)中心承辦,中國電工技術學會、中科先進技術溫州研究院與溫州市電力工程學會提供支持,以“甌江論道-AI賦能綠色發(fā)展”為主題,

    標簽:
    ai技術
  • 王通:未來個人創(chuàng)業(yè)的十個機會

    個人創(chuàng)業(yè)需要啟動成本低、無需龐大團隊、可快速驗證、能利用個人技能或資源。這里分享適合個人創(chuàng)業(yè)的十個機會一.AI內容優(yōu)化與本地化服務·做什么:幫助企業(yè)或個人利用AI工具(如GPT-4,Midjourney)優(yōu)化內容生產流程。例如,為跨境電商撰寫多語言產品描述,為小紅書博主生成爆款文案,為小公司制作營銷

  • 百度智能云PaddleOCR 3.1正式發(fā)布:關鍵能力支持MCP

    百度AI團隊今日正式推出PaddleOCR3.1版本,以突破性的多語言組合識別(MultilingualCompositionPerception,MCP)技術為核心,徹底重構復雜文檔處理邊界。此次升級標志著OCR領域首次實現對同一文檔內任意混合語言文本的精準識別,為全球化企業(yè)、跨境業(yè)務及多元文化場

    標簽:
    ai智能
    ai技術
  • AI工具導航網站,未來的發(fā)展前景怎么樣?

    導航網站的崛起:從信息過載到精準觸達隨著全球AI工具數量爆發(fā)式增長(2025年已超數萬款),用戶面臨前所未有的選擇困境。傳統(tǒng)搜索引擎的“關鍵詞-鏈接”模式難以應對工具篩選的場景需求,垂直化、場景化的AI導航網站應運而生。這類平臺通過聚合、評測、分類與推薦四重機制,將分散的工具資源整合為結構化入口。例

  • 微信AI搜索被指“強行開盒”:名字成了數據入口,騰訊回應“僅用公開信息”

    當微信公眾號文章中出現一個人的名字,它會自動變成藍色鏈接,點擊即可查看AI生成的“個人簡歷”——這一微信新功能讓不少用戶感到被“扒光”在互聯(lián)網上。近日,微信新上線的“AI搜索”功能陷入隱私泄露爭議漩渦。多位網友在社交平臺反映,當微信公眾號推文中出現本人姓名時,名字會自動變?yōu)樗{色超鏈接,點擊即可瀏覽由

    標簽:
    ai技術
    ai搜索
  • 20%員工或被裁、1.6萬人離開:Meta醞釀史上最大規(guī)模裁員

    文/楊雪健來源/節(jié)點財經Meta或迎來史上最大規(guī)模裁員潮。2026年3月14日,路透社曝出Meta正計劃啟動新一輪大規(guī)模裁員,此次裁員比例或達公司總員工數的20%,按其近7.9萬的員工規(guī)模計算,約1.58萬名員工或將被裁。若該計劃執(zhí)行,將成為Meta自2022年底實行“效率之年”重組后規(guī)模最大的一次

  • 阿里發(fā)布全球首個企業(yè)級Agent平臺“悟空”

    3月17日,阿里發(fā)布全球首個企業(yè)級AI原生工作平臺——“悟空”,讓每個團隊、每家公司,都能擁有一支24h工作的”龍蝦軍團”。悟空是一款獨立應用,即日起開啟邀測,也將直接內置到超2000萬企業(yè)組織的釘釘之中。擁有8億用戶的釘釘重寫底層代碼,進行全面CLI(命令行界面)化改造,讓悟空Agent能夠原生操

  • 90%的AI中間商會消失:Google封號只是第一槍

    AI的“免費紅利期”結束了,未來18個月,靠“API倒賣”的公司,會成片消失。這個導火索就是最近Google的一輪封號導致的,隨著封號風波的結束,這也標志著AI行業(yè)【收租時代】來了。2月封號潮:高付費用戶被一鍋端一周前,Google開始大規(guī)模封號,付著250美金月費的人,賬號說沒就沒,Gmail、Y

  • DeepSeek V4意外泄露,原生多模態(tài)

    來自路透社等媒體報道的最新消息:DeepSeek未發(fā)布的V4Lite模型遭泄露上網,華為獲得早期訪問權限,英偉達被排除在外。近期,谷歌發(fā)表了2篇Multi-Agent協(xié)作學習新論文有網友提供了更加詳細的信息,DeepSeekV4Lite:100萬token上下文窗口(V3為128K)內置原生多模態(tài)推

  • 中國開啟AI全民化元年,BAT同入“億級俱樂部”

    春節(jié)紅包會結束,但AI已融入數億人生活里

  • 開源模型再突破,全球AI行業(yè)的拐點要來了?

    性能、商業(yè)、生態(tài)詮釋開源模型的最佳姿態(tài)

  • 看懂黃仁勛CES演講,就看懂 AI 接下來十年的走向

    2026年剛開年,全世界最狂的那個男人,穿著他的經典黑皮衣,在CES舞臺上發(fā)出了未來十年的信號。他搞了個“能吃飽套餐”:6個包子+一碟小菜+一碗粥=肉包子套餐,這樣以后你只要買一個套餐就能吃飽了。(Rubin平臺)同時他們店里還免費提供的筷子、勺子、蘸料、醬油、醋、水果、零食等等。(開放10萬億語言

  • GDPS2025賽場直擊!開普勒大黃蜂助力華理斬獲搬運賽項桂冠

    12月12日-14日,2025全球開發(fā)者先鋒大會暨國際具身智能技能大賽(GDPS2025)于上海張江科學會堂舉行,大會以具身智能競技為核心,融合了技術比拼、產業(yè)展示與科普體驗,為全球觀眾呈現出具身智能的現在與未來。上海開普勒機器人有限公司(以下簡稱"開普勒機器人")攜明星產品K2"大黃蜂"亮相,并參

    標簽:
    GDPS
    2025
  • 弈動 Dynamic·數智躍遷 博弈無界|2025TechWorld智慧安全大會在京召開

    在數字化與智能化深度交織的時代浪潮中,安全的邊界不斷延展,技術的演進正引領產業(yè)邁向新一輪變革。10月24日,以“弈動Dynamic·數智躍遷博弈無界”為主題的2025TechWorld智慧安全大會在北京盛大召開。來自國家部委、院士學者、高??蒲袡C構和企業(yè)的權威專家與業(yè)界精英齊聚北京,共議AI安全、數

    標簽:
    弈動
  • 甌江論道:AI賦能綠色發(fā)展

    2025年10月25日,2025世界青年科學家峰會之人工智能(AI)融合創(chuàng)新發(fā)展論壇在浙江溫州成功舉辦。本次論壇由國際院士科創(chuàng)中心主辦,中國投資協(xié)會能源投資專業(yè)委員會、溫港院士科創(chuàng)中心承辦,中國電工技術學會、中科先進技術溫州研究院與溫州市電力工程學會提供支持,以“甌江論道-AI賦能綠色發(fā)展”為主題,

    標簽:
    ai技術

編輯推薦