湯唯成了百度地圖的“AI算法官” 女神背后靠的就是這些語音技術

2019-01-02 09:45 來源：A5專欄我來投稿撤稿糾錯

　一鍵部署OpenClaw

文 |余凱文

來源 | 智能相對論

在人機交互不再滿足于“聽”時，“說”的環(huán)節(jié)變得尤為重要，“怎么說”、“誰來說”成了關鍵按鈕。

而目前語音產品賽道逐漸進入了常規(guī)化模式，邀請明星出聲也成為了基本操作，相比傳統(tǒng)的機械式AI聲音，真人語音無論是在效果還是情感方面都是無可比擬的，再加上明星效應，用戶的體驗效果將來得更加直觀。

12月24日，百度地圖官方宣布湯唯正式簽約代言人，同時上線“湯唯導航語音”。在“說”的領域，百度地圖這款“新一代人工智能地圖”又邁出了一步。

從語音導航到湯唯定制語音，百度地圖“AI+女神”到底進化了什么

傳統(tǒng)語音導航，是單調無聊的，定制語音將其變?yōu)榱诉^去式。擁有湯唯的柔美聲音作為導航，在體驗上有什么差別？當“前方路段交通擁擠,請小心駕駛”變成“前方行駛緩慢，慢慢欣賞路上風景”，會不會覺得這才是“人性化”服務？

1、擺脫中性，湯唯帶給我們的不只是女神之聲

很多人會問，一定要給AI加上性別嗎？不，AI不一定需要性別，但語音最好有。

以往我們聽到的AI語音都是機械式的聲音，是“中性”或者說是“無性”的聲音，帶來的問題也很直接，就是太冰冷、沒個性。之前也有說到，目前個性化、表現力正是語音合成所追求的方向之一，所以百度地圖帶來的湯唯語音也就不止是一款語音那么簡單?？梢哉f湯唯語音從一個功能點體現出結合了人工智能的百度地圖正在變得越來越強大。

聲音具有和視覺傳達一樣很強的感染力，甚至有時，以聲音為主的交互會帶來更好的沉浸感。

并且語音合成研究已開始從文字到語音的轉換階段向概念到語音的轉換階段發(fā)展。所涉及的技術也更加復雜，百度地圖就是利用其深度神經網絡技術、深度學習技術，再結合車內應用場景進行打造。例如百度語音合成系統(tǒng)采用的全深度學習的框架，是在語音合成領域首次采用全深度學習框架，實現了語言合成上的個性化、口語化。

2、語音算法模型讓機器人性化

女神湯唯之所以能完成高質量的語音包，語音合成技術功不可沒，在龐大的道路信息和交通數據之下，誰也無法通過直錄的方式通通記錄，這時就需要靠語音系統(tǒng)來支撐。

以湯唯語音包來說，就是先錄制湯唯聲音特點的第一手資料，錄制的語句包含一些常見的導航提示語句和一些覆蓋到常見的中文發(fā)音的句子。

其實無論語音還是文字，在計算機看來都是數字化的，語音合成模型的任務就是要建立這兩組數字之間的關系，通過一系列的計算，將文本的輸入轉化為語音的輸出。首先需要建立一個神經網絡的模型，去學習湯唯錄制的語音和錄音文字之間的映射關系，就好比讓一個不會發(fā)音的孩子學湯唯說話。而在合成時，它就可以讀取導航語句，并大聲朗讀出來了。

AI浪潮之下，語言合成才是語音技術的高地

使電腦具有類似于人一樣的說話能力，是當今時代信息產業(yè)的重要競爭市場，不過大家的注意力多集中在語音合成之外。

1、差點被忽略的“黃金”場景

目前，語音技術的應用多為了語音喚醒和交互，在智能硬件和軟件上都有很多典型應用——智能音箱、智能電視、智能掃地機器人、百度地圖、百度輸入法等等。但不可否認的是，智能硬件的側重仍在于“語音識別”，對于“語音合成”的應用有，可還不夠深。

語音合成本是把文本經一系列計算處理后輸出對應音頻，通過機械的、電子的方法產生人造語音技術。因為完美的人機交互體驗無法忽略“說”的環(huán)節(jié)，所以語音合成的重要性日益凸顯。

從早期的機械化語音合成開始發(fā)展至今，語音合成的應用場景也經歷了較大的轉變，以前語音合成應用都是在相對單調的場景，現在應用場景更加復雜，對于語音合成技術的要求自然變得更高。

例如，在有聲讀物方面，用戶需求越來越個性化，單調的機械聲已經完全不夠；在機場、車站廣播等服務行業(yè)，需要的是溫柔、甜美的音質；在辦事機構、窗口機關又需要嚴謹、有力的聲音。而百度地圖上線湯唯語音，也是給在路上的用戶更加磁性、知性的嗓音。

在外部，車內空間顯然是一塊“寶地”，車內空間的交互可以說是市場剛需，截止到2018年9月，全國機動車保有量已經達到了3.22億輛，機動車駕駛人數超過了4億人，交互價值巨大。

百度地圖等加速車內空間交互，是將傳統(tǒng)的“室內交互”做了外延，給百度帶來的也不僅僅是用戶層面的拓寬，更體現出百度搜索之外的野心。

2、技術上，語音合成一直是語音技術的高山和壁壘

語音合成可以說是人工智能的“嘴”，是人機交互的基礎，一個沒有“嘴”的人工智能何談什么交互？

就現階段而言，語音識別已經不再是語音技術的關鍵問題，很多產品的語音識別率都到達了95%以上。但在語音生成上，能讓機器說的話與人類說出來的話相近依舊很難，即便是一些簡單的詞組，你我也能一耳就聽出是機器合成的還是真人播報。

如果將語音合成技術拆解，可以分為文本分析、韻律分析和聲學分析三個部分，每一個部分都是技術難點。首先需要對文本進行解析，對文本的語言、字符進行分析，提取出文本特征；接著在文本信息的基礎上，要判斷文本信息字符間奏、長度、頻率等多種特征；然后通過聲學模型實現從前端參數到語音參數的映射，最后通過聲碼器合成語音。

而且，目前主流的語音合成方法為統(tǒng)計參數語音合成和波形拼接的語音合成，統(tǒng)計參數語音合成由前端文本分析、統(tǒng)計參數模型和聲碼器三個部分組成，對語料庫的時長要求較低且在合成目標波形時具有較高靈活性，但重建出來的語音比較機械，缺乏自然度。主要為聲碼器在對語音信號建模時舍棄了語音細節(jié)，合成的語音相比原始語音丟失部分信息。

而百度地圖采用的百度語音合成系統(tǒng)，可以將很多模塊用深度神經網絡去實現，有效解決了使用統(tǒng)計參數合成時所帶來的問題。

波形拼接的語音合成不使用聲碼器，直接通過拼接原始錄制語音片段來合成目標語音，相比參數法，合成的語音更加自然真實。由于直接面向語料庫操作，故對語料時長和基元種類具有較高要求。

當然，當語音流暢度達到人們預期時，也并不是完結，音質、自然度和情感等要素也依舊需要攻克。

就拿漢語語音合成來說，目前在單字和詞組一級上，合成語音的可懂度和自然度已基本解決，但是到句子乃至篇章一級時其自然度問題就比較大。

比如，國內外大多數語音合成研究是針對文語轉換系統(tǒng)，且只能解決以某種朗讀風格將書面語言轉換成口語輸出，缺乏不同年齡、性別特征及語氣、語速的表現，更不用說賦予個人的感*彩。

3、比起聽得清和聽得懂，“說得好”要求的是更懂人

正如上文所提到過的，目前大部分產品的語音識別率都達到了95%以上，卻無法像人類一樣表達，其根本原因就是還“不懂人”。

何為“懂人”？我們人與人之間可以從對方的音量、聲調、語速、用詞等方面聽懂對方的要求、情緒、心情、狀態(tài)，這就是所謂的“懂人”。

說得直白點就是“情感表達”，這是目前而言語音合成技術需要攻克的關鍵要素。

想要達成這一目標，針對普通生活場景的語音合成是提高情感表達的最佳方式。目前使用語音合成技術播報下天氣或者閱讀簡訊，無疑能合成出完美的語音，但遇到生活化的場景，或者在特定氛圍之下，語音合成的效果就會降低很多。一方面由于系統(tǒng)對韻律信息的捕獲不準確，另一方面由于生成的聲學參數存在誤差。當語音合成可以完美消化各類生活化的語境時，其應用場景將得到極大的拓寬。

另外，在語音合成的應用中，大多都是單人、單語言、單語音，如何能由單變多也是語音合成應用中的一大困擾。在“3單”語境的限制下，語言合成技術難以完成應用突破，而目前一些解決“3單”語境的解決方案也不夠完美，或多或少都存在瑕疵，并且也沒有足夠的語料素材來進行支撐。

如何使計算機算法能夠自適應技術實現任意說話人、不同風格的高質量語音合成，如何充分挖掘不同語言的發(fā)音空間，在語料受限條件下實現多語言語音合成，也是語音合成現階段的一大挑戰(zhàn)。

百度地圖在深度神經網絡技術的支撐下，已經開始對“3單”語境作出反應，并已收到成效，百度語音合成開始支持中文英文混讀，可以提供數十種不同音色，更支持語速、音調、音量設置。這些技術活功能上的增加，無疑將給語音合成帶來更加廣闊的想象空間。

近年來，在語音技術行業(yè)中開始流行一句話：“得語音合成者得天下”，百度地圖此時牽手國民女神，導航語音全量上線似乎也在卡這個時間點。

語音技術個性化時代，百度地圖占領AI地圖高地

地圖從羊皮到紙卷，從PC到手機，其實一直在隨技術的進步而進化。放眼整個行業(yè)，在人工智能浪潮下，百度地圖已經走在了前列。語音合成上越來越講究個性化，個性化的需求就無法繞開大數據和AI，而在這兩個方面百度的經驗正好合適。

1、湯唯女神的定制語音，不止是百度語音合成技術體現出情感特征的標志

賦予合成語音情感，讓合成語音表現出個性生理、心理等特點，是語音合成領域一個難題。

百度地圖在推出湯唯語音導航的同時，也足以證明其語音組技術能力的成熟。

神經網絡的模型隨著百度技術經驗的積累，也越來越精巧和高效。湯唯采用的模型，正是百度近期研發(fā)出的高質量合成模型，具有很好的音質，音色還原度和自然度。

讓語音合成具備情感，還要建立多視角情感描述模型，需要描述認知、心理、生理等影響因素之間的關聯性，再通過語音頻譜特征表現出來。并且不能一廂情愿，還需要從用戶的角度模擬不同人群的使用習慣，偏好等。

而這一系列過程背后，是一套復雜且龐大的數據系統(tǒng)在支撐，百度之所以能夠完成還得益于百度地圖大數據的豐富。目前百度地圖覆蓋了全球209個國家及地區(qū)超過850萬公里道路里程，每日響應位置服務近千億次等，這些正是百度語音組在打造語音合成技術時的基石。

2、兩款導航語音開始滿足個性化需求，百度地圖AI化已經不再只是技術端

在今年3月，百度地圖事業(yè)部正式并入AI技術平臺體系（AIG），不僅是對其作為基礎性服務地位的肯定，也意味著百度地圖能夠獲得更直接的AI技術支持。

依托于整個百度，百度地圖在AI技術研發(fā)上處于先發(fā)行列，有著比較全面的AI技術積累，涵蓋語音、圖像、大數據智能等。

而“湯唯迷人語音”和“湯唯常規(guī)語音”兩款導航語音就能直觀體現出百度語音組在韻律模型、聲學模型預測（神經網絡的模型）、彈性單元挑選技術等技術上的功力。

從AI技術應用來看，百度地圖已經表現出強大的AI能力，除了能提供實時路況、提前規(guī)劃路線，推測擁堵等智能地圖的“常規(guī)功能”外，百度地圖開始提供更加個性化的交互，例如，AR實景導航、全景地圖、旅游地圖、充電樁地圖、急救車讓行播報等個性化功，這些創(chuàng)新功能不止是聽覺還包括視覺上。值得一提的是，百度智能地圖還能夠“學習”不同路段對應的交規(guī)信息，這一點是極具應用價值的。

由此可見，百度地圖AI化已經真正意義上實現了從技術端走到了應用端。

結論

湯唯女神導航語音對于百度地圖而言是一個標志性事件，是在AI風口下，百度地圖作出的重大變革之一，意味著百度地圖AI能力呈現立體化。

從楊洋到湯唯，百度地圖致力于展現地圖AI的先進性，一直不竭余力，智能語音助手作為一個輔助功能，對于其他地圖產品的無足輕重，百度地圖則是高度重視，僅在視覺提供上，百度地圖的語音助手就一定會是在最顯眼的位置，并且不止于輔助，百度為語音助手所寄予的是“交互”，充分發(fā)揮導航語音“聽”和“說”的能力。

如今，百度地圖邀請女神湯唯“獻聲”，無疑是給百度地圖語音的錦上添花，在打造新一代人工智能地圖上百度地圖又先行一步。

從以前的聽清、聽懂到滿足，發(fā)展到在滿足之后更有“反饋和應變”。在交互方式上也由單一交互變?yōu)榱苏嬲碾p向交互。

同時在百度地圖“更精準、更豐富、更易用”的理念基礎上可以再加上一條“更具情感”。

在搶占智能地圖高地上，百度地圖已然領先。

*以上圖片來源于網絡。

【完】

智能相對論：深挖人工智能這口井，評出咸淡，講出黑白，道出vb深淺。重點關注領域：AI+醫(yī)療、機器人、智能駕駛、AI+硬件、物聯網、AI+金融、AI+安全、AR/VR、開發(fā)者以及背后的芯片、算法、人機交互等。

申請創(chuàng)業(yè)報道，分享創(chuàng)業(yè)好點子。點擊此處，共同探討創(chuàng)業(yè)新機遇！

相關標簽: 百度地圖; ai技術; 湯唯

甌江論道：AI賦能綠色發(fā)展

2025年10月25日，2025世界青年科學家峰會之人工智能（AI）融合創(chuàng)新發(fā)展論壇在浙江溫州成功舉辦。本次論壇由國際院士科創(chuàng)中心主辦，中國投資協(xié)會能源投資專業(yè)委員會、溫港院士科創(chuàng)中心承辦，中國電工技術學會、中科先進技術溫州研究院與溫州市電力工程學會提供支持，以“甌江論道-AI賦能綠色發(fā)展”為主題，

標簽：

ai技術
王通：未來個人創(chuàng)業(yè)的十個機會

個人創(chuàng)業(yè)需要啟動成本低、無需龐大團隊、可快速驗證、能利用個人技能或資源。這里分享適合個人創(chuàng)業(yè)的十個機會一.AI內容優(yōu)化與本地化服務·做什么：幫助企業(yè)或個人利用AI工具（如GPT-4,Midjourney）優(yōu)化內容生產流程。例如，為跨境電商撰寫多語言產品描述，為小紅書博主生成爆款文案，為小公司制作營銷

標簽：

創(chuàng)業(yè)機會

ai技術
百度智能云PaddleOCR 3.1正式發(fā)布：關鍵能力支持MCP

百度AI團隊今日正式推出PaddleOCR3.1版本，以突破性的多語言組合識別（MultilingualCompositionPerception,MCP）技術為核心，徹底重構復雜文檔處理邊界。此次升級標志著OCR領域首次實現對同一文檔內任意混合語言文本的精準識別，為全球化企業(yè)、跨境業(yè)務及多元文化場

標簽：

ai智能

ai技術
AI工具導航網站，未來的發(fā)展前景怎么樣？

導航網站的崛起：從信息過載到精準觸達隨著全球AI工具數量爆發(fā)式增長（2025年已超數萬款），用戶面臨前所未有的選擇困境。傳統(tǒng)搜索引擎的“關鍵詞-鏈接”模式難以應對工具篩選的場景需求，垂直化、場景化的AI導航網站應運而生。這類平臺通過聚合、評測、分類與推薦四重機制，將分散的工具資源整合為結構化入口。例

標簽：

ai技術

導航網站
微信AI搜索被指“強行開盒”：名字成了數據入口，騰訊回應“僅用公開信息”

當微信公眾號文章中出現一個人的名字，它會自動變成藍色鏈接，點擊即可查看AI生成的“個人簡歷”——這一微信新功能讓不少用戶感到被“扒光”在互聯網上。近日，微信新上線的“AI搜索”功能陷入隱私泄露爭議漩渦。多位網友在社交平臺反映，當微信公眾號推文中出現本人姓名時，名字會自動變?yōu)樗{色超鏈接，點擊即可瀏覽由

標簽：

ai技術

ai搜索

養(yǎng)openclaw小龍蝦，每月要花多少錢才能養(yǎng)好？

“養(yǎng)龍蝦”到底要花多少錢？這個問題可能是大家最關心的。我們把成本拆成三部分：服務器租用費+大模型API調用費+雜項開銷。第一部分：服務器租用費。最省錢的方案當然是本地舊電腦自托管——零新增成本，電費忽略不計。但如前所述，你需要接受“不是7×24小時在線”的局限性。如果選擇云服務器，成本差異就很大了。

標簽：

openclaw小龍蝦

ai龍蝦是什么

ai小龍蝦什么意思
養(yǎng)小龍蝦用個人電腦還是云服務器？先搞清楚OpenClaw到底是什么

不少朋友第一次接觸OpenClaw時，都會有一個相同的困惑：這玩意兒到底該裝在哪里？OpenClaw（社區(qū)戲稱“養(yǎng)龍蝦”，因Logo為龍蝦鉗）不是普通的聊天機器人，而是一款本地優(yōu)先、可自主執(zhí)行、支持多Agent分工協(xié)作的AI執(zhí)行網關。說白了，它讓大模型從“只會說話”變成“會動手做事”——幫你管理文件

標簽：

ai龍蝦是什么

ai小龍蝦什么意思

openclaw小龍蝦
AI龍蝦養(yǎng)了這么久，這8個建議你一定要聽

01別相信“一鍵養(yǎng)蝦，躺平賺錢”的鬼話打開社交媒體，你可能會看到這樣的標題：“養(yǎng)只龍蝦自動炒股，零代碼養(yǎng)出數字巴菲特！”信了，你就輸了。真實情況是：一個做跨境電商的小哥花了200元租服務器、訂閱API，指望龍蝦幫他炒股暴富。結果龍蝦開始幾天還像模像樣，后來直接擺爛，生成個干癟的大綱就敷衍了事。AI是

標簽：

ai龍蝦是什么

ai小龍蝦什么意思

openclaw小龍蝦
“養(yǎng)龍蝦”火了，可你養(yǎng)的“蝦”要是闖了禍，責任到底算誰的？

一張證書引發(fā)的討論4月7日，北京嫣然天使兒童醫(yī)院給陳光標發(fā)了一張感謝證書，感謝他捐贈1000萬元。這事說起來挺曲折的。此前陳光標高調說要贈給張雪一臺價值1300萬元的勞斯萊斯，張雪回應“收了，八折賣掉捐給嫣然”，一番拉扯之后，陳光標把車變現，1000萬元直接打到了嫣然醫(yī)院賬上。醫(yī)院發(fā)證書感謝，本來是

標簽：

ai龍蝦是什么

ai小龍蝦什么意思

openclaw小龍蝦
國家安全部發(fā)布Token安全警示：需高度警惕數據泄露與金融詐騙風險

2026年4月7日，國家安全部就AI核心術語“詞元”（Token）發(fā)布安全警示，強調在日均調用量突破140萬億規(guī)模的市場背景下，需高度警惕由此引發(fā)的數據泄露與金融詐騙風險。據統(tǒng)計，截至今年3月，我國日均詞元調用量已超過140萬億，較2024年初增長1000多倍。詞元作為大模型處理信息的最小單元，兼具
中國AI大模型連續(xù)五周領跑全球，調用量大幅增長

如今出門，如果你還沒用過AI智能助手，可能真有點跟不上節(jié)奏了。無論是寫作文、查資料，還是規(guī)劃出行路線，越來越多的人已經習慣隨手打開AI問一句。這股熱潮背后，中國AI大模型用實打實的數據交出了一份亮眼的成績單。根據全球知名AI模型聚合平臺OpenRouter的最新數據，在3月30日至4月5日這一周，中

標簽：

大模型

小白養(yǎng)龍蝦的5條保命建議，值得收藏！

01別在主電腦上養(yǎng)！這是最最重要的一條“保命”建議。很多小白心血來潮，直接在自己存著畢業(yè)論文、工作文件、銀行卡信息的主力電腦上部署OpenClaw。然后悲劇發(fā)生了：讓龍蝦幫忙整理一下桌面文件，結果它把整臺電腦的文件全刪了。這不是段子，是真事。OpenClaw一旦被授予高權限，就能執(zhí)行刪除、修改等不可

標簽：

ai龍蝦是什么

ai小龍蝦什么意思

openclaw小龍蝦
養(yǎng)一只OpenClaw小龍蝦1個月到底要花多少錢，快來算一算適不適合你？

01免費領養(yǎng)，但飼料要錢很多人第一次聽說OpenClaw時，腦子里冒出的第一個念頭是：開源軟件，那不免費嗎？沒錯，OpenClaw本身確實是開源的，下載安裝一分錢不收。但你很快就會發(fā)現，真正的開銷根本不在這里。養(yǎng)一只“龍蝦”，就像領養(yǎng)了一只寵物——領養(yǎng)免費，但“蝦缸”“蝦糧”“蝦保姆”都得自己掏錢。

標簽：

ai龍蝦是什么

ai小龍蝦什么意思

openclaw小龍蝦
“養(yǎng)龍蝦”為什么突然火了？OpenClaw很強，但普通人真的適合嗎？

一只“龍蝦”，火遍全網“今天你養(yǎng)龍蝦了嗎？”這句話在2026年初，迅速取代“吃了嗎”成為社交媒體上的新晉暗號。別誤會，這不是什么水產養(yǎng)殖新風口。這里說的“龍蝦”，是一款名為OpenClaw的開源AI智能體。因為它的圖標是一只紅色龍蝦，網友們便把部署、配置和使用它的過程，戲稱為“養(yǎng)龍蝦”。一個開源軟件

標簽：

ai龍蝦是什么

ai小龍蝦什么意思

openclaw小龍蝦
一秒當導演：小云雀上線短劇Agent，10萬字劇本一鍵生成60集

凌晨兩點，小王合上筆記本，揉了揉酸脹的眼睛?；艘粋€月寫出來的10萬字短劇劇本躺在硬盤里，要真正把它拍成劇，得找演員、租場地、請攝像、做后期……粗算下來少說要幾十萬，他只能把劇本繼續(xù)鎖在抽屜里。不過，現在小王的劇本可以“見光”了。2026年3月19日，字節(jié)跳動旗下的小云雀AI正式上線了短劇Agent

標簽：

大模型

加載更多

湯唯成了百度地圖的“AI算法官” 女神背后靠的就是這些語音技術

相關文章

甌江論道：AI賦能綠色發(fā)展

王通：未來個人創(chuàng)業(yè)的十個機會

百度智能云PaddleOCR 3.1正式發(fā)布：關鍵能力支持MCP

AI工具導航網站，未來的發(fā)展前景怎么樣？

微信AI搜索被指“強行開盒”：名字成了數據入口，騰訊回應“僅用公開信息”

養(yǎng)openclaw小龍蝦，每月要花多少錢才能養(yǎng)好？

養(yǎng)小龍蝦用個人電腦還是云服務器？先搞清楚OpenClaw到底是什么

AI龍蝦養(yǎng)了這么久，這8個建議你一定要聽

“養(yǎng)龍蝦”火了，可你養(yǎng)的“蝦”要是闖了禍，責任到底算誰的？

國家安全部發(fā)布Token安全警示：需高度警惕數據泄露與金融詐騙風險

中國AI大模型連續(xù)五周領跑全球，調用量大幅增長

小白養(yǎng)龍蝦的5條保命建議，值得收藏！

養(yǎng)一只OpenClaw小龍蝦1個月到底要花多少錢，快來算一算適不適合你？

“養(yǎng)龍蝦”為什么突然火了？OpenClaw很強，但普通人真的適合嗎？

一秒當導演：小云雀上線短劇Agent，10萬字劇本一鍵生成60集

熱門排行

編輯推薦