文 |余凱文
來源 | 智能相對論
在人機交互不再滿足于“聽”時,“說”的環(huán)節(jié)變得尤為重要,“怎么說”、“誰來說”成了關(guān)鍵按鈕。
而目前語音產(chǎn)品賽道逐漸進入了常規(guī)化模式,邀請明星出聲也成為了基本操作,相比傳統(tǒng)的機械式AI聲音,真人語音無論是在效果還是情感方面都是無可比擬的,再加上明星效應(yīng),用戶的體驗效果將來得更加直觀。
12月24日,百度地圖官方宣布湯唯正式簽約代言人,同時上線“湯唯導(dǎo)航語音”。在“說”的領(lǐng)域,百度地圖這款“新一代人工智能地圖”又邁出了一步。
從語音導(dǎo)航到湯唯定制語音,百度地圖“AI+女神”到底進化了什么
傳統(tǒng)語音導(dǎo)航,是單調(diào)無聊的,定制語音將其變?yōu)榱诉^去式。擁有湯唯的柔美聲音作為導(dǎo)航,在體驗上有什么差別?當(dāng)“前方路段交通擁擠,請小心駕駛”變成“前方行駛緩慢,慢慢欣賞路上風(fēng)景”,會不會覺得這才是“人性化”服務(wù)?
1、擺脫中性,湯唯帶給我們的不只是女神之聲
很多人會問,一定要給AI加上性別嗎?不,AI不一定需要性別,但語音最好有。
以往我們聽到的AI語音都是機械式的聲音,是“中性”或者說是“無性”的聲音,帶來的問題也很直接,就是太冰冷、沒個性。之前也有說到,目前個性化、表現(xiàn)力正是語音合成所追求的方向之一,所以百度地圖帶來的湯唯語音也就不止是一款語音那么簡單。可以說湯唯語音從一個功能點體現(xiàn)出結(jié)合了人工智能的百度地圖正在變得越來越強大。
聲音具有和視覺傳達一樣很強的感染力,甚至有時,以聲音為主的交互會帶來更好的沉浸感。
并且語音合成研究已開始從文字到語音的轉(zhuǎn)換階段向概念到語音的轉(zhuǎn)換階段發(fā)展。所涉及的技術(shù)也更加復(fù)雜,百度地圖就是利用其深度神經(jīng)網(wǎng)絡(luò)技術(shù)、深度學(xué)習(xí)技術(shù),再結(jié)合車內(nèi)應(yīng)用場景進行打造。例如百度語音合成系統(tǒng)采用的全深度學(xué)習(xí)的框架,是在語音合成領(lǐng)域首次采用全深度學(xué)習(xí)框架,實現(xiàn)了語言合成上的個性化、口語化。
2、語音算法模型讓機器人性化
女神湯唯之所以能完成高質(zhì)量的語音包,語音合成技術(shù)功不可沒,在龐大的道路信息和交通數(shù)據(jù)之下,誰也無法通過直錄的方式通通記錄,這時就需要靠語音系統(tǒng)來支撐。
以湯唯語音包來說,就是先錄制湯唯聲音特點的第一手資料,錄制的語句包含一些常見的導(dǎo)航提示語句和一些覆蓋到常見的中文發(fā)音的句子。
其實無論語音還是文字,在計算機看來都是數(shù)字化的,語音合成模型的任務(wù)就是要建立這兩組數(shù)字之間的關(guān)系,通過一系列的計算,將文本的輸入轉(zhuǎn)化為語音的輸出。首先需要建立一個神經(jīng)網(wǎng)絡(luò)的模型,去學(xué)習(xí)湯唯錄制的語音和錄音文字之間的映射關(guān)系,就好比讓一個不會發(fā)音的孩子學(xué)湯唯說話。而在合成時,它就可以讀取導(dǎo)航語句,并大聲朗讀出來了。
AI浪潮之下,語言合成才是語音技術(shù)的高地
使電腦具有類似于人一樣的說話能力,是當(dāng)今時代信息產(chǎn)業(yè)的重要競爭市場,不過大家的注意力多集中在語音合成之外。
1、差點被忽略的“黃金”場景
目前,語音技術(shù)的應(yīng)用多為了語音喚醒和交互,在智能硬件和軟件上都有很多典型應(yīng)用——智能音箱、智能電視、智能掃地機器人、百度地圖、百度輸入法等等。但不可否認的是,智能硬件的側(cè)重仍在于“語音識別”,對于“語音合成”的應(yīng)用有,可還不夠深。
語音合成本是把文本經(jīng)一系列計算處理后輸出對應(yīng)音頻,通過機械的、電子的方法產(chǎn)生人造語音技術(shù)。因為完美的人機交互體驗無法忽略“說”的環(huán)節(jié),所以語音合成的重要性日益凸顯。
從早期的機械化語音合成開始發(fā)展至今,語音合成的應(yīng)用場景也經(jīng)歷了較大的轉(zhuǎn)變,以前語音合成應(yīng)用都是在相對單調(diào)的場景,現(xiàn)在應(yīng)用場景更加復(fù)雜,對于語音合成技術(shù)的要求自然變得更高。
例如,在有聲讀物方面,用戶需求越來越個性化,單調(diào)的機械聲已經(jīng)完全不夠;在機場、車站廣播等服務(wù)行業(yè),需要的是溫柔、甜美的音質(zhì);在辦事機構(gòu)、窗口機關(guān)又需要嚴謹、有力的聲音。而百度地圖上線湯唯語音,也是給在路上的用戶更加磁性、知性的嗓音。
在外部,車內(nèi)空間顯然是一塊“寶地”,車內(nèi)空間的交互可以說是市場剛需,截止到2018年9月,全國機動車保有量已經(jīng)達到了3.22億輛,機動車駕駛?cè)藬?shù)超過了4億人,交互價值巨大。
百度地圖等加速車內(nèi)空間交互,是將傳統(tǒng)的“室內(nèi)交互”做了外延,給百度帶來的也不僅僅是用戶層面的拓寬,更體現(xiàn)出百度搜索之外的野心。
2、技術(shù)上,語音合成一直是語音技術(shù)的高山和壁壘
語音合成可以說是人工智能的“嘴”,是人機交互的基礎(chǔ),一個沒有“嘴”的人工智能何談什么交互?
就現(xiàn)階段而言,語音識別已經(jīng)不再是語音技術(shù)的關(guān)鍵問題,很多產(chǎn)品的語音識別率都到達了95%以上。但在語音生成上,能讓機器說的話與人類說出來的話相近依舊很難,即便是一些簡單的詞組,你我也能一耳就聽出是機器合成的還是真人播報。
如果將語音合成技術(shù)拆解,可以分為文本分析、韻律分析和聲學(xué)分析三個部分,每一個部分都是技術(shù)難點。首先需要對文本進行解析,對文本的語言、字符進行分析,提取出文本特征;接著在文本信息的基礎(chǔ)上,要判斷文本信息字符間奏、長度、頻率等多種特征;然后通過聲學(xué)模型實現(xiàn)從前端參數(shù)到語音參數(shù)的映射,最后通過聲碼器合成語音。
而且,目前主流的語音合成方法為統(tǒng)計參數(shù)語音合成和波形拼接的語音合成,統(tǒng)計參數(shù)語音合成由前端文本分析、統(tǒng)計參數(shù)模型和聲碼器三個部分組成,對語料庫的時長要求較低且在合成目標波形時具有較高靈活性,但重建出來的語音比較機械,缺乏自然度。主要為聲碼器在對語音信號建模時舍棄了語音細節(jié),合成的語音相比原始語音丟失部分信息。
而百度地圖采用的百度語音合成系統(tǒng),可以將很多模塊用深度神經(jīng)網(wǎng)絡(luò)去實現(xiàn),有效解決了使用統(tǒng)計參數(shù)合成時所帶來的問題。
波形拼接的語音合成不使用聲碼器,直接通過拼接原始錄制語音片段來合成目標語音,相比參數(shù)法,合成的語音更加自然真實。由于直接面向語料庫操作,故對語料時長和基元種類具有較高要求。
當(dāng)然,當(dāng)語音流暢度達到人們預(yù)期時,也并不是完結(jié),音質(zhì)、自然度和情感等要素也依舊需要攻克。
就拿漢語語音合成來說,目前在單字和詞組一級上,合成語音的可懂度和自然度已基本解決,但是到句子乃至篇章一級時其自然度問題就比較大。
比如,國內(nèi)外大多數(shù)語音合成研究是針對文語轉(zhuǎn)換系統(tǒng),且只能解決以某種朗讀風(fēng)格將書面語言轉(zhuǎn)換成口語輸出,缺乏不同年齡、性別特征及語氣、語速的表現(xiàn),更不用說賦予個人的感*彩。
3、比起聽得清和聽得懂,“說得好”要求的是更懂人
正如上文所提到過的,目前大部分產(chǎn)品的語音識別率都達到了95%以上,卻無法像人類一樣表達,其根本原因就是還“不懂人”。
何為“懂人”?我們?nèi)伺c人之間可以從對方的音量、聲調(diào)、語速、用詞等方面聽懂對方的要求、情緒、心情、狀態(tài),這就是所謂的“懂人”。
說得直白點就是“情感表達”,這是目前而言語音合成技術(shù)需要攻克的關(guān)鍵要素。
想要達成這一目標,針對普通生活場景的語音合成是提高情感表達的最佳方式。目前使用語音合成技術(shù)播報下天氣或者閱讀簡訊,無疑能合成出完美的語音,但遇到生活化的場景,或者在特定氛圍之下,語音合成的效果就會降低很多。一方面由于系統(tǒng)對韻律信息的捕獲不準確,另一方面由于生成的聲學(xué)參數(shù)存在誤差。當(dāng)語音合成可以完美消化各類生活化的語境時,其應(yīng)用場景將得到極大的拓寬。
另外,在語音合成的應(yīng)用中,大多都是單人、單語言、單語音,如何能由單變多也是語音合成應(yīng)用中的一大困擾。在“3單”語境的限制下,語言合成技術(shù)難以完成應(yīng)用突破,而目前一些解決“3單”語境的解決方案也不夠完美,或多或少都存在瑕疵,并且也沒有足夠的語料素材來進行支撐。
如何使計算機算法能夠自適應(yīng)技術(shù)實現(xiàn)任意說話人、不同風(fēng)格的高質(zhì)量語音合成,如何充分挖掘不同語言的發(fā)音空間,在語料受限條件下實現(xiàn)多語言語音合成,也是語音合成現(xiàn)階段的一大挑戰(zhàn)。
百度地圖在深度神經(jīng)網(wǎng)絡(luò)技術(shù)的支撐下,已經(jīng)開始對“3單”語境作出反應(yīng),并已收到成效,百度語音合成開始支持中文英文混讀,可以提供數(shù)十種不同音色,更支持語速、音調(diào)、音量設(shè)置。這些技術(shù)活功能上的增加,無疑將給語音合成帶來更加廣闊的想象空間。
近年來,在語音技術(shù)行業(yè)中開始流行一句話:“得語音合成者得天下”,百度地圖此時牽手國民女神,導(dǎo)航語音全量上線似乎也在卡這個時間點。
語音技術(shù)個性化時代,百度地圖占領(lǐng)AI地圖高地
地圖從羊皮到紙卷,從PC到手機,其實一直在隨技術(shù)的進步而進化。放眼整個行業(yè),在人工智能浪潮下,百度地圖已經(jīng)走在了前列。語音合成上越來越講究個性化,個性化的需求就無法繞開大數(shù)據(jù)和AI,而在這兩個方面百度的經(jīng)驗正好合適。
1、湯唯女神的定制語音,不止是百度語音合成技術(shù)體現(xiàn)出情感特征的標志
賦予合成語音情感,讓合成語音表現(xiàn)出個性生理、心理等特點,是語音合成領(lǐng)域一個難題。
百度地圖在推出湯唯語音導(dǎo)航的同時,也足以證明其語音組技術(shù)能力的成熟。
神經(jīng)網(wǎng)絡(luò)的模型隨著百度技術(shù)經(jīng)驗的積累,也越來越精巧和高效。湯唯采用的模型,正是百度近期研發(fā)出的高質(zhì)量合成模型,具有很好的音質(zhì),音色還原度和自然度。
讓語音合成具備情感,還要建立多視角情感描述模型,需要描述認知、心理、生理等影響因素之間的關(guān)聯(lián)性,再通過語音頻譜特征表現(xiàn)出來。并且不能一廂情愿,還需要從用戶的角度模擬不同人群的使用習(xí)慣,偏好等。
而這一系列過程背后,是一套復(fù)雜且龐大的數(shù)據(jù)系統(tǒng)在支撐,百度之所以能夠完成還得益于百度地圖大數(shù)據(jù)的豐富。目前百度地圖覆蓋了全球209個國家及地區(qū)超過850萬公里道路里程,每日響應(yīng)位置服務(wù)近千億次等,這些正是百度語音組在打造語音合成技術(shù)時的基石。
2、兩款導(dǎo)航語音開始滿足個性化需求,百度地圖AI化已經(jīng)不再只是技術(shù)端
在今年3月,百度地圖事業(yè)部正式并入AI技術(shù)平臺體系(AIG),不僅是對其作為基礎(chǔ)性服務(wù)地位的肯定,也意味著百度地圖能夠獲得更直接的AI技術(shù)支持。
依托于整個百度,百度地圖在AI技術(shù)研發(fā)上處于先發(fā)行列,有著比較全面的AI技術(shù)積累,涵蓋語音、圖像、大數(shù)據(jù)智能等。
而“湯唯迷人語音”和“湯唯常規(guī)語音”兩款導(dǎo)航語音就能直觀體現(xiàn)出百度語音組在韻律模型、聲學(xué)模型預(yù)測(神經(jīng)網(wǎng)絡(luò)的模型)、彈性單元挑選技術(shù)等技術(shù)上的功力。
從AI技術(shù)應(yīng)用來看,百度地圖已經(jīng)表現(xiàn)出強大的AI能力,除了能提供實時路況、提前規(guī)劃路線,推測擁堵等智能地圖的“常規(guī)功能”外,百度地圖開始提供更加個性化的交互,例如,AR實景導(dǎo)航、全景地圖、旅游地圖、充電樁地圖、急救車讓行播報等個性化功,這些創(chuàng)新功能不止是聽覺還包括視覺上。值得一提的是,百度智能地圖還能夠“學(xué)習(xí)”不同路段對應(yīng)的交規(guī)信息,這一點是極具應(yīng)用價值的。
由此可見,百度地圖AI化已經(jīng)真正意義上實現(xiàn)了從技術(shù)端走到了應(yīng)用端。
結(jié)論
湯唯女神導(dǎo)航語音對于百度地圖而言是一個標志性事件,是在AI風(fēng)口下,百度地圖作出的重大變革之一,意味著百度地圖AI能力呈現(xiàn)立體化。
從楊洋到湯唯,百度地圖致力于展現(xiàn)地圖AI的先進性,一直不竭余力,智能語音助手作為一個輔助功能,對于其他地圖產(chǎn)品的無足輕重,百度地圖則是高度重視,僅在視覺提供上,百度地圖的語音助手就一定會是在最顯眼的位置,并且不止于輔助,百度為語音助手所寄予的是“交互”,充分發(fā)揮導(dǎo)航語音“聽”和“說”的能力。
如今,百度地圖邀請女神湯唯“獻聲”,無疑是給百度地圖語音的錦上添花,在打造新一代人工智能地圖上百度地圖又先行一步。
從以前的聽清、聽懂到滿足,發(fā)展到在滿足之后更有“反饋和應(yīng)變”。在交互方式上也由單一交互變?yōu)榱苏嬲碾p向交互。
同時在百度地圖“更精準、更豐富、更易用”的理念基礎(chǔ)上可以再加上一條“更具情感”。
在搶占智能地圖高地上,百度地圖已然領(lǐng)先。
*以上圖片來源于網(wǎng)絡(luò)。
【完】
智能相對論:深挖人工智能這口井,評出咸淡,講出黑白,道出vb深淺。重點關(guān)注領(lǐng)域:AI+醫(yī)療、機器人、智能駕駛、AI+硬件、物聯(lián)網(wǎng)、AI+金融、AI+安全、AR/VR、開發(fā)者以及背后的芯片、算法、人機交互等。
申請創(chuàng)業(yè)報道,分享創(chuàng)業(yè)好點子。點擊此處,共同探討創(chuàng)業(yè)新機遇!
2023年7月6日,第六屆世界人工智能大會(WAIC2023)在上海開幕,“人工智能大模型”是本屆大會的備受矚目的話題,據(jù)悉,在昇騰AI大模型的創(chuàng)新研發(fā)中,華為聯(lián)手26家行業(yè)領(lǐng)軍企業(yè),組建了一支協(xié)同創(chuàng)新的“AI明星隊”,云天勵飛作為中國人工智能企業(yè)的杰出代表,和互聯(lián)網(wǎng)大廠、運營商、科研院所等優(yōu)秀團隊
這幾個月來,以ChatGPT為代表的生成式AI展現(xiàn)出的能力令世界驚嘆。自從2016年AlphaGo戰(zhàn)勝李世石掀起了一波AI浪潮后,AI仿佛已經(jīng)沉寂了很久,ChatGPT的橫空出世就如同一束耀眼的光芒,讓AI這個名詞重回C位。過去在AI1.0時代,主要通過訓(xùn)練模型來實現(xiàn)圖像識別、聲音識別、語言處理等特
文:互聯(lián)網(wǎng)江湖作者:志剛2023年的IoT需要一個新故事。6月29日,涂鴉智能在開發(fā)者大會上,發(fā)布了企業(yè)級戰(zhàn)略PaaS2.0,希望通過一個平臺+四大開發(fā)服務(wù),建立起IoT生態(tài)。對于這場發(fā)布會,市場的態(tài)度是積極的。美東時間6月29日收盤,涂鴉智能美股股價上漲5.6%,來到1.87美元/股。近日股價穩(wěn)定
美團曾經(jīng)的二號人物王慧文對標OpenAI的創(chuàng)業(yè)項目光年之外,以20億賣給美團,再度引發(fā)市場對大模型的熱議。
2020年底,王慧文在朋友圈寫下這句話時,外界本以為這位伴隨中國互聯(lián)網(wǎng)發(fā)展而持續(xù)創(chuàng)業(yè)20年的人物即將告別創(chuàng)業(yè)舞臺。但是,一個曾經(jīng)多次創(chuàng)業(yè),正值壯年的互聯(lián)網(wǎng)老將心中的創(chuàng)業(yè)熱情是難以熄滅的。
蘋果16弄了兩個版本,一個是專門給中國人用的,準備用百度的AI,還要交錢。第二個是全世界都可以用的,用了ChatGPT,包括臺灣、香港、澳門都可以用。以后都這樣了。好,問題就出在這,蘋果和百度的合作出現(xiàn)問題了,新聞連起來看,才能明白其中含義。新聞一:蘋果正在和騰訊、字節(jié)初步接洽,考慮將二者的AI模型
“技術(shù)日新月異,人類生活方式正在快速轉(zhuǎn)變,這一切給人類歷史帶來了一系列不可思議的奇點。我們曾經(jīng)熟悉的一切,都開始變得陌生?!庇嬎銠C之父約翰·馮·諾依曼曾這樣說到。
“人工智能的商業(yè)模式,是要創(chuàng)造一個市場,而非一個算法”。這是世界AI泰斗MichaelI.Jordan的觀點。而當(dāng)前的全球AI市場,占據(jù)主導(dǎo)地位的中美雙方,卻也走出了兩條截然不同的技術(shù)路徑,前者執(zhí)著于前沿技術(shù)的探索,后者則發(fā)力應(yīng)用優(yōu)化和商業(yè)化落地。南轅北轍的兩個方向,或許已經(jīng)無法直接進行排位先后、優(yōu)
智能體進化發(fā)展了一年,現(xiàn)在的RPAAgent迭代到什么程度了?從實在智能最新發(fā)布的實在Agent7.0,看RPAAgent的迭代升級抓取豆瓣信息、自己制作PPT,這款A(yù)IAgent真的實現(xiàn)了流程全自動化AIAgent構(gòu)建到執(zhí)行全自動化,持續(xù)進化RPAAgent再次降低智能體應(yīng)用門檻實在智能重磅發(fā)布實
崔大寶|節(jié)點財經(jīng)創(chuàng)始人進入2024年,大模型似乎有熄火之勢:資本市場,與之關(guān)聯(lián)的概念炒不動了,英偉達股價動輒暴跌重挫,引發(fā)“泡沫戳破”的擔(dān)憂;消費市場,BATH們的推新活動少了,產(chǎn)品更新迭代的速度慢了,民眾的關(guān)注度降了……熱鬧的大概只剩下兩場酣仗:自5月15日字節(jié)跳動宣布“以厘計費”,打響國內(nèi)大模型
文|智能相對論作者|陳泊丞好消息!你心心念念的事業(yè)單位發(fā)錄取公告了!壞消息!他們沒錄你,錄了個數(shù)字人。圖片來源網(wǎng)絡(luò)隨著數(shù)字人技術(shù)的突破,越來越多的傳統(tǒng)企業(yè)和機構(gòu)開始用上了“數(shù)字員工”。甚至很多中國人心心念念的“鐵飯碗”,也被這些數(shù)字人給捧上了。數(shù)字人捧上了“鐵飯碗”簡單翻看一下全國各地事業(yè)單位的“錄
黑芝麻智能敲鐘后,港交所門口又有一些智駕芯片企業(yè)引發(fā)關(guān)注。據(jù)悉,近日地平線已通過中國證監(jiān)會IPO備案,擬發(fā)行不超過11.5億股境外上市普通股并在香港聯(lián)合交易所上市,預(yù)計籌集約5億美元資金。從天眼查可以了解到,該公司成立于2015年,是一家乘用車高級輔助駕駛(ADAS)和高階自動駕駛(AD)解決方案供
8月21日,萬眾矚目的2024世界機器人大會暨博覽會在北京亦創(chuàng)國際會展中心盛大開幕。這場為期5天,集“展覽”“論壇”“賽事”于一體的機器人盛會,反映了當(dāng)下機器人領(lǐng)域的繁榮生態(tài)。據(jù)官方統(tǒng)計數(shù)據(jù),今年現(xiàn)場逛展觀眾高達25萬人次,比去年增加25%。機器人行業(yè)有多火?看看2024世界機器人大會火爆程度便可知