123,123

羅技和百度AI這對跨界組合，正在重新定義語音輸入。

4月13日，全球著名云周邊設(shè)備供應(yīng)商羅技推出了一款“語音鼠標(biāo)”，在百度AI的優(yōu)先賦能下，用戶點(diǎn)擊鼠標(biāo)上的語音鍵就能進(jìn)行語音輸入，不僅在PC端實(shí)現(xiàn)了中英文自由夾雜語音輸入，還可以實(shí)時(shí)進(jìn)行多種語言的語音翻譯。

其實(shí)類似的概念并非是羅技首創(chuàng)。早在兩年多前就出現(xiàn)了主打“語音輸入”的鍵鼠類產(chǎn)品，諸如“智能鼠標(biāo)”的概念也被多家品牌借用，但無一成為現(xiàn)象級的爆款產(chǎn)品，PC端語音輸入的用戶習(xí)慣也無從談起。

百度AI為何要在這個(gè)時(shí)候進(jìn)行跨界，并選擇牽手羅技這樣的市場領(lǐng)導(dǎo)者，背后到底隱藏了什么樣的野心?

01 知易行難的語音輸入

人類對語音輸入似乎有著天生的執(zhí)念。

早在2000年前后，個(gè)人電腦還屬于少數(shù)人的玩物，IBM推出的軟件工具ViaVoice就開始風(fēng)靡全球。按照IBM的設(shè)想，ViaVoice將在人與機(jī)器之間擔(dān)當(dāng)“翻譯”，只要一句話就能編排文本格式、控制桌面、操作程序、發(fā)送Email……

雖然IBM解放雙手的革命未能如愿，卻為整整一代人種下了“動口不動手”的交互理念。比如在2018年的時(shí)候，羅永浩推出了宣稱是“下一代個(gè)人電腦”的TNT，試圖將IBM講述的“美麗童話”從傳說變成現(xiàn)實(shí)。遺憾的是，老羅的TNT乃至后面推出的“智能鼠標(biāo)”，都和ViaVoice一樣成了被懷舊的對象。

為何語音輸入一度成了懸而未決的世紀(jì)難題?可以找到三個(gè)直接相關(guān)的痛點(diǎn)。

一是連續(xù)語音輸入的“尷尬”。

語音輸入并非沒有落地的場景，和智能音箱的語音交互、聊天時(shí)的語音識別等等，可以說是屢見不鮮的場景，然而切換到辦公時(shí)長篇幅的連續(xù)輸入，現(xiàn)有的語音識別模型常常出現(xiàn)“宕機(jī)”的問題。

時(shí)間追溯2015年，注意力模型已經(jīng)是語音識別的主流技術(shù)，在語音識別的準(zhǔn)確率方面有了突破性的進(jìn)展，但注意力模型大多是基于整句的建模，通過機(jī)器學(xué)習(xí)選擇和當(dāng)前建模單元最匹配的特征，導(dǎo)致句子越長識別難度就越大，出錯的概率也就越高，同時(shí)還伴隨著較長的用戶等待時(shí)間。

二是遠(yuǎn)場語音識別的不足。

網(wǎng)上流傳著使用TNT工作站的段子：想要在辦公室里用語音操作TNT，先要提前喊一聲“安靜”，讓周邊的同事自動進(jìn)入到消聲狀態(tài)，不然TNT可能不知道是誰在說話，語音識別的準(zhǔn)確率讓人堪憂。

背后牽涉到的是遠(yuǎn)場語音識別技術(shù)，如果目標(biāo)聲源距離拾音器比較遠(yuǎn)，將導(dǎo)致目標(biāo)信號衰減嚴(yán)重，加上嘈雜的外部環(huán)境制造了太多的干擾信號，最終導(dǎo)致信噪比較低、語音識別性能比較差。我們已經(jīng)習(xí)慣在手機(jī)上對著麥克風(fēng)說話，但不可能以趴在電腦上的姿勢對著屏幕進(jìn)行語音輸入。

三是語言混合輸入的難題。

即使不考慮長句子連續(xù)輸入和遠(yuǎn)場識別的問題，日益進(jìn)化的語言習(xí)慣也一度制約語音輸入的普及。就像很多人在工作中常常出現(xiàn)中英詞匯混用的情況，或者有時(shí)候飚一句方言，都可能難倒識別工具。

盡管一些語音識別工具推出了多種語言的識別模型，可在過去很長一段時(shí)間里，需要用戶先手動切換至想要識別的語言，比如你想要用四川話進(jìn)行語音輸入，先要到輸入法的設(shè)置中將語言設(shè)定為四川話，說普通話的時(shí)候再去切換回來。不僅進(jìn)一步增加了用戶的學(xué)習(xí)成本，體驗(yàn)也不盡如人意。

在種種待解痛點(diǎn)的制約下，語音輸入的想象固然美好，但前提是進(jìn)行一場技術(shù)上的長征?？梢宰糇C的是，微軟剛剛以197億美元的價(jià)格收購了Siri背后的語音技術(shù)玩家Nuance，計(jì)劃將Nuance的語音識別技術(shù)和旗下其他產(chǎn)品整合，以接棒在技術(shù)和場景上落后而被迫默默退場的Cortana。

02 百度AI的三步走戰(zhàn)略

而在語音技術(shù)的賽道上，百度已經(jīng)奔跑了十年。

2010年百度正式成立了語音團(tuán)隊(duì)，主要研發(fā)百度語音識別、語音合成等在內(nèi)的一系列核心技術(shù)，并逐步將百度的語音技術(shù)應(yīng)用于小度智能音箱、百度輸入法、小度車載助手、百度智能語音呼叫中心等產(chǎn)品。

不過在PC端語音輸入的話題上，百度AI在很長時(shí)間里并未追逐“智能硬件”的風(fēng)口，默默制定了語音技術(shù)的三步走戰(zhàn)略：

第一階段，語音識別算法的持續(xù)打磨。

為了解決連續(xù)語音輸入的痛點(diǎn)，百度AI的工程師們在注意力模型的基礎(chǔ)上，創(chuàng)新性地提出了流式多級截?cái)嘧⒁饬δＰ蚐MLTA，利用CTC算法對連續(xù)語音流進(jìn)行截?cái)?，然后對每一個(gè)小段的語音進(jìn)行建模，把原來整句的建模，變成了局部語音小段的建模。這樣用戶話音一落就可以拿到識別結(jié)果，保證了最佳的用戶體驗(yàn)。

同時(shí)百度AI還針對語言混合輸入進(jìn)行了算法優(yōu)化，羅技推出的“語音鼠標(biāo)”VOICE M380就支持8種語言的語音翻譯，首次通過羅技鼠標(biāo)在PC上實(shí)現(xiàn)了中英文自由夾雜語音輸入，以及粵語、四川話、東北話、河南話等7種方言免切換混合輸入。

第二階段，一體化的端到端建模技術(shù)。

市場上常見的遠(yuǎn)場語音識別技術(shù)，往往將麥克風(fēng)陣列作為拾音器，然后利用多通道語音信號處理技術(shù)增強(qiáng)目標(biāo)信號。這種先語音增強(qiáng)后語音識別的思路，在一定程度上提高了識別的準(zhǔn)確率，但增強(qiáng)目標(biāo)和優(yōu)化目標(biāo)可能并不一致。

百度AI的思路是“語音增強(qiáng)和語音聲學(xué)建模一體化”的端到端建模，并提出了基于復(fù)數(shù)CNN的遠(yuǎn)場端到端建模方案，利用復(fù)數(shù)CNN 網(wǎng)絡(luò)挖掘生理信號本質(zhì)特征的特點(diǎn)，直接對原始的多通道語音信號進(jìn)行多尺度多層次的信息抽取，避免了由于定位出錯而導(dǎo)致識別準(zhǔn)確率急劇下降的問題，最終遠(yuǎn)場語音識別的錯誤率降低了30%以上。

第三階段，自研芯片加速產(chǎn)業(yè)化落地。

語音輸入的隱形制約還有算力和功耗。在語音技術(shù)從云端競爭向芯片端延伸的趨勢下，算力直接關(guān)系著用戶體驗(yàn)，但傳統(tǒng)芯片的平均功耗在1W以上，算力和功耗的兩難，進(jìn)一步制約了語音輸入的應(yīng)用場景。

在提出端到端的一體化方案后，百度AI將目光瞄向了芯片端。在2019年發(fā)布了首款針對遠(yuǎn)場語音交互研發(fā)的鴻鵠芯片，通過端到端的軟硬一體化框架，將所有語音交互任務(wù)集中到一顆低功耗語音交互芯片上，提取的語音特征直接在云端進(jìn)行高精準(zhǔn)識別。目前鴻鵠芯片的平均功耗只有100mw，完全滿足3C產(chǎn)品0.5W的待機(jī)標(biāo)準(zhǔn)。

和智能語音同時(shí)進(jìn)化的，還有百度AI的機(jī)器翻譯，過去十年中在大規(guī)模產(chǎn)業(yè)化機(jī)器翻譯模型、海量翻譯知識獲取、多語言翻譯統(tǒng)一框架、機(jī)器同聲傳譯等方面進(jìn)行了系統(tǒng)而深入的研究。特別是基于神經(jīng)網(wǎng)絡(luò)的多語言翻譯統(tǒng)一框架，在全世界范圍內(nèi)首次實(shí)現(xiàn)了203種語言的互譯。

百度AI圍繞智能語音和機(jī)器翻譯的戰(zhàn)略布局佐證了這樣一個(gè)事實(shí)：技術(shù)賽道并非是閉門造車，百度AI對羅技的優(yōu)先賦能，正是精準(zhǔn)把握產(chǎn)業(yè)化需求的體現(xiàn)。

03 產(chǎn)業(yè)化的大航海時(shí)代

消除了用戶體驗(yàn)上的痛點(diǎn)，百度AI開啟了語音技術(shù)的產(chǎn)業(yè)化進(jìn)程。

百度AI和羅技跨界推出主打語音技術(shù)的“鼠標(biāo)”，不失為一次有示范效應(yīng)的練兵。正如前面所提到的，從IBM的ViaVoice開始算起，語音輸入在PC上的應(yīng)用已經(jīng)持續(xù)了20多年，期間誕生了形形色色的軟硬件產(chǎn)品，但未能改變“鍵鼠”的市場地位，大多數(shù)新奇的產(chǎn)品最終被人們選擇性遺忘。

百度AI和羅技則為語音輸入開啟新的篇章。

一方面，目前百度AI的中文語音識別率已經(jīng)達(dá)到98.6%，背后是人機(jī)交互效率的再次刷新。比如大多數(shù)打字員每分鐘輸入的字?jǐn)?shù)在80到200之間，而百度AI的語音輸入在實(shí)驗(yàn)室環(huán)境中可以達(dá)到每分鐘400字，何況語音輸入的門檻相對更低，小孩子、老人、視覺障礙人群等特殊人群也可以使用，人機(jī)交互的成本和效率都在被拉平。

另一方面，百度AI和羅技的跨界為語音輸入找到了新的應(yīng)用場景：除了單純的文字輸入場景外，還可以用于會議、演講、采訪等場景下的文字記錄;語音翻譯功能緊緊貼合了當(dāng)前辦公場景中，和外國同事、客戶等跨語言溝通交流的需求……相較于20多年前替代鍵盤的單一訴求，語音輸入的價(jià)值正越來越多元，應(yīng)用場景也越來越廣泛。

進(jìn)一步深挖的話，百度AI和羅技的跨界不僅為語音輸入的“夢想”畫了一個(gè)句號，正式推出的“語音輸入服務(wù)”，也為智能語音的產(chǎn)業(yè)化提供了新的思路。

語音技術(shù)之所以被頻頻聚焦，原因在于語音正在逐步改變固有的人機(jī)交互習(xí)慣，并且已經(jīng)在家庭、車載等場景中被驗(yàn)證。正如鼠標(biāo)、觸摸屏等曾經(jīng)引發(fā)的浪潮，語音交互大概率將催生出新的生態(tài)，而那些無法適應(yīng)新趨勢及時(shí)迭代進(jìn)化的產(chǎn)品，不排除一步步被市場所淘汰的可能。

于是“+AI”漸漸成了行業(yè)的熱門話題，幾乎所有的行業(yè)都在思考利用AI降本增效或轉(zhuǎn)型升級。百度代表的人工智能領(lǐng)頭羊也逐漸意識到：人工智能的使命不是顛覆或重構(gòu)一個(gè)行業(yè)，而是幫助行業(yè)找尋新的增長動能。

對應(yīng)的動作就是百度大腦在6.0時(shí)的升級，作為百度AI多年技術(shù)積累和產(chǎn)業(yè)實(shí)踐的集大成，百度大腦被定義為中國智能經(jīng)濟(jì)的基座，試圖通過軟硬一體的能力輸出，避免合作伙伴們一次次重復(fù)造輪子。其中語音能力恰是百度大腦的核心優(yōu)勢之一，每天的調(diào)用量早已超過155億次。

百度AI對羅技軟硬一體的優(yōu)先賦能，和百度大腦加速產(chǎn)業(yè)智能化升級的戰(zhàn)略不無關(guān)系。不同于行業(yè)中常見的兜售算法形式的合作，百度AI針對羅技桌面級的場景進(jìn)行了單獨(dú)的優(yōu)化和適配，并選擇以軟硬一體的方式幫助羅技打造真正的殺手級產(chǎn)品，在產(chǎn)品力和用戶體驗(yàn)上形成獨(dú)一無二的技術(shù)壁壘。

而當(dāng)羅技這樣的行業(yè)領(lǐng)導(dǎo)者主動擁抱百度AI，也在某種程度上預(yù)示著智能語音的產(chǎn)業(yè)化開始進(jìn)入大航海時(shí)代。

04 寫在最后

百度AI x 羅技的范式，為智能語音的落地撕開了一道口子。

可以預(yù)見的是，鼠標(biāo)絕不會是二者跨界的唯一產(chǎn)品，后續(xù)百度AI的智能語音將逐步兼容更多的羅技產(chǎn)品;同時(shí)羅技也不會是唯一加入到“+AI”行列的品牌，語音技術(shù)在各行各業(yè)的應(yīng)用落地進(jìn)程正在加速。

借用一句古話來說：“舊時(shí)王謝堂前燕，飛入尋常百姓家”。在百度AI持續(xù)對外賦能的姿態(tài)下，我們的生活正逐步被AI改變。

申請創(chuàng)業(yè)報(bào)道，分享創(chuàng)業(yè)好點(diǎn)子。點(diǎn)擊此處，共同探討創(chuàng)業(yè)新機(jī)遇！

當(dāng)前位置：首頁 > 科技 > IT業(yè)界 > 正文

百度AI賦能羅技背后，語音輸入產(chǎn)業(yè)走過的長征路

相關(guān)文章

甌江論道：AI賦能綠色發(fā)展

王通：未來個(gè)人創(chuàng)業(yè)的十個(gè)機(jī)會

百度智能云PaddleOCR 3.1正式發(fā)布：關(guān)鍵能力支持MCP

AI工具導(dǎo)航網(wǎng)站，未來的發(fā)展前景怎么樣？

微信AI搜索被指“強(qiáng)行開盒”：名字成了數(shù)據(jù)入口，騰訊回應(yīng)“僅用公開信息”

熱門排行

信息推薦

編輯推薦

阿里一元店是新解“囊”雜貨鋪？

億企聯(lián)解答互聯(lián)網(wǎng)廣告的存在意義何在？

熱門標(biāo)簽