AI語音已逐步滲透到了大眾的生活中,但是刻板的對話方式似乎還困擾著廣大用戶。
全雙工這個概念對人工智能行業(yè)從業(yè)者來講,并不陌生。談到全雙工,此前,谷歌Duplex幫助人們通過電話預約餐廳和理發(fā)師的功能,帶來了有趣的觀感體驗,在I/O 2019上,谷歌宣布對Duplex進行重大擴展。
谷歌Duplex
在推進對話交互智能的市場化應(yīng)用過程中,思必馳同樣發(fā)現(xiàn),自然流暢的對話體驗、類人化的交互體驗成為了絕對的剛需。
因此,具備以上兩個特點的全雙工語音交互技術(shù),成為了關(guān)注的焦點。思必馳聯(lián)合創(chuàng)始人、首席科學家俞凱,早在劍橋大學期間主導開發(fā)了全雙工口語對話系統(tǒng),2010年參加國際對話系統(tǒng)研究挑戰(zhàn)賽時,獲得可控測試的冠軍,這也是世界上最早的全雙工端到端口語對話系統(tǒng)之一。區(qū)別在于,與現(xiàn)在廣泛作用于物聯(lián)網(wǎng)智能終端設(shè)備的全雙工交互系統(tǒng)相比,當時的主要應(yīng)用,在基于電話信道的人機交互方面。
全雙工是個系統(tǒng)工程
作為系統(tǒng)工程,全雙工需要綜合利用語音語言技術(shù)的各個模塊,實現(xiàn)前后聯(lián)動,例如,其對前端信號處理、AEC回聲消除有強相關(guān)依賴,實時上傳的音頻對噪聲處理、音頻音質(zhì)要求較高,同時,作為系統(tǒng)工程,全雙工涉及到全鏈路語音交互的各個模塊,其同樣需要對識別后的識別信息、語義信息等進行綜合判斷及處理,并做出決策。
半雙工&全雙工
因此,全雙工交互技術(shù)的提升涉及到對話系統(tǒng)的各個模塊,不僅各個模塊的功能需要提升,模塊間的配合能力更需要完善。
思必馳在推進全雙工交互技術(shù)的市場落地過程中,發(fā)現(xiàn)了一個更有效的事情,“全雙工+語義拒識”讓交互體驗更加優(yōu)化。全雙工固然重要,但語義拒識算法,卻往往容易被人忽視。
語義拒識算法
受限于語音技術(shù)的發(fā)展,現(xiàn)有的對話系統(tǒng)受噪聲條件的影響非常明顯,缺乏穩(wěn)健性。在對話系統(tǒng)中,說話人的檢測和基于語義的拒識是其非常重要的組成部分。當說話人的語音模糊不清或者語音數(shù)據(jù)不在已有訓練集合中時,識別系統(tǒng)會產(chǎn)生識別錯誤,從而影響對話系統(tǒng)的識別和理解效果。
在半雙工狀態(tài)下,環(huán)境噪聲以及周圍人聲容易引起無效輸入,對話系統(tǒng)或錯誤響應(yīng),或給出“沒聽懂”的呆板播報,并且播報時不能打斷,十分影響交互效率。全雙工狀態(tài)下,對無實際語義的輸入則不會給出響應(yīng)。
拒識算法主要目的是去除沒有語義意義的音頻片段,節(jié)省后端處理的計算資源,提高整個對話系統(tǒng)的交互魯棒性,提升用戶使用體驗,避免錯誤的語義理解引發(fā)錯誤的反饋到用戶端。
思必馳語義拒識算法
思必馳拒識算法能夠解決的很多噪聲和無語義意義的問題,例如用戶無意義的嗯啊聲、背景噪聲與閑聊聲、純音樂聲、聲音幅度小、各種笑聲尖叫聲,無厘頭聲音等。
語義拒識對全雙工對話交互而言至關(guān)重要,可以說,拒識做不好,全雙工的效果往往也會差強人意。
思必馳全雙工交互技術(shù),更強的持續(xù)對話能力
思必馳全雙工交互技術(shù),讓更流暢的多輪對話成為常態(tài),說法更自由。
l連續(xù)交互免喚醒
過去,半雙工狀態(tài)下,用戶的跨領(lǐng)域交互每次交互都需要重新喚醒,于是,免喚醒技術(shù)成為改善體驗的焦點。近些年,免喚醒技術(shù)已不是新鮮方案,有的采用“便捷喚醒詞定制”,有的采用“喚醒+識別理解一體化”方案,但都存在著諸如“漏字”這類一系列的風險:
“你好小馳明天天氣如何?”
漏字通常出現(xiàn)在喚醒詞和后面識別文本連接的地方,也就是句子中段。當系統(tǒng)在識別過程中漏掉“明”字時,就會造成時間信息不清晰(“明天”還是“今天”?),系統(tǒng)無法明確用戶的真正時間指令。而現(xiàn)在,思必馳全雙工技術(shù)方案可實現(xiàn)一次喚醒,在多個領(lǐng)域持續(xù)交互,跨領(lǐng)域指代消解。
l動態(tài)斷句
在日常生活中,很多用戶說話會出現(xiàn)拖音現(xiàn)象,說話過程中,有思考/間斷的過程,因此會出現(xiàn)很多半截句,簡單粗暴的調(diào)整語音端點檢測閾值的做法往往會帶來對話卡頓的現(xiàn)象。
半雙工狀態(tài)下,對話系統(tǒng)設(shè)定了固定的停頓檢測時間,用戶還未表達完整句子稍微一猶豫/停頓,會被語音端點檢測系統(tǒng)誤斷句,造成輸入內(nèi)容不完整,機器無法理解。
思必馳全雙工交互技術(shù)則在云端根據(jù)用戶說話節(jié)奏和內(nèi)容,忽略無意義噪聲,動態(tài)斷句,既能保證用戶輸入的完整性,又能保證較快的響應(yīng)速度。在回復方面,則可以適時的回復“嗯”等接話話術(shù),系統(tǒng)打破了對用戶說話規(guī)則的要求,用戶可以按照自身的說話習慣來進行交流,交互過程更加人性化。
l語義打斷,避免誤打斷
在半雙工狀態(tài)下,語音合成播放時很難進行打斷,在一些終端設(shè)備上,行業(yè)內(nèi)普遍采用的打斷方式是“快捷喚醒詞打斷”,說法十分固定,無法泛化,需要定制多個喚醒詞,當用戶想打斷的時候,必須要重復喚醒詞,容易發(fā)生誤打斷。同時,對話打斷對環(huán)境有較高要求,在有噪聲的時候,也容易被誤打斷。
思必馳全雙工交互技術(shù)可在對話的過程中,實時語義打斷,不容易出現(xiàn)誤打斷,同時,對沒有語義的輸入,則不會打斷語音合成播放。
這一技術(shù)在智能客服的領(lǐng)域?qū)蟠蟾纳葡M者的體驗,消費者可以隨時隨刻打斷機器人客服的無效對話信息,進行信息咨詢。
如何判斷什么時候接話,什么時候反問,機器需要有智能決策的能力,這也是思必馳全雙工技術(shù)的一大特性:主動交互。根據(jù)用戶表達狀態(tài),如“正常說話”、“主動沉默”、“無意義表達”等狀態(tài),來給予相應(yīng)的主動反饋。
思必馳全雙工交互技術(shù)支持智能判斷,尤其是能夠主動打斷用戶的復雜冗長表達,主動打破沉默僵局,實現(xiàn)流暢自然的用戶口語交流習慣。當識別到用戶正常表達時,機器等待說完后答復反饋;當用戶大段無意義輸入或表達過于復雜時,會主動打斷并提示反問;在交互過程中,當用戶沉默時,則可以主動發(fā)起對話交互。
同時,經(jīng)過反復打磨和優(yōu)化,該技術(shù)對系統(tǒng)功耗幾乎無影響,實現(xiàn)低功耗下的最優(yōu)質(zhì)體驗。
思必馳全雙工語音交互
實踐,是檢驗真理的唯一標準
目前,思必馳全雙工交互技術(shù)已展開全線方案滲透,包括AIOT方案和企業(yè)信息智能服務(wù),深入作用汽車、家居、電子、教育、醫(yī)療、政務(wù)、金融、物流、酒店等場景。以音箱方案為例,接入全雙工系統(tǒng)后,這款“智能助理設(shè)備終端”將更似真人助理,更具備人類親和力的特質(zhì)和邏輯思維能力,整個對話體驗更加自然流暢。
思必馳業(yè)務(wù)場景
云端全雙工中控大腦持續(xù)優(yōu)化
針對全雙工交互技術(shù),思必馳將持續(xù)優(yōu)化云端全雙工中控大腦,持續(xù)進行策略優(yōu)化、場景優(yōu)化、單點技術(shù)模塊優(yōu)化,將交互體驗做的更好。
未來,多模態(tài)交互將會讓全雙工交互技術(shù)發(fā)揮更大的能量,配合聲紋識別、圖像處理、虹膜識別等技術(shù),過濾無用信息,人機交互會變得更加貼合人性,或許不遠的未來,你甚至分不清與你隔屏對話的,到底是人還是機器人。
申請創(chuàng)業(yè)報道,分享創(chuàng)業(yè)好點子。點擊此處,共同探討創(chuàng)業(yè)新機遇!
2023年7月6日,第六屆世界人工智能大會(WAIC2023)在上海開幕,“人工智能大模型”是本屆大會的備受矚目的話題,據(jù)悉,在昇騰AI大模型的創(chuàng)新研發(fā)中,華為聯(lián)手26家行業(yè)領(lǐng)軍企業(yè),組建了一支協(xié)同創(chuàng)新的“AI明星隊”,云天勵飛作為中國人工智能企業(yè)的杰出代表,和互聯(lián)網(wǎng)大廠、運營商、科研院所等優(yōu)秀團隊
這幾個月來,以ChatGPT為代表的生成式AI展現(xiàn)出的能力令世界驚嘆。自從2016年AlphaGo戰(zhàn)勝李世石掀起了一波AI浪潮后,AI仿佛已經(jīng)沉寂了很久,ChatGPT的橫空出世就如同一束耀眼的光芒,讓AI這個名詞重回C位。過去在AI1.0時代,主要通過訓練模型來實現(xiàn)圖像識別、聲音識別、語言處理等特
文:互聯(lián)網(wǎng)江湖作者:志剛2023年的IoT需要一個新故事。6月29日,涂鴉智能在開發(fā)者大會上,發(fā)布了企業(yè)級戰(zhàn)略PaaS2.0,希望通過一個平臺+四大開發(fā)服務(wù),建立起IoT生態(tài)。對于這場發(fā)布會,市場的態(tài)度是積極的。美東時間6月29日收盤,涂鴉智能美股股價上漲5.6%,來到1.87美元/股。近日股價穩(wěn)定
美團曾經(jīng)的二號人物王慧文對標OpenAI的創(chuàng)業(yè)項目光年之外,以20億賣給美團,再度引發(fā)市場對大模型的熱議。
2020年底,王慧文在朋友圈寫下這句話時,外界本以為這位伴隨中國互聯(lián)網(wǎng)發(fā)展而持續(xù)創(chuàng)業(yè)20年的人物即將告別創(chuàng)業(yè)舞臺。但是,一個曾經(jīng)多次創(chuàng)業(yè),正值壯年的互聯(lián)網(wǎng)老將心中的創(chuàng)業(yè)熱情是難以熄滅的。
百度AI團隊今日正式推出PaddleOCR3.1版本,以突破性的多語言組合識別(MultilingualCompositionPerception,MCP)技術(shù)為核心,徹底重構(gòu)復雜文檔處理邊界。此次升級標志著OCR領(lǐng)域首次實現(xiàn)對同一文檔內(nèi)任意混合語言文本的精準識別,為全球化企業(yè)、跨境業(yè)務(wù)及多元文化場
“宇樹已形成硬件、算法、場景聯(lián)動的業(yè)務(wù)飛輪,自研率超95%的技術(shù)壁壘讓其成為全球機器人賽道不可忽視的中國力量?!笔壮藤Y本管理合伙人朱方文在追加投資時如是評價。7月7日,據(jù)每日經(jīng)濟新聞從宇樹科技投資方處獲悉,國內(nèi)人形機器人領(lǐng)軍企業(yè)宇樹科技(UnitreeRobotics)已明確計劃于科創(chuàng)板IPO,預計
推理與多模態(tài)的終極融合,將徹底終結(jié)用戶在不同模型間切換的煩惱。7月7日,OpenAI正式確認將在今年夏季推出新一代人工智能模型GPT-5。這一突破性產(chǎn)品將整合現(xiàn)有的多個強大模型,特別是融合專注推理能力的“O系列”與具備多模態(tài)功能的“GPT系列”,為用戶提供前所未有的統(tǒng)一體驗。OpenAI開發(fā)者體驗負
高考一結(jié)束,忙壞了海內(nèi)外一眾大模型。豆包、DeepSeek、ChatGPT、元寶、文心一言、通義千問……掀起了一波“AI趕考”大戰(zhàn)。據(jù)悉,去年高考期間,大模型的成績才勉強過一本線,今年集體晉升985。據(jù)悉,豆包甚至過了清北的錄取線。頭部大模型在高考“考場”上玩得不亦樂乎,中小AI創(chuàng)企的處境卻日益尷尬
文/二風來源/節(jié)點財經(jīng)每年高考成績放榜后,數(shù)千萬考生和家長將迎來另一場硬仗——填報志愿。今年,這一領(lǐng)域迎來了AI的全面介入,多家互聯(lián)網(wǎng)大廠和教育公司紛紛推出智能志愿填報產(chǎn)品,為考生提供院校和專業(yè)選擇建議。據(jù)艾媒咨詢數(shù)據(jù),2023年中國高考志愿填報市場付費規(guī)模約9.5億元,近九成考生愿意借助志愿填報服
蘋果還沒從WWDC25的“群嘲”中走出,又迎來了一次新的痛擊。據(jù)路透社報道,21日,蘋果公司遭到股東集體起訴,被指在信息披露中低估了將先進生成式AI整合進語音助手Siri所需的時間,導致iPhone銷量受影響、股價下滑,構(gòu)成證券欺詐。在這份訴訟中,庫克、首席財務(wù)官凱文·帕雷克及前首席財務(wù)官盧卡·馬埃
華為的盤古大模型終于推出新版本了。6月20日華為云計算CEO張平安宣布基于CloudMatrix384超節(jié)點的新一代昇騰AI云服務(wù)全面上線,盤古大模型5.5同步發(fā)布。不過,當前國內(nèi)的AI大模型競爭可謂是相當激烈,華為的盤古大模型在眾多大模型中并不是十分出眾。華為云此次重磅推出的盤古大模型5.5能否從
一場沒有羅永浩的“羅永浩直播”,正在改寫帶貨規(guī)則當數(shù)字人羅永浩在百度直播間舉起青島啤酒,以標志性幽默回應(yīng)粉絲提問時,彈幕瘋狂刷出“這是真的還是假的?”的疑問。這場持續(xù)近7小時的直播,創(chuàng)下1300萬人次觀看、GMV突破5500萬元的驚人戰(zhàn)績,甚至超過了他本人一個月前真人直播5000萬元的成績。數(shù)字人主
高頻互動、個性化教學、突破成本壁壘,AI老師讓英語學習更普惠。6月24日,新東方正式推出面向消費者的首款原創(chuàng)AI教育產(chǎn)品——“新東方AI1對1”。這款產(chǎn)品標志著新東方在教育+AI戰(zhàn)略布局中邁出關(guān)鍵一步,旨在以科技力量推動優(yōu)質(zhì)教育資源的普惠發(fā)展。在發(fā)布會現(xiàn)場,新東方教育科技集團CEO周成剛表示:“AI
大家好,我是白楊SEO,專注SEO十年以上,全網(wǎng)SEO流量實戰(zhàn)派,AI搜索優(yōu)化研究者。為什么想分享這個AI工作流及coze扣子這個?因為我們搞流量的如果學會了用AI給我們生產(chǎn)提效將更有助于我們?nèi)カ@客。目前白楊SEO用得并不是很好,分享僅供參考,希望給你一些啟發(fā)。老規(guī)矩,先說下文章大綱如下:1、AI工