AI語音已逐步滲透到了大眾的生活中,但是刻板的對話方式似乎還困擾著廣大用戶。
全雙工這個概念對人工智能行業(yè)從業(yè)者來講,并不陌生。談到全雙工,此前,谷歌Duplex幫助人們通過電話預(yù)約餐廳和理發(fā)師的功能,帶來了有趣的觀感體驗,在I/O 2019上,谷歌宣布對Duplex進(jìn)行重大擴(kuò)展。

谷歌Duplex
在推進(jìn)對話交互智能的市場化應(yīng)用過程中,思必馳同樣發(fā)現(xiàn),自然流暢的對話體驗、類人化的交互體驗成為了絕對的剛需。
因此,具備以上兩個特點的全雙工語音交互技術(shù),成為了關(guān)注的焦點。思必馳聯(lián)合創(chuàng)始人、首席科學(xué)家俞凱,早在劍橋大學(xué)期間主導(dǎo)開發(fā)了全雙工口語對話系統(tǒng),2010年參加國際對話系統(tǒng)研究挑戰(zhàn)賽時,獲得可控測試的冠軍,這也是世界上最早的全雙工端到端口語對話系統(tǒng)之一。區(qū)別在于,與現(xiàn)在廣泛作用于物聯(lián)網(wǎng)智能終端設(shè)備的全雙工交互系統(tǒng)相比,當(dāng)時的主要應(yīng)用,在基于電話信道的人機(jī)交互方面。
全雙工是個系統(tǒng)工程
作為系統(tǒng)工程,全雙工需要綜合利用語音語言技術(shù)的各個模塊,實現(xiàn)前后聯(lián)動,例如,其對前端信號處理、AEC回聲消除有強(qiáng)相關(guān)依賴,實時上傳的音頻對噪聲處理、音頻音質(zhì)要求較高,同時,作為系統(tǒng)工程,全雙工涉及到全鏈路語音交互的各個模塊,其同樣需要對識別后的識別信息、語義信息等進(jìn)行綜合判斷及處理,并做出決策。

半雙工&全雙工
因此,全雙工交互技術(shù)的提升涉及到對話系統(tǒng)的各個模塊,不僅各個模塊的功能需要提升,模塊間的配合能力更需要完善。
思必馳在推進(jìn)全雙工交互技術(shù)的市場落地過程中,發(fā)現(xiàn)了一個更有效的事情,“全雙工+語義拒識”讓交互體驗更加優(yōu)化。全雙工固然重要,但語義拒識算法,卻往往容易被人忽視。
語義拒識算法
受限于語音技術(shù)的發(fā)展,現(xiàn)有的對話系統(tǒng)受噪聲條件的影響非常明顯,缺乏穩(wěn)健性。在對話系統(tǒng)中,說話人的檢測和基于語義的拒識是其非常重要的組成部分。當(dāng)說話人的語音模糊不清或者語音數(shù)據(jù)不在已有訓(xùn)練集合中時,識別系統(tǒng)會產(chǎn)生識別錯誤,從而影響對話系統(tǒng)的識別和理解效果。
在半雙工狀態(tài)下,環(huán)境噪聲以及周圍人聲容易引起無效輸入,對話系統(tǒng)或錯誤響應(yīng),或給出“沒聽懂”的呆板播報,并且播報時不能打斷,十分影響交互效率。全雙工狀態(tài)下,對無實際語義的輸入則不會給出響應(yīng)。
拒識算法主要目的是去除沒有語義意義的音頻片段,節(jié)省后端處理的計算資源,提高整個對話系統(tǒng)的交互魯棒性,提升用戶使用體驗,避免錯誤的語義理解引發(fā)錯誤的反饋到用戶端。

思必馳語義拒識算法
思必馳拒識算法能夠解決的很多噪聲和無語義意義的問題,例如用戶無意義的嗯啊聲、背景噪聲與閑聊聲、純音樂聲、聲音幅度小、各種笑聲尖叫聲,無厘頭聲音等。
語義拒識對全雙工對話交互而言至關(guān)重要,可以說,拒識做不好,全雙工的效果往往也會差強(qiáng)人意。
思必馳全雙工交互技術(shù),更強(qiáng)的持續(xù)對話能力
思必馳全雙工交互技術(shù),讓更流暢的多輪對話成為常態(tài),說法更自由。
l連續(xù)交互免喚醒
過去,半雙工狀態(tài)下,用戶的跨領(lǐng)域交互每次交互都需要重新喚醒,于是,免喚醒技術(shù)成為改善體驗的焦點。近些年,免喚醒技術(shù)已不是新鮮方案,有的采用“便捷喚醒詞定制”,有的采用“喚醒+識別理解一體化”方案,但都存在著諸如“漏字”這類一系列的風(fēng)險:
“你好小馳明天天氣如何?”
漏字通常出現(xiàn)在喚醒詞和后面識別文本連接的地方,也就是句子中段。當(dāng)系統(tǒng)在識別過程中漏掉“明”字時,就會造成時間信息不清晰(“明天”還是“今天”?),系統(tǒng)無法明確用戶的真正時間指令。而現(xiàn)在,思必馳全雙工技術(shù)方案可實現(xiàn)一次喚醒,在多個領(lǐng)域持續(xù)交互,跨領(lǐng)域指代消解。
l動態(tài)斷句
在日常生活中,很多用戶說話會出現(xiàn)拖音現(xiàn)象,說話過程中,有思考/間斷的過程,因此會出現(xiàn)很多半截句,簡單粗暴的調(diào)整語音端點檢測閾值的做法往往會帶來對話卡頓的現(xiàn)象。
半雙工狀態(tài)下,對話系統(tǒng)設(shè)定了固定的停頓檢測時間,用戶還未表達(dá)完整句子稍微一猶豫/停頓,會被語音端點檢測系統(tǒng)誤斷句,造成輸入內(nèi)容不完整,機(jī)器無法理解。
思必馳全雙工交互技術(shù)則在云端根據(jù)用戶說話節(jié)奏和內(nèi)容,忽略無意義噪聲,動態(tài)斷句,既能保證用戶輸入的完整性,又能保證較快的響應(yīng)速度。在回復(fù)方面,則可以適時的回復(fù)“嗯”等接話話術(shù),系統(tǒng)打破了對用戶說話規(guī)則的要求,用戶可以按照自身的說話習(xí)慣來進(jìn)行交流,交互過程更加人性化。
l語義打斷,避免誤打斷
在半雙工狀態(tài)下,語音合成播放時很難進(jìn)行打斷,在一些終端設(shè)備上,行業(yè)內(nèi)普遍采用的打斷方式是“快捷喚醒詞打斷”,說法十分固定,無法泛化,需要定制多個喚醒詞,當(dāng)用戶想打斷的時候,必須要重復(fù)喚醒詞,容易發(fā)生誤打斷。同時,對話打斷對環(huán)境有較高要求,在有噪聲的時候,也容易被誤打斷。
思必馳全雙工交互技術(shù)可在對話的過程中,實時語義打斷,不容易出現(xiàn)誤打斷,同時,對沒有語義的輸入,則不會打斷語音合成播放。
這一技術(shù)在智能客服的領(lǐng)域?qū)蟠蟾纳葡M者的體驗,消費者可以隨時隨刻打斷機(jī)器人客服的無效對話信息,進(jìn)行信息咨詢。
如何判斷什么時候接話,什么時候反問,機(jī)器需要有智能決策的能力,這也是思必馳全雙工技術(shù)的一大特性:主動交互。根據(jù)用戶表達(dá)狀態(tài),如“正常說話”、“主動沉默”、“無意義表達(dá)”等狀態(tài),來給予相應(yīng)的主動反饋。
思必馳全雙工交互技術(shù)支持智能判斷,尤其是能夠主動打斷用戶的復(fù)雜冗長表達(dá),主動打破沉默僵局,實現(xiàn)流暢自然的用戶口語交流習(xí)慣。當(dāng)識別到用戶正常表達(dá)時,機(jī)器等待說完后答復(fù)反饋;當(dāng)用戶大段無意義輸入或表達(dá)過于復(fù)雜時,會主動打斷并提示反問;在交互過程中,當(dāng)用戶沉默時,則可以主動發(fā)起對話交互。
同時,經(jīng)過反復(fù)打磨和優(yōu)化,該技術(shù)對系統(tǒng)功耗幾乎無影響,實現(xiàn)低功耗下的最優(yōu)質(zhì)體驗。

思必馳全雙工語音交互
實踐,是檢驗真理的唯一標(biāo)準(zhǔn)
目前,思必馳全雙工交互技術(shù)已展開全線方案滲透,包括AIOT方案和企業(yè)信息智能服務(wù),深入作用汽車、家居、電子、教育、醫(yī)療、政務(wù)、金融、物流、酒店等場景。以音箱方案為例,接入全雙工系統(tǒng)后,這款“智能助理設(shè)備終端”將更似真人助理,更具備人類親和力的特質(zhì)和邏輯思維能力,整個對話體驗更加自然流暢。

思必馳業(yè)務(wù)場景
云端全雙工中控大腦持續(xù)優(yōu)化
針對全雙工交互技術(shù),思必馳將持續(xù)優(yōu)化云端全雙工中控大腦,持續(xù)進(jìn)行策略優(yōu)化、場景優(yōu)化、單點技術(shù)模塊優(yōu)化,將交互體驗做的更好。
未來,多模態(tài)交互將會讓全雙工交互技術(shù)發(fā)揮更大的能量,配合聲紋識別、圖像處理、虹膜識別等技術(shù),過濾無用信息,人機(jī)交互會變得更加貼合人性,或許不遠(yuǎn)的未來,你甚至分不清與你隔屏對話的,到底是人還是機(jī)器人。
申請創(chuàng)業(yè)報道,分享創(chuàng)業(yè)好點子。點擊此處,共同探討創(chuàng)業(yè)新機(jī)遇!
2025年10月25日,2025世界青年科學(xué)家峰會之人工智能(AI)融合創(chuàng)新發(fā)展論壇在浙江溫州成功舉辦。本次論壇由國際院士科創(chuàng)中心主辦,中國投資協(xié)會能源投資專業(yè)委員會、溫港院士科創(chuàng)中心承辦,中國電工技術(shù)學(xué)會、中科先進(jìn)技術(shù)溫州研究院與溫州市電力工程學(xué)會提供支持,以“甌江論道-AI賦能綠色發(fā)展”為主題,
個人創(chuàng)業(yè)需要啟動成本低、無需龐大團(tuán)隊、可快速驗證、能利用個人技能或資源。這里分享適合個人創(chuàng)業(yè)的十個機(jī)會一.AI內(nèi)容優(yōu)化與本地化服務(wù)·做什么:幫助企業(yè)或個人利用AI工具(如GPT-4,Midjourney)優(yōu)化內(nèi)容生產(chǎn)流程。例如,為跨境電商撰寫多語言產(chǎn)品描述,為小紅書博主生成爆款文案,為小公司制作營銷
百度AI團(tuán)隊今日正式推出PaddleOCR3.1版本,以突破性的多語言組合識別(MultilingualCompositionPerception,MCP)技術(shù)為核心,徹底重構(gòu)復(fù)雜文檔處理邊界。此次升級標(biāo)志著OCR領(lǐng)域首次實現(xiàn)對同一文檔內(nèi)任意混合語言文本的精準(zhǔn)識別,為全球化企業(yè)、跨境業(yè)務(wù)及多元文化場
導(dǎo)航網(wǎng)站的崛起:從信息過載到精準(zhǔn)觸達(dá)隨著全球AI工具數(shù)量爆發(fā)式增長(2025年已超數(shù)萬款),用戶面臨前所未有的選擇困境。傳統(tǒng)搜索引擎的“關(guān)鍵詞-鏈接”模式難以應(yīng)對工具篩選的場景需求,垂直化、場景化的AI導(dǎo)航網(wǎng)站應(yīng)運而生。這類平臺通過聚合、評測、分類與推薦四重機(jī)制,將分散的工具資源整合為結(jié)構(gòu)化入口。例
當(dāng)微信公眾號文章中出現(xiàn)一個人的名字,它會自動變成藍(lán)色鏈接,點擊即可查看AI生成的“個人簡歷”——這一微信新功能讓不少用戶感到被“扒光”在互聯(lián)網(wǎng)上。近日,微信新上線的“AI搜索”功能陷入隱私泄露爭議漩渦。多位網(wǎng)友在社交平臺反映,當(dāng)微信公眾號推文中出現(xiàn)本人姓名時,名字會自動變?yōu)樗{(lán)色超鏈接,點擊即可瀏覽由
4月2日,字節(jié)跳動旗下火山引擎在武漢舉行的AI創(chuàng)新巡展上宣布,Seedance2.0API正式面向企業(yè)用戶開啟公測。同時,火山引擎總裁譚待在會上披露,截至今年3月,豆包大模型日均Token使用量已突破120萬億,在過去三個月內(nèi)增長一倍,比2024年5月發(fā)布時增長1000倍。Seedance2.0:從
養(yǎng)AI小龍蝦的路上,坑不少。有人被代裝服務(wù)騙了錢,有人電腦中了毒,有人收到天價賬單,還有人發(fā)現(xiàn)AI“失控”了,開始亂刪文件。如果你也遇到這些糟心事,別慌。下面這份“養(yǎng)蝦應(yīng)急包”,告訴你第一時間該做什么。場景一:代裝被騙,錢打水漂了花了300塊找人遠(yuǎn)程裝OpenClaw,結(jié)果對方收了錢就拉黑,或者裝了
把AI智能體請進(jìn)電腦,就像把家里所有的鑰匙交給了一個陌生人。它能幫你打掃房間、整理文件,但萬一它“起了壞心”,或者被壞人利用了,你的家就不再安全了。這不是危言聳聽。國家互聯(lián)網(wǎng)應(yīng)急中心已經(jīng)發(fā)布風(fēng)險提示,指出OpenClaw的默認(rèn)配置“極為脆弱”,攻擊者一旦得手,能輕易獲取系統(tǒng)控制權(quán)。微軟安全團(tuán)隊也警告
OpenClaw火了,火到似乎人人都在討論“養(yǎng)蝦”。打開社交媒體,滿屏都是“有了AI小龍蝦,我再也不用加班了”“我讓AI幫我訂了機(jī)票、寫周報、點外賣”之類的分享。于是,很多人開始焦慮:別人都養(yǎng)了,我要不要也養(yǎng)一只?不養(yǎng)是不是就落伍了?先別急。在決定養(yǎng)“蝦”之前,我們先冷靜下來,想清楚一個問題:你到底
3月31日,科技圈上演了一場現(xiàn)實版的“代碼大逃殺”。一向以“閉源”為傲的AI巨頭Anthropic,因一個低級打包失誤,將旗下明星產(chǎn)品ClaudeCode的完整源代碼拱手送給了全世界。一次59.8MB的“裸奔”事情始于一個普通的周二早晨。Web3安全公司FuzzLab的實習(xí)研究員ChaofanSho
當(dāng)?shù)貢r間3月31日,人工智能明星公司OpenAI宣布完成一輪規(guī)模達(dá)1220億美元的私募融資,投后估值攀升至8520億美元,創(chuàng)下全球AI企業(yè)估值新紀(jì)錄,同時也刷新了科技行業(yè)私募融資的歷史最高規(guī)模。本輪融資籌備歷時數(shù)月,核心資金來自三家頭部科技企業(yè):亞馬遜承諾投資500億美元,英偉達(dá)與軟銀集團(tuán)分別出資3
“我也想養(yǎng)一只AI小龍蝦,但聽說安裝特別難,我連代碼都不會寫,怎么辦?”這是最近后臺收到最多的私信。面對OpenClaw這個技術(shù)門檻不低的AI智能體,很多普通人躍躍欲試,卻又望而卻步。于是,一個“代裝”產(chǎn)業(yè)應(yīng)運而生——遠(yuǎn)程50到300元,上門500到1500元,幫你搞定一切。但問題是:這些代裝服務(wù)靠
最近,身邊不少人都在討論“養(yǎng)AI小龍蝦”。這只叫OpenClaw的智能體,能替你自動訂機(jī)票、寫代碼、整理文件,聽起來像請了一個24小時不休息的數(shù)字員工。但問題來了——月薪五千的普通人,養(yǎng)得起嗎?我們先算一筆賬。養(yǎng)這只“蝦”,主要有三個花錢的地方。第一筆:硬件投入。OpenClaw創(chuàng)始人推薦用MacM
最近,“養(yǎng)AI小龍蝦”成了互聯(lián)網(wǎng)上的一股熱潮。這里的“小龍蝦”指的是OpenClaw——一個能替你自動做事的人工智能體。訂機(jī)票、寫代碼、整理文件,它就像一個24小時不休息的數(shù)字員工。聽起來很酷,但很多人忽略了一個關(guān)鍵問題:這只“蝦”需要你電腦的完整訪問權(quán)限。也就是說,一旦你把它“請”進(jìn)家門,它就能看
最近,互聯(lián)網(wǎng)上刮起了一股“養(yǎng)蝦熱”。這個“蝦”不是餐桌上的小龍蝦,而是一個叫OpenClaw的AI智能體。標(biāo)志是一只紅色小龍蝦,寓意不斷蛻殼成長。OpenClaw到底是個什么東西?簡單說,它是一個開源的AI智能體框架,能裝進(jìn)你的電腦,替你自動做事——訂機(jī)票、寫代碼、整理文件,就像一個24小時不休息的