文|胡楊 胡皓
來源|智能相對(duì)論(ID:aixdlun)
- 今天天氣怎么樣?
- 今日是晴天,氣溫17到22度,東北風(fēng)3到4級(jí)。
- 那周五呢?
- 周五距今天還有2天。
“重復(fù)喚醒,答非所問,這不是人工智能,是‘人工智障智障’。”這是大部分智能網(wǎng)聯(lián)汽車用戶對(duì)語音交互的抱怨。
現(xiàn)在,情況有了改善。當(dāng)用戶詢問車機(jī)“明天出門需要帶傘么?”,車機(jī)就會(huì)播報(bào)明天的天氣情況,如果需要再查詢其他時(shí)間或者城市的天氣,那么用戶不用重新喚醒,也不需要說出完整表達(dá),只需要說“那大后天呢?”、“那杭州呢?”。在用戶和車機(jī)在自然連續(xù)對(duì)話的過程中,語義理解服務(wù)會(huì)記住會(huì)話的歷史,并結(jié)合歷史處理用戶的請(qǐng)求,通過這種方式,用戶的多次連續(xù)交互就可以形成一個(gè)會(huì)話流,與用戶的交互也更加自然。
自然連續(xù)對(duì)話,是車載語音交互從“人工智障”邁向“人工智能”的重要一步。不過斑馬網(wǎng)絡(luò)最近推出的斑馬智行VENUS系統(tǒng),打破了對(duì)用戶說話規(guī)則的要求,用戶可以按照自身的說話習(xí)慣來進(jìn)行交流,交互過程更加人性化。這會(huì)不會(huì)是一個(gè)跨越?
從科幻到現(xiàn)實(shí),語音交互一直在進(jìn)化
提到智能語音交互,普羅大眾對(duì)于技術(shù)刷屏的記憶停留在2018年的Google開發(fā)者大會(huì)“Google I/O”開幕式上。當(dāng)Google Assistant以驚人的流利會(huì)話,打電話和店家溝通,預(yù)約理發(fā)店、餐廳,并用一句俏皮的“嗯哼”作為回應(yīng)時(shí),觀眾給予了熱烈的掌聲。這是技術(shù)愿景美好、激勵(lì)人心的一面。
有趣的是,同年2月的美國第五十二屆超級(jí)碗的天價(jià)廣告上,亞馬遜賣力黑了自家的智能音箱和智能助手——Alexa。喚醒失誤、識(shí)別不準(zhǔn)、響應(yīng)困難等等用戶槽點(diǎn),被廣告創(chuàng)意表現(xiàn)得淋漓盡致。這是技術(shù)的現(xiàn)實(shí)。
但不論是基于場(chǎng)景的未來暢想,還是對(duì)當(dāng)下缺陷的大膽自嘲,兩個(gè)科技巨頭都將業(yè)務(wù)重心的一角,押注在了語音交互賽道上。
亞馬遜首席技術(shù)官Werner Vogels斷言:未來,人和數(shù)字世界對(duì)的交互,一定是以“人”為核心,而不是機(jī)器驅(qū)動(dòng);我們終將構(gòu)建出更人性化的交互,讓人機(jī)互動(dòng)更加融合。
在“以人為核心”、“更加融合”的人機(jī)交互中,語音交互(簡(jiǎn)稱VUI)是核心。VUI允許更自由、高效的人機(jī)交互,其本質(zhì)上比任何其他形式的用戶界面都更“人性化”。斯坦福大學(xué)教授,Wired for Speech的合著者,克利福德·納斯寫道:“語音是人類交流的基本手段…….所有文化主要通過語音來說服,告知和建立關(guān)系。”
VUI允許用戶使用語音作為媒介與機(jī)器進(jìn)行交互。從《2011太空漫游》中的HAL到《星球大戰(zhàn)》中的C-3PO,人們?cè)诳苹秒娪袄飼诚胫軌蚺c機(jī)器自由溝通。事實(shí)上,早在1952年,貝爾實(shí)驗(yàn)室的工程師就開發(fā)出了Audrey(奧黛麗):它可以識(shí)別數(shù)字0-9的發(fā)音。盡管奧黛麗能夠以超過90%的精度識(shí)別語音輸入,但其體積大,成本高昂,未曾步入大規(guī)模商業(yè)化的發(fā)展通道。
自此,人類開啟了長(zhǎng)達(dá)半個(gè)多世紀(jì)的語音交互探索。1962年,IBM推出了第一臺(tái)真正意義上的是語音識(shí)別機(jī)器。工程師William Dersch開發(fā)出的Shoebox可以收聽操作員說出的數(shù)字和命令。例如“5+3+8+6+4-9,總和”,機(jī)器將打印出正確答案:17。
1970年,隱馬爾可夫模型(HMM)為語音識(shí)別的發(fā)展插上了算法的翅膀,讓語音識(shí)別從文字匹配進(jìn)化到了可預(yù)測(cè)的高度。20世紀(jì)80年代,Covox,Dragon Systems,Speechworks相繼成立,推動(dòng)了語音識(shí)別的商用化進(jìn)程。
90年代,語音識(shí)別技術(shù)迎來了大規(guī)模商用和普及。1995年,Dragon發(fā)布了單詞聽寫級(jí)的語音識(shí)別軟件。這是人類歷史上首個(gè)面向廣大消費(fèi)者的語音識(shí)別產(chǎn)品。僅一年之后,Charles Schawab(嘉信理財(cái))和Nuance(紐昂斯)聯(lián)合推出了一套“語音股票經(jīng)紀(jì)人”系統(tǒng),可同時(shí)響應(yīng)360個(gè)客戶的股票詢價(jià)電話。1997年,如今隸屬Nuance旗下的聲龍系統(tǒng)(Dragon system)推出了“NaturallySpeaking”軟件,這是歷史上第一個(gè)可用的“連續(xù)語音”聽寫軟件。它標(biāo)志著單詞級(jí)不停頓語音交互的開始。
最近的20年,Google,Apple,Amazon先后推出了大眾耳熟能詳?shù)闹悄苷Z音助手,并通過智能手機(jī)、智能音箱等產(chǎn)品,來到普羅大眾身邊。據(jù)Juniper Research統(tǒng)計(jì),截至2019年2月,全球使用中的語音助手達(dá)32.5億;預(yù)計(jì)到2023年,該數(shù)字將達(dá)到80億。
語音交互技術(shù)上的高山一:自然連續(xù)對(duì)話
隨著軟硬件的快速迭代,如今的ASR(語音識(shí)別)技術(shù)已近成熟,未來智能語音交互的核心競(jìng)爭(zhēng)力在于在復(fù)雜場(chǎng)景下準(zhǔn)確理解用戶的意圖,并為其提供差異化服務(wù)。更加智能的自然連續(xù)對(duì)話能力,將讓語音交互系統(tǒng)更具人類的親和力特質(zhì)和邏輯思維能力,能帶給用戶更具情景化、更有溫度的用車體驗(yàn)和服務(wù)潛力。
“智能相對(duì)論”認(rèn)為,自然連續(xù)對(duì)話是一個(gè)系統(tǒng)的工程,涉及到從車機(jī)端的聲學(xué)前端處理、語音喚醒、語音識(shí)別、語義理解、對(duì)話管理、自然語言生成、語音合成等核心交互技術(shù)。斑馬智行VENUS的AI語音得益于阿里達(dá)摩院的重磅加持以及科大訊飛、思必馳等合作伙伴的大力支持,極大提升了語音能力。斑馬基于AliOS系統(tǒng),可以更好地將語音核心技術(shù)能力與系統(tǒng)能力相結(jié)合,更大程度地發(fā)揮出語音核心技術(shù)的優(yōu)勢(shì),將多種引擎的協(xié)作發(fā)揮到極致,達(dá)到“1+1>2”的效果。
語音交互技術(shù)上的高山二:個(gè)性化,即聲音克隆
如果說自然連續(xù)對(duì)話為更自由的交互和差異化服務(wù)提供可能,那語音定制化則將個(gè)性化、情感化的語音交互率先落地。
2017年9月,一家名為L(zhǎng)yrebird的加拿大初創(chuàng)公司在推特上發(fā)布了一段10秒的錄音。錄音是內(nèi)容AI模仿美國總統(tǒng)特朗普的話語。在此之前,Google旗下的DeepMind曾經(jīng)公布了一個(gè)用AI合成人聲的研究成果:WaveNet,達(dá)到以假亂真的地步。Adobe也發(fā)布過一款名為Project VoCo的原型軟件,在傾聽20分鐘音頻樣本之后可以進(jìn)行模仿。而Lyrebird將音頻采樣的輸入時(shí)間縮短到了60秒。
如今,國內(nèi)智能網(wǎng)聯(lián)行業(yè)也首次迎來了語音定制——“聲音克隆”產(chǎn)品。斑馬智行VENUS系統(tǒng)“聲音克隆”操作流程非常簡(jiǎn)單。用戶只需在斑馬智行APP錄制20句話即可合成私人語音包,一鍵發(fā)送至車機(jī)便可全局使用,無論是導(dǎo)航引導(dǎo)、天氣查詢,還是預(yù)訂餐廳,和你對(duì)話的都是你最想聽的聲音。
聲音是車載AI語音交互功能的“靈魂”,基于“聲音克隆”技術(shù),斑馬智行VENUS系統(tǒng)將為用戶提供“千人千聲”的定制化服務(wù),用戶可以“克隆”親人和愛人的聲音,讓陪伴更長(zhǎng)久,讓駕駛更舒心。
據(jù)介紹,斑馬智行VENUS系統(tǒng)“聲音克隆”操作流程非常簡(jiǎn)單。用戶只需在斑馬智行APP錄制20句話即可合成私人語音包,一鍵發(fā)送至車機(jī)便可全局使用,無論是導(dǎo)航引導(dǎo)、天氣查詢,還是預(yù)訂餐廳,和你對(duì)話的都是你最想聽的聲音。斑馬網(wǎng)絡(luò)AI語音相關(guān)負(fù)責(zé)人表示,斑馬智行VENUS系統(tǒng)能在錄制“傾聽”中“掌握”每個(gè)人說話時(shí)的字母、音位、單詞和語句的發(fā)音特點(diǎn),通過深度學(xué)習(xí)技術(shù)推理并模仿聲音中的語音音色、語調(diào),“說”出全新的語句。
攀登技術(shù)高山,如何讓機(jī)器交互能夠更接近真人交互依然在等待更好答案
語音是人類最舒適,最直觀的交流方式之一。如今的智能語音交互產(chǎn)品,變得越來越像人一樣聰明且富有感情。它可以準(zhǔn)確理解信息輸入、高效處理并提供理想的信息輸出。“智能相對(duì)論”認(rèn)為,在人工智能和5G迅速發(fā)展的背景下,語音平臺(tái)有機(jī)會(huì)成為物聯(lián)網(wǎng)時(shí)代下新的“操作系統(tǒng)”,連接全新的產(chǎn)業(yè)生態(tài),包括各類服務(wù)、應(yīng)用、硬件等。
在各類應(yīng)用場(chǎng)景中,除了智能家居,汽車產(chǎn)品對(duì)于語音交互的需求顯而易見。不論是點(diǎn)擊、滑動(dòng)等觸摸交互方式,在車載環(huán)境下都存在安全隱患且并不高效,語音交互是天然適應(yīng)車載環(huán)境的交互方式。不過想要設(shè)計(jì)、開發(fā)、應(yīng)用一套成熟的車載語音交互系統(tǒng),要翻越重重高峰:行車噪音干擾如何處理、方言口音如何適配、自然的表達(dá)如何更好支持、系統(tǒng)的誤觸發(fā)如何控制在可用范圍。
而隨著用戶對(duì)汽車智能化要求的越來越高,更自然的交互成為語音交互的發(fā)展方向。如何讓機(jī)器交互能夠更接近真人交互?多模態(tài)融合理解、自然全雙工對(duì)話、自然語義理解成為了新的需要攀登的高峰。
斑馬智行的系統(tǒng)底層——AliOS,在傳統(tǒng)觸控、按鍵交互模式的基礎(chǔ)上,將語音交互能力、視覺交互能力以及場(chǎng)景信息在系統(tǒng)層進(jìn)行融合互通,更大程度得發(fā)揮了各個(gè)交互能力的優(yōu)勢(shì),使得多模態(tài)融合理解、融合交互以及更自然的全雙工對(duì)話、擁有更多信號(hào)輸入的自然語義理解成為可能。同時(shí)在各種交互能力融合后對(duì)上層應(yīng)用進(jìn)行開放,使得最終呈現(xiàn)給用戶的交互更自然。
語音交互帶來的產(chǎn)業(yè)機(jī)遇方興未艾。如果說,未來的主流交互方式存在多樣的可能性,那更高率、更自然、更接近于人本能的方向一定是人機(jī)交互的未來。
此內(nèi)容為【智能相對(duì)論】原創(chuàng),
僅代表個(gè)人觀點(diǎn),未經(jīng)授權(quán),任何人不得以任何方式使用,包括轉(zhuǎn)載、摘編、復(fù)制或建立鏡像。
部分圖片來自網(wǎng)絡(luò),且未核實(shí)版權(quán)歸屬,不作為商業(yè)用途,如有侵犯,請(qǐng)作者與我們聯(lián)系。
申請(qǐng)創(chuàng)業(yè)報(bào)道,分享創(chuàng)業(yè)好點(diǎn)子。點(diǎn)擊此處,共同探討創(chuàng)業(yè)新機(jī)遇!
2023年7月6日,第六屆世界人工智能大會(huì)(WAIC2023)在上海開幕,“人工智能大模型”是本屆大會(huì)的備受矚目的話題,據(jù)悉,在昇騰AI大模型的創(chuàng)新研發(fā)中,華為聯(lián)手26家行業(yè)領(lǐng)軍企業(yè),組建了一支協(xié)同創(chuàng)新的“AI明星隊(duì)”,云天勵(lì)飛作為中國人工智能企業(yè)的杰出代表,和互聯(lián)網(wǎng)大廠、運(yùn)營商、科研院所等優(yōu)秀團(tuán)隊(duì)
這幾個(gè)月來,以ChatGPT為代表的生成式AI展現(xiàn)出的能力令世界驚嘆。自從2016年AlphaGo戰(zhàn)勝李世石掀起了一波AI浪潮后,AI仿佛已經(jīng)沉寂了很久,ChatGPT的橫空出世就如同一束耀眼的光芒,讓AI這個(gè)名詞重回C位。過去在AI1.0時(shí)代,主要通過訓(xùn)練模型來實(shí)現(xiàn)圖像識(shí)別、聲音識(shí)別、語言處理等特
文:互聯(lián)網(wǎng)江湖作者:志剛2023年的IoT需要一個(gè)新故事。6月29日,涂鴉智能在開發(fā)者大會(huì)上,發(fā)布了企業(yè)級(jí)戰(zhàn)略PaaS2.0,希望通過一個(gè)平臺(tái)+四大開發(fā)服務(wù),建立起IoT生態(tài)。對(duì)于這場(chǎng)發(fā)布會(huì),市場(chǎng)的態(tài)度是積極的。美東時(shí)間6月29日收盤,涂鴉智能美股股價(jià)上漲5.6%,來到1.87美元/股。近日股價(jià)穩(wěn)定
美團(tuán)曾經(jīng)的二號(hào)人物王慧文對(duì)標(biāo)OpenAI的創(chuàng)業(yè)項(xiàng)目光年之外,以20億賣給美團(tuán),再度引發(fā)市場(chǎng)對(duì)大模型的熱議。
2020年底,王慧文在朋友圈寫下這句話時(shí),外界本以為這位伴隨中國互聯(lián)網(wǎng)發(fā)展而持續(xù)創(chuàng)業(yè)20年的人物即將告別創(chuàng)業(yè)舞臺(tái)。但是,一個(gè)曾經(jīng)多次創(chuàng)業(yè),正值壯年的互聯(lián)網(wǎng)老將心中的創(chuàng)業(yè)熱情是難以熄滅的。
百度AI團(tuán)隊(duì)今日正式推出PaddleOCR3.1版本,以突破性的多語言組合識(shí)別(MultilingualCompositionPerception,MCP)技術(shù)為核心,徹底重構(gòu)復(fù)雜文檔處理邊界。此次升級(jí)標(biāo)志著OCR領(lǐng)域首次實(shí)現(xiàn)對(duì)同一文檔內(nèi)任意混合語言文本的精準(zhǔn)識(shí)別,為全球化企業(yè)、跨境業(yè)務(wù)及多元文化場(chǎng)
“宇樹已形成硬件、算法、場(chǎng)景聯(lián)動(dòng)的業(yè)務(wù)飛輪,自研率超95%的技術(shù)壁壘讓其成為全球機(jī)器人賽道不可忽視的中國力量?!笔壮藤Y本管理合伙人朱方文在追加投資時(shí)如是評(píng)價(jià)。7月7日,據(jù)每日經(jīng)濟(jì)新聞從宇樹科技投資方處獲悉,國內(nèi)人形機(jī)器人領(lǐng)軍企業(yè)宇樹科技(UnitreeRobotics)已明確計(jì)劃于科創(chuàng)板IPO,預(yù)計(jì)
推理與多模態(tài)的終極融合,將徹底終結(jié)用戶在不同模型間切換的煩惱。7月7日,OpenAI正式確認(rèn)將在今年夏季推出新一代人工智能模型GPT-5。這一突破性產(chǎn)品將整合現(xiàn)有的多個(gè)強(qiáng)大模型,特別是融合專注推理能力的“O系列”與具備多模態(tài)功能的“GPT系列”,為用戶提供前所未有的統(tǒng)一體驗(yàn)。OpenAI開發(fā)者體驗(yàn)負(fù)
高考一結(jié)束,忙壞了海內(nèi)外一眾大模型。豆包、DeepSeek、ChatGPT、元寶、文心一言、通義千問……掀起了一波“AI趕考”大戰(zhàn)。據(jù)悉,去年高考期間,大模型的成績(jī)才勉強(qiáng)過一本線,今年集體晉升985。據(jù)悉,豆包甚至過了清北的錄取線。頭部大模型在高考“考場(chǎng)”上玩得不亦樂乎,中小AI創(chuàng)企的處境卻日益尷尬
文/二風(fēng)來源/節(jié)點(diǎn)財(cái)經(jīng)每年高考成績(jī)放榜后,數(shù)千萬考生和家長(zhǎng)將迎來另一場(chǎng)硬仗——填報(bào)志愿。今年,這一領(lǐng)域迎來了AI的全面介入,多家互聯(lián)網(wǎng)大廠和教育公司紛紛推出智能志愿填報(bào)產(chǎn)品,為考生提供院校和專業(yè)選擇建議。據(jù)艾媒咨詢數(shù)據(jù),2023年中國高考志愿填報(bào)市場(chǎng)付費(fèi)規(guī)模約9.5億元,近九成考生愿意借助志愿填報(bào)服
蘋果還沒從WWDC25的“群嘲”中走出,又迎來了一次新的痛擊。據(jù)路透社報(bào)道,21日,蘋果公司遭到股東集體起訴,被指在信息披露中低估了將先進(jìn)生成式AI整合進(jìn)語音助手Siri所需的時(shí)間,導(dǎo)致iPhone銷量受影響、股價(jià)下滑,構(gòu)成證券欺詐。在這份訴訟中,庫克、首席財(cái)務(wù)官凱文·帕雷克及前首席財(cái)務(wù)官盧卡·馬埃
華為的盤古大模型終于推出新版本了。6月20日華為云計(jì)算CEO張平安宣布基于CloudMatrix384超節(jié)點(diǎn)的新一代昇騰AI云服務(wù)全面上線,盤古大模型5.5同步發(fā)布。不過,當(dāng)前國內(nèi)的AI大模型競(jìng)爭(zhēng)可謂是相當(dāng)激烈,華為的盤古大模型在眾多大模型中并不是十分出眾。華為云此次重磅推出的盤古大模型5.5能否從
一場(chǎng)沒有羅永浩的“羅永浩直播”,正在改寫帶貨規(guī)則當(dāng)數(shù)字人羅永浩在百度直播間舉起青島啤酒,以標(biāo)志性幽默回應(yīng)粉絲提問時(shí),彈幕瘋狂刷出“這是真的還是假的?”的疑問。這場(chǎng)持續(xù)近7小時(shí)的直播,創(chuàng)下1300萬人次觀看、GMV突破5500萬元的驚人戰(zhàn)績(jī),甚至超過了他本人一個(gè)月前真人直播5000萬元的成績(jī)。數(shù)字人主
高頻互動(dòng)、個(gè)性化教學(xué)、突破成本壁壘,AI老師讓英語學(xué)習(xí)更普惠。6月24日,新東方正式推出面向消費(fèi)者的首款原創(chuàng)AI教育產(chǎn)品——“新東方AI1對(duì)1”。這款產(chǎn)品標(biāo)志著新東方在教育+AI戰(zhàn)略布局中邁出關(guān)鍵一步,旨在以科技力量推動(dòng)優(yōu)質(zhì)教育資源的普惠發(fā)展。在發(fā)布會(huì)現(xiàn)場(chǎng),新東方教育科技集團(tuán)CEO周成剛表示:“AI
大家好,我是白楊SEO,專注SEO十年以上,全網(wǎng)SEO流量實(shí)戰(zhàn)派,AI搜索優(yōu)化研究者。為什么想分享這個(gè)AI工作流及coze扣子這個(gè)?因?yàn)槲覀兏懔髁康娜绻麑W(xué)會(huì)了用AI給我們生產(chǎn)提效將更有助于我們?nèi)カ@客。目前白楊SEO用得并不是很好,分享僅供參考,希望給你一些啟發(fā)。老規(guī)矩,先說下文章大綱如下:1、AI工