文 | 楊蘇穎
來源 | 智能相對論
在前文字時代,聲音曾經是人類唯一的交流工具。由于聲音的傳播距離非常有限,所以那個時候人類的生存以“部落”為單位,關系十分緊密。后來隨著傳播媒介的一步步發(fā)展,我們開始不再需要彼此近距離交流就能獲得大量信息,反而,卻開始突然懷念單一的聲音帶給我們的感覺,這種最原始的媒介承載著人類最充沛的情感。
今年1月份,世界首部利用人工智能模擬人聲的紀錄片在央視播出,而這部名為《創(chuàng)新中國》的紀錄片解說詞卻全程是由在2013年就“已逝”的聲音完成的。這個奇跡的背后是科大訊飛利用語言合成技術成功幫AI模擬出了我國已故著名配音演員,語言藝術家李易的聲音。
科大訊飛強勁的語言合成技術讓AI模擬的聲音成功打動了李易老師的學生、朋友和家人。在AI自然流暢的語言解說當中,似乎還能再見故人的音容笑貌??拼笥嶏w這項語音合成技術主要由三個步驟構成:
一是輸入文本,讓機器模擬人對自然語言的理解過程,對文本進行語言處理,主要包括文本規(guī)整、詞語切分、語法語義分析,然后給出后續(xù)步驟所需要的發(fā)音提示;
二是規(guī)劃音段特征,比如音調、音長、音重等等,讓機器可以對語言的特有韻律進行處理,使機器模擬的聲音更自然并且更準確地傳達實際語義。
最后根據(jù)前兩部分處理的結果進行語音合成即可。通過這幾個步驟,AI模擬的聲音與人聲已經非常相似,即使是最熟悉的人在某些情況下也很難分辨機器人與人聲的界限。
AI配音拉動的兩駕“馬車”
那么這么驚艷的人工智能配音技術,它的邊界究竟能夠延伸到多遠的地方呢?智能相對論分析師楊蘇穎就此提出了人工智能配音的兩個用武之地。
1、“粉絲經濟”向AI配音伸出“橄欖枝”?
“粉絲經濟”已經成為現(xiàn)在文娛產業(yè)經濟增長的主要支柱之一。隨著最近養(yǎng)成類偶像節(jié)目的火爆,粉絲對明星投入的情感越來越多,隨之帶動這個群體為明星付費的意愿同樣水漲船高。網傳范冰冰弟弟范丞丞在新浪微博發(fā)布付費閱讀的自拍,一夜徒手狂賺幾百萬(后遭到經紀人否認)。既然,明星的周邊如此火爆,何不運用配合人工智能語音合成的VR、AR技術來打造的虛擬范丞丞們,讓他們更真實地出現(xiàn)在粉絲的日常生活當中呢?要深挖中國的粉絲潛力,比起像騰訊視頻之前在明日之子上打造虛擬二次元偶像“荷茲”,聽著現(xiàn)實當中熟悉的偶像聲音叫自己起床,陪自己聊天,這樣的虛擬真人版偶像或許更能得到粉絲認可。
2、AI配音是音也是“藥”
據(jù)國外媒體報道,有研究表明,年邁夫婦可能因為一方喪偶而增大死亡率,這種現(xiàn)象被稱為“心碎綜合癥”。這項研究由哈佛大學和威斯康斯大學麥迪遜分校的兩位科學家負責,研究結果顯示,男性喪妻后“全因死亡率”的概率增大了18%,女性喪夫后“全死因死亡率”的概率增大了16%。并且我們還可以做一個合理推斷,在其他喪子或者喪雙親的情況下,這種“心碎綜合癥”的表現(xiàn)也一定存在,比如在唐山大地震和汶川地震之后。心理學家表示,要想修復這種創(chuàng)傷是非常困難的。但是人工智能配音的AI或許可以做到呢,它能夠利用過去已有的音頻合成親人的聲音,如果心理醫(yī)生說的話能夠用親人的聲音來傳達,也許可以幫助病人更快地走出陰霾。
AI 配音在舞臺上也會唱“黑臉”
但是,一切技術都是刀子的翻版,人工智能配音技術解決問題的同時也會引發(fā)新的問題,智能相對論分析師楊蘇穎認為,這項技術在廣泛落地之前還要接受不少拷問。
1、AI盜用聲音卻能“無罪釋放”?
手機里高德地圖我們足夠熟悉,但大家不知道的可能是其導航應用所采用林志玲聲音其實部分是采用了人工智能配音技術后期合成的。那么大家可能覺得語音合成必須得提前去技術公司錄制這樣一段純凈的聲音。
但是事實上,語音合成卻對音頻質量沒有那么高的要求,利用海量的互聯(lián)網音頻也可以實現(xiàn)人聲模仿。Google Research軟件工程師發(fā)表論文《Looking to Listen atthe Cocktail Party》采用的全新視聽模型可以在不同噪音之中,把重疊的人聲分離出來,形成每一位說話者單獨純凈的音頻信號。同時,訊飛也提出以全自動無監(jiān)督方法快速得到單個目標發(fā)音人的純凈音庫。
之前伯明翰阿拉巴馬大學的一項調查表明,如果給予AI的的信息足夠多,它可以生成任何人以假亂真的圖片或者視頻?,F(xiàn)在個人的聲音已經越來越成為個人身份的標志之一,對個人聲音利益的侵害也同肖像一樣可能造成個人人格尊嚴和財產利益上的損失。我們知道明星的形象擁有肖像權,如果他們的照片被他人私自用作商業(yè)用途時,他們可以一紙訴狀將別人告上法庭維護自己的肖像權。但是目前在我國立法界及學界對聲音權的保護卻仍無統(tǒng)一定論,如果個人的聲音被別人盜用是沒有法律能夠對其進行保護的。
2、AI配音攪局聲紋識別
大家可能聽說過聲紋鑒定,一般來說人的發(fā)聲具有特定性和穩(wěn)定性,雖不能說完全達到了指紋那樣精確的程度,卻仍然有越來越多國家已經把聲紋鑒定作為辨認犯罪嫌疑人的重要手段。
但在GeekPwn2017國際安全極客大賽上,白帽黑客們卻上演了一場與聲紋識別的對弈。現(xiàn)場5組選手有4組根據(jù)《王者榮耀》里英雄妲己的聲音樣本,利用AI語音合成技術模擬妲己聲音通過“聲紋鎖”的驗證,成功欺騙了語音驗證系統(tǒng),這意味著利用個人聲音驗證身份可能沒那么靠譜。
“聲紋識別”在現(xiàn)實當中用途十分廣泛,離我們最近的有手機聲紋解鎖,另外,在智能家居產品當中,以及公共安全領域,它也有許多落地點。但是當聲紋識別碰上了AI語音合成技術,一場智能的博弈就開始了,一不小心就會打開個人隱私安全的潘多拉魔盒。AI語音合成技術越高明,挾持該技術的人就能越輕而易舉的闖入你的生活。
此外,在警察偵查工作中,原本進行聲紋分析可以判斷說話人的性別、年齡、方言(生活地區(qū))等特征為偵查提供方向和范圍,但 AI配音的干擾要求刑偵手段需迅速跟上科技發(fā)展的步伐,否則聲紋鑒定的有效性就會受到普遍質疑,司法判決的過程也會變得異常艱難,這無疑是為犯罪者提供了另一層保護傘。
3、AI能不能別老和藝術家杠上?
AI配音在《創(chuàng)新中國》中的表現(xiàn)非常令人吃驚,人類激動的眼淚印證了語音合成技術的成功。因此,不禁有人發(fā)問,AI配音如果在行業(yè)里廣泛應用會否取代傳統(tǒng)的配音演員呢?配音演員由四字組成,不僅重在“配音”,其實亦重在“演員”。今年年初口碑爆棚的綜藝《聲臨其境》在展示了優(yōu)秀演員的配音功力同時,也讓觀眾看到在配音間里,配音者不僅僅是提供聲音,更要演戲。因為配音必須要符合劇本角色的情緒,甚至包括呼吸的頻率都要對得上。
目前要建立機器的情感識別系統(tǒng)已經非常困難,機器深度學習需要大量數(shù)據(jù)進行量化分析,而人類情感是最難以被量化的存在。所以更別說讓機器去生產情感從而進行配音表演。配音演員和演員這兩種職業(yè)本就異曲同工,所以AI配音取代傳統(tǒng)配音演員獨立參與影視劇制作是不可能的。
不過,AI配音代替游戲配音和讀書配音倒是不錯的選擇。像四平八穩(wěn)的紀錄片一樣,這類配音并不需要調動太多的情感,就算人工智能配音需要存在幾種不同的感情色彩,機器學習的量也在可控制的范圍之內,不會像影視劇那樣復雜。
在AI配音這件事情上,有人拍案叫絕,有人憂心忡忡。技術善論技術惡論的對峙不會停止,但是只要控制的閥門還掌握在人類的手中,一切就不會那么糟。
【完】
智能相對論:深挖人工智能這口井,評出咸淡,講出黑白,道出vb深淺。重點關注領域:AI+醫(yī)療、機器人、智能駕駛、AI+硬件、物聯(lián)網、AI+金融、AI+安全、AR/VR、開發(fā)者以及背后的芯片、算法、人機交互等。
申請創(chuàng)業(yè)報道,分享創(chuàng)業(yè)好點子。點擊此處,共同探討創(chuàng)業(yè)新機遇!
展望科大訊飛的2022,“訊飛超腦2030計劃”發(fā)布,科大訊飛全面錨定虛擬人、虛擬寵物,在雄厚的技術能力和豐富的場景經驗支持下,持續(xù)驗證著其面向新場景、新領域的創(chuàng)新能力,也在加速轉化成為其未來5到10年的業(yè)績支撐點。
如今,人們對不受空間、時間限制的智能化、科技化家庭健身服務需求日益迫切,AI智能健身已然成為大眾健身新訴求,廣東中科凱澤信息科技有限公司作為新興崛起的智能健身研發(fā)企業(yè)
1956年8月,以香農為代表的一群科學家在達特茅斯學院,圍繞著“用機器來模仿人類學習以及其他方面的智能”這個主題,創(chuàng)造出人工智能(ArtificialIntelligence)這個影響深遠的概念。
近日,人工智能學術與產業(yè)界的權威年度盛會“MEET2022智能未來大會”召開,會上公布年度人工智能領航企業(yè)、人工智能創(chuàng)業(yè)領袖等榜單。其中,影譜科技創(chuàng)始人姬曉晨女士入選2021年度人工智能創(chuàng)業(yè)領袖,成為唯一上榜的女性企業(yè)家,同時上榜的還有商湯、曠視、依圖、第四范式、地平線等企業(yè)領袖。
蘋果16弄了兩個版本,一個是專門給中國人用的,準備用百度的AI,還要交錢。第二個是全世界都可以用的,用了ChatGPT,包括臺灣、香港、澳門都可以用。以后都這樣了。好,問題就出在這,蘋果和百度的合作出現(xiàn)問題了,新聞連起來看,才能明白其中含義。新聞一:蘋果正在和騰訊、字節(jié)初步接洽,考慮將二者的AI模型
“技術日新月異,人類生活方式正在快速轉變,這一切給人類歷史帶來了一系列不可思議的奇點。我們曾經熟悉的一切,都開始變得陌生。”計算機之父約翰·馮·諾依曼曾這樣說到。
“人工智能的商業(yè)模式,是要創(chuàng)造一個市場,而非一個算法”。這是世界AI泰斗MichaelI.Jordan的觀點。而當前的全球AI市場,占據(jù)主導地位的中美雙方,卻也走出了兩條截然不同的技術路徑,前者執(zhí)著于前沿技術的探索,后者則發(fā)力應用優(yōu)化和商業(yè)化落地。南轅北轍的兩個方向,或許已經無法直接進行排位先后、優(yōu)
智能體進化發(fā)展了一年,現(xiàn)在的RPAAgent迭代到什么程度了?從實在智能最新發(fā)布的實在Agent7.0,看RPAAgent的迭代升級抓取豆瓣信息、自己制作PPT,這款AIAgent真的實現(xiàn)了流程全自動化AIAgent構建到執(zhí)行全自動化,持續(xù)進化RPAAgent再次降低智能體應用門檻實在智能重磅發(fā)布實
崔大寶|節(jié)點財經創(chuàng)始人進入2024年,大模型似乎有熄火之勢:資本市場,與之關聯(lián)的概念炒不動了,英偉達股價動輒暴跌重挫,引發(fā)“泡沫戳破”的擔憂;消費市場,BATH們的推新活動少了,產品更新迭代的速度慢了,民眾的關注度降了……熱鬧的大概只剩下兩場酣仗:自5月15日字節(jié)跳動宣布“以厘計費”,打響國內大模型
文|智能相對論作者|陳泊丞好消息!你心心念念的事業(yè)單位發(fā)錄取公告了!壞消息!他們沒錄你,錄了個數(shù)字人。圖片來源網絡隨著數(shù)字人技術的突破,越來越多的傳統(tǒng)企業(yè)和機構開始用上了“數(shù)字員工”。甚至很多中國人心心念念的“鐵飯碗”,也被這些數(shù)字人給捧上了。數(shù)字人捧上了“鐵飯碗”簡單翻看一下全國各地事業(yè)單位的“錄
黑芝麻智能敲鐘后,港交所門口又有一些智駕芯片企業(yè)引發(fā)關注。據(jù)悉,近日地平線已通過中國證監(jiān)會IPO備案,擬發(fā)行不超過11.5億股境外上市普通股并在香港聯(lián)合交易所上市,預計籌集約5億美元資金。從天眼查可以了解到,該公司成立于2015年,是一家乘用車高級輔助駕駛(ADAS)和高階自動駕駛(AD)解決方案供
8月21日,萬眾矚目的2024世界機器人大會暨博覽會在北京亦創(chuàng)國際會展中心盛大開幕。這場為期5天,集“展覽”“論壇”“賽事”于一體的機器人盛會,反映了當下機器人領域的繁榮生態(tài)。據(jù)官方統(tǒng)計數(shù)據(jù),今年現(xiàn)場逛展觀眾高達25萬人次,比去年增加25%。機器人行業(yè)有多火?看看2024世界機器人大會火爆程度便可知