威廉·吉布森(William Gibson)寫于 2010 年的小說《零歷史(Zero History)》中有這樣一個(gè)場景:一個(gè)角色穿著迄今為止「最丑陋的 T-shirt」展開了危險(xiǎn)的突襲,T-shirt 可使其對閉路電視(CCTV)隱身。在尼爾·斯蒂芬森(Neal Stephenson)的小說《雪崩(Snow Crash)》中,一個(gè)位圖圖像被用來傳遞可擾亂黑客大腦頻率的病毒,借助計(jì)算機(jī)增強(qiáng)的視覺神經(jīng)以腐蝕目標(biāo)者的心智。諸如此類的故事形成了一種循環(huán)往復(fù)的科幻比喻:一張普通的圖像具有摧毀計(jì)算機(jī)的能力。
不管怎樣,這個(gè)概念并非完全虛構(gòu)。去年,研究者僅僅帶上花式眼鏡(patterned glasses),一個(gè)商用面部識別系統(tǒng)就做出了錯(cuò)誤識別?;ㄊ窖坨R就是在鏡框上貼上迷幻色彩的貼紙,花式的扭曲和曲線在人看來是隨機(jī)的,但計(jì)算機(jī)卻要在帶有花式眼鏡的人臉上分辨出五官,而且這些人臉的輪廓很相似?;ㄊ窖坨R不會(huì)像吉布森「最丑陋的 T-shirt」那般將其從閉環(huán)電視中抹去,但是它可使人工智能錯(cuò)認(rèn)為你是教皇,或者其他人。
帶有花式眼鏡的研究者以及人臉識別系統(tǒng)的對應(yīng)識別結(jié)果。
這些類型的襲擊包含在被稱為「對抗機(jī)器學(xué)習(xí)(adversarial machine learning)」(之所以如此稱呼是由于對手之類的存在,在該情況中,對手是黑客)大量網(wǎng)絡(luò)安全類別中。在這一領(lǐng)域,「最丑陋的 T-shirt」以及腐蝕大腦的位圖的科幻比喻表現(xiàn)為「對抗性圖像」或者「愚弄式圖像」,但是對抗性襲擊具有形式,如音頻甚至是文本。2010 年早期,大量的團(tuán)隊(duì)各自獨(dú)立發(fā)現(xiàn)了這一現(xiàn)象的存在,他們通常把可對數(shù)據(jù)進(jìn)行分類的機(jī)器學(xué)習(xí)系統(tǒng)「分類器」作為目標(biāo),比如谷歌圖片中的算法可為你的照片打上食物、假期和寵物等標(biāo)簽。
對于人而言,愚弄式圖像就像是一個(gè)隨機(jī)的扎染圖案或者突發(fā)的電視噪點(diǎn);但是對圖像分類器而言,它卻可以自信的說出:「看,那是一只長臂猿」或者「一個(gè)如此亮眼的紅色摩托車」。就像花邊眼鏡使人臉識別系統(tǒng)發(fā)生了錯(cuò)誤識別,分類器處理了混亂到人類永遠(yuǎn)無法識別的圖像視覺特征。
這些圖案可以各種方式繞過人工智能系統(tǒng),并對未來的安全系統(tǒng)、工業(yè)機(jī)器人和自動(dòng)駕駛汽車等需要人工智能識別物體的領(lǐng)域有重大意義。2015 年有關(guān)愚弄式圖像論文的聯(lián)合作者 Jeff Clune 告訴 The Verge:「想象一下你身處軍隊(duì),正在使用一個(gè)自動(dòng)鎖定目標(biāo)的武器系統(tǒng),你絕不希望敵人把一張對抗性圖像放在了醫(yī)院的樓頂,系統(tǒng)鎖定并攻擊了醫(yī)院;或者你正在使用同一個(gè)系統(tǒng)追蹤敵人,你也絕不喜歡被愚弄式圖像騙了,[并] 開始用你的無人機(jī)緊盯著錯(cuò)誤的目標(biāo)車輛?!?/p>
愚弄式圖像以及人工智能識別的對應(yīng)結(jié)果。
這些情節(jié)是假設(shè)的,但卻非常具有可行性,如果繼續(xù)沿著當(dāng)前的人工智能路徑發(fā)展。Clune 說:「沒錯(cuò),這是一個(gè)研究社區(qū)需要共同面對的大問題。」防御對抗性攻擊的挑戰(zhàn)有兩方面:我們不僅不確定如何有效地反擊現(xiàn)有攻擊,而且更多高效的攻擊變體在持續(xù)增長。Clune 及其聯(lián)合作者 Jason Yosinski 和 Anh Nguyen 描述的愚弄式圖像容易被人類發(fā)現(xiàn),它們就像是視覺幻覺或者早期的網(wǎng)絡(luò)藝術(shù),滿是斑駁的色彩與圖案重疊,但是有更為微妙的方法運(yùn)用它們。
攝動(dòng)可像 Instagram 濾鏡一般被用于圖像
有一類被研究者稱為「攝動(dòng)(perturbation)」的對抗性圖像幾乎對人眼不可見,它作為照片表面上的像素漣漪(ripple of pixels)而存在,并可像 Instagram 濾鏡一般被用于圖像。這些攝動(dòng)發(fā)現(xiàn)于 2013 年,在 2014 年一篇名為「解釋和利用對抗性實(shí)例(Explaining and Harnessing Adversarial Examples)(鏈接:)」的論文中,研究者演示了攝動(dòng)的靈活性。攝動(dòng)有能力愚弄一整套不同的分類器,即使沒有被訓(xùn)練來攻擊的分類器。一項(xiàng)名為「通用對抗性攝動(dòng)(Universal Adversarial Perturbations)(鏈接:)」改進(jìn)研究通過成功地在大量不同的神經(jīng)網(wǎng)絡(luò)上測試攝動(dòng),使得這一特征明確起來,上個(gè)月引起了眾多研究者們的關(guān)注。
左邊是原始圖像,中間是攝動(dòng),右邊被攝動(dòng)的圖像。
使用愚弄式圖像黑進(jìn)人工智能系統(tǒng)有其局限性:第一,需要花費(fèi)更多時(shí)間制作加擾的圖像,使得人工智能系統(tǒng)認(rèn)為其看到的是一張?zhí)厥獾膱D像而不是產(chǎn)生了隨機(jī)錯(cuò)誤。第二,為了在起初生成攝動(dòng),你經(jīng)常——但不總是——需要獲取你要操控的系統(tǒng)的內(nèi)部代碼。第三,攻擊并不是一貫高效。就像論文「通用對抗性攝動(dòng)」所述,在一個(gè)網(wǎng)絡(luò)中成功率為 90% 的攝動(dòng)也許在另外一個(gè)網(wǎng)絡(luò)之中只有 50-60% 的成功率。(也就是說,如果一個(gè)存在問題的分類器正在指引一輛自動(dòng)駕駛半式卡車,甚至 50% 的錯(cuò)誤率都是災(zāi)難性的。)
為了更好地防御愚弄式圖像,工程師開始了「對抗性訓(xùn)練」。這需要為分類器輸入對抗性圖像,從而讓分類器可以學(xué)習(xí)識別并忽略它們,就像保鏢通過臉面照片識別酒吧禁止入內(nèi)之人。不幸的是,正如賓夕法尼亞州立大學(xué)畢業(yè)生 Nicolas Papernot(關(guān)于對抗性攻擊他寫了大量論文)所解釋的,在「計(jì)算密集型策略」面前,即使這種訓(xùn)練也很脆弱(即,向系統(tǒng)輸入足夠的圖像,它最終仍會(huì)出錯(cuò))。
被攝動(dòng)的圖像,以及對應(yīng)的人工智能識別的結(jié)果。
更困難的是,這類攻擊奏效或失敗的原因并不清晰。一種解釋是對抗性圖像利用一種被稱為「決策邊界」的特征,其在很多人工智能系統(tǒng)中都存在。這些邊界是不可見的規(guī)則,它們調(diào)控了系統(tǒng)如何判別,如,獅子和豹子之間的不同。一個(gè)很簡單的只區(qū)分這兩類動(dòng)物的人工智能項(xiàng)目將最終創(chuàng)造出一個(gè)意境地圖。想像在一個(gè) X-Y 平面內(nèi):右上角分布著所有該人工智能系統(tǒng)見過的豹子,而左下角分布著獅子。將這兩個(gè)部分分開的直線——獅子變成豹子,豹子變成獅子的邊界——稱作決策邊界。
Clune 說道,對于分類來說,決策邊界方法的難題是它太絕對,太武斷。「你對神經(jīng)網(wǎng)絡(luò)所做的所有事情僅僅是訓(xùn)練它們在各類數(shù)據(jù)間畫線,而不是對它們建模以識別出它們代表了豹子還是獅子。」像這樣的系統(tǒng)可以通過一個(gè)確定的、用各種方式操作。為了愚弄獅子-豹子分析器,你可以拍一張獅子的照片并把它的特征推到奇特的極端,但仍然讓它變現(xiàn)為正常的獅子:給它如同挖掘裝備的,和校車一般大小的爪子,以及如同燃燒的太陽一般的長鬃毛。對人類來說,這是無法識別的,但對一個(gè)檢查決策邊界的人工智能系統(tǒng)來說,這只是一只極端的獅子罷了。
據(jù)我們所知,對抗性圖像從未在真實(shí)世界形成過危害。但谷歌大腦的研究科學(xué)家,聯(lián)合著述了《解釋和利用對抗性實(shí)例》的 Ian Goodfellow 認(rèn)為這種潛在的威脅從未被忽視?!秆芯可鐓^(qū),尤其是谷歌,正在嚴(yán)肅地對待這個(gè)問題,」Goodfellow 說道?!覆⑶椅覀冋χ铝τ诎l(fā)展更好的防御措施。」大量組織,如伊隆·馬斯克創(chuàng)立的 OpenAI,目前正在進(jìn)行或發(fā)起關(guān)于對抗性攻擊的研究。目前的結(jié)論是暫時(shí)沒有新技術(shù),但關(guān)于這些攻擊在真實(shí)世界中能造成多大威脅,研究者們并未達(dá)成共識。例如,已存在大量攻擊自動(dòng)駕駛汽車的方法,它們并不依賴于計(jì)算復(fù)雜的攝動(dòng)。
Papernot 認(rèn)為,廣泛存在于人工智能系統(tǒng)中的不足并不令人驚訝——分類器被訓(xùn)練成「擁有好的平均表現(xiàn),而并不總是針對最壞情況的表現(xiàn)——這是典型的從安全角度出發(fā)的觀點(diǎn)?!挂簿褪钦f,比起它的平均表現(xiàn),研究者較少擔(dān)心系統(tǒng)發(fā)生災(zāi)難性的錯(cuò)誤。「一種處理棘手的決策邊界的方法,」Clune 說道,「是使得影像分類器知曉它們無法分類什么目標(biāo),而不是試圖將數(shù)據(jù)擬合進(jìn)某一類。」
與此同時(shí),對抗性攻擊也激發(fā)了更深層與概念化的思考。相同的愚弄式圖像可以擾亂谷歌、Mobileye 或 Facebook 獨(dú)立開發(fā)的人工智能系統(tǒng)的「心智」,整體上揭示了當(dāng)代人工智能特有的不足。
「仿佛所有這些不同的網(wǎng)絡(luò)圍坐一起,互相訴說為什么這些愚蠢的人類認(rèn)識不到這個(gè)噪點(diǎn)圖里實(shí)際上是一個(gè)海星,」Clune 說道?!改窍喈?dāng)有趣且神秘;所有這些網(wǎng)絡(luò)都同意這些瘋狂和非自然的影像實(shí)際上屬于同類。那種程度的收斂真讓人驚訝。」
對 Clune 的同事 Jason Yosinski 來說,在愚弄式圖像上的研究表明人工智能和自然界創(chuàng)造的智能之間存在令人驚訝的共同點(diǎn)。他注意到人工智能及它們的決策邊界所犯的同類錯(cuò)誤也存在于動(dòng)物世界中,在這里動(dòng)物們被「超常刺激」所愚弄。
這些刺激是自然界現(xiàn)象的人工版,慫恿動(dòng)物違背它們的天性。這一行為首先于二十世紀(jì)五十年代被發(fā)現(xiàn),當(dāng)時(shí)研究者們用它使得鳥類忽視它們自己的蛋而更偏愛顏色更鮮艷的贗品,或者使得紅肚棘魚將垃圾當(dāng)作競爭對手而進(jìn)行爭斗。只要有大的紅肚繪在垃圾上面,魚就將與其爭斗。一些人曾認(rèn)為人類成癮行為,如快餐和色情文學(xué),也是超常刺激的例子。鑒于此,人們可以認(rèn)為人工智能犯的錯(cuò)誤是自然而然的。但遺憾的是,我們需要人工智能有能力避免這些錯(cuò)誤,表現(xiàn)得更好。
原文:
【本文是51CTO專欄機(jī)構(gòu)機(jī)器之心的原創(chuàng)譯文,微信公眾號“機(jī)器之心( id: almosthuman2014)”】
戳這里,看該作者更多好文
申請創(chuàng)業(yè)報(bào)道,分享創(chuàng)業(yè)好點(diǎn)子。點(diǎn)擊此處,共同探討創(chuàng)業(yè)新機(jī)遇!