大語言模型數(shù)據(jù)泄露堪憂,超自動化Agent成解決之道
數(shù)據(jù)泄露成LLM應(yīng)用最大障礙,看實在智能如何用AI Agent破解謎題
從實在RPA Agent智能體安全機制,看AI Agent如何破解LLM應(yīng)用安全謎題
文/王吉偉
阻礙廣大企業(yè)應(yīng)用大語言模型(LLM,Large Langeuage Models)的諸多因素中,無疑數(shù)據(jù)安全是最重要的。
3月份ChatGPT發(fā)生了用戶隱私數(shù)據(jù)泄露事件,OpenAI聲明由于開源代碼庫中存在一個漏洞,使得部分用戶能夠看到另一個用戶的聊天標(biāo)題記錄,并把ChatGPT短暫下線緊急修補了此漏洞。
此事件,讓大家認(rèn)識到大模型并不是“大安全”。
更要命的,是用戶使用LLM時會不經(jīng)意輸入敏感數(shù)據(jù)。僅在三月份,三星內(nèi)部就發(fā)生了三起誤用及濫用ChatGPT案例,其中兩起關(guān)于三星半導(dǎo)體設(shè)備,一起關(guān)于三星內(nèi)部會議內(nèi)容。
以致有網(wǎng)友調(diào)侃,三星再多幾次敏感數(shù)據(jù)泄露,ChatGPT就能教大家制造先進芯片了。
在三星等多家企業(yè)出現(xiàn)事故后,很多企業(yè)都意識到了LLM使用可能造成的數(shù)據(jù)泄露問題。就在5月份,蘋果公司也限制員工使用ChatGPT和其他外部AI工具。當(dāng)然,蘋果公司也在開發(fā)自己的LLM產(chǎn)品。
不只是蘋果公司,摩根大通、美國電信運營商Verizon等公司都已經(jīng)宣布禁止使用ChatGPT等應(yīng)用,亞馬遜也希望工程師們使用內(nèi)部AI工具。
就在11月10日,投資了OpenAI并為廣大企業(yè)提供OpenAI云服務(wù)的微軟,因為擔(dān)心公司機密數(shù)據(jù)泄露,竟然也開始禁止員工使用ChatGPT,建議員工使用自家的Bing Chat工具。
出于數(shù)據(jù)安全憂慮,美國銀行、花旗集團、德意志銀行、高盛集團等多家金融機構(gòu)已經(jīng)禁止員工使用ChatGPT聊天機器人處理工作任務(wù),日本的軟銀、富士通、瑞穗金融集團、三菱日聯(lián)銀行、三井住友銀行等企業(yè),同樣限制了ChatGPT和類似聊天機器人的商業(yè)用途。
現(xiàn)在,這些企業(yè)有的與OpenAI合作進行了私有化部署,有的已經(jīng)研發(fā)了自有大語言模型。
數(shù)據(jù)泄露對企業(yè)的危害
多家機構(gòu)如此重視,人為數(shù)據(jù)泄露到底能為企業(yè)造成多大傷害?
數(shù)據(jù)安全公司Cyberhaven曾在一個報告中,調(diào)查了不同行業(yè)客戶160萬員工的ChatGPT使用情況。
報告數(shù)據(jù)顯示,自ChatGPT推出以來至3月21日,8.2%的員工曾在工作場所使用過ChatGPT, 6.5%的員工曾將公司數(shù)據(jù)粘貼其中;僅3月14日一天,每10萬名員工就平均給ChatGPT發(fā)送了5267次企業(yè)數(shù)據(jù)。尤其是敏感數(shù)據(jù),占到員工粘貼到ChatGPT的數(shù)據(jù)的11%。
這意味著,ChatGPT的使用率越高,敏感數(shù)據(jù)泄露的也就越多。
試想如果不加限制地使用LLM,隨著更多敏感數(shù)據(jù)被傳輸LLM服務(wù)器,并被用作模型訓(xùn)練數(shù)據(jù)集,也就意味著競爭對手通過隨意的聊天對話就能獲悉了你的核心數(shù)據(jù)。如果競對用這些數(shù)據(jù)建模對你進行降維打擊,會對企業(yè)會造成多大損失?
數(shù)據(jù)泄露會造成嚴(yán)重的企業(yè)的信任度降低,讓業(yè)務(wù)連續(xù)性受到影響,并可能會帶來一定的法律責(zé)任。
看到這里,你就應(yīng)該明白為何大型企業(yè)都在構(gòu)建自有大語言模型了。
當(dāng)然,凡事皆有利弊。雖然對話式交互的生成式AI會造成敏感數(shù)據(jù)泄露,但AI和自動化的使用,整體上正在降低數(shù)據(jù)泄露的成本。
IBM的《2023年數(shù)據(jù)泄露成本》全球調(diào)查數(shù)據(jù)顯示,廣泛使用人工智能(AI)和自動化的組織受益,平均節(jié)省了近1萬美元的數(shù)據(jù)泄露成本,并將數(shù)據(jù)泄露識別和遏制速度加快了8 天。
也就是說,只要恰當(dāng)使用LLM,注意安全防控,它會對企業(yè)的增效降本起到明顯的作用。
LLM泄露數(shù)據(jù)的幾個原因
想要實現(xiàn)LLM的安全使用,需要分析數(shù)據(jù)泄露的相關(guān)因素。
從已經(jīng)發(fā)生的實踐案例來看,造成ChatGPT等LLM數(shù)據(jù)泄露的主要原因,大概有以下幾點:
1、用戶隱私泄露:在使用ChatGPT進行客戶服務(wù)時,企業(yè)通常需要獲取用戶的個人信息,如姓名、地址、電話等。這些信息一旦被未經(jīng)授權(quán)的第三方獲取,便可能導(dǎo)致用戶隱私泄露。
2、內(nèi)部安全風(fēng)險:ChatGPT作為一款人工智能語言模型,其生成和處理的敏感信息可能包括企業(yè)內(nèi)部的商業(yè)機密、計劃、策略等。如果這些信息被惡意利用,可能會對企業(yè)造成嚴(yán)重?fù)p失。
3、系統(tǒng)漏洞:盡管ChatGPT具有強大的技術(shù)實力,但其系統(tǒng)仍可能存在漏洞。如果黑客利用這些漏洞入侵企業(yè)服務(wù)器,便可能導(dǎo)致數(shù)據(jù)泄露。
理論上,只要我們針對性的解決這幾個問題,LLM的安全使用也就不在話下。
現(xiàn)在,很多引入LLM的企業(yè)基本都建立了風(fēng)控機制,按照LLM使用流程的先后順序,這些機制包括加強安全培訓(xùn)、定期審查系統(tǒng)、加密處理敏感信息、使用可靠的人工智能服務(wù)提供商、建立應(yīng)急預(yù)案等。
在這些安全措施中,大家會發(fā)現(xiàn)“使用可靠的人工智能服務(wù)提供商”這一點最為重要,畢竟引入一個具備高度安全機制的LLM會事半功倍。其他幾點也能起到一定的作用,但多是為了防患于未然以及事后補救,并且其中的很多人為因素難以避免。
與此同時,隨著技術(shù)的不斷發(fā)展,LLM的應(yīng)用也進入到了AI Agent階段。
AI Agent有效避免LLM數(shù)據(jù)泄露
AI Agent是由AI驅(qū)動的程序,當(dāng)給定目標(biāo)時,能夠自己創(chuàng)建任務(wù)、完成任務(wù)、創(chuàng)建新任務(wù)、重新確定任務(wù)列表的優(yōu)先級、完成新的頂級任務(wù),并循環(huán)直到達到目標(biāo)。
使用AI Agent,只需輸入一句話或者更簡單的指令,就能通過理解與分析獲悉用戶的意圖,進而規(guī)劃并執(zhí)行一系列任務(wù),最終輸出詳盡而具體的答案。
AI Agent不僅讓輸入更加簡單,也在一定程度上提高了安全系數(shù),有效避免了數(shù)據(jù)泄露的可能,還能最大限度發(fā)揮LLM的能力。
AI Agent正在快速影響更多領(lǐng)域,超自動化領(lǐng)域也是如此。目前廠商們都在積極引入或自研大模型,并基于這些大模型打造Agent,以從安全、易用性等各方面提升超自動化的應(yīng)用效率。
當(dāng)然,超自動化Agent在數(shù)據(jù)安全方面遠不是減少提示詞輸入那么簡單。
超自動化Agent破解LLM安全謎題
超自動化領(lǐng)域如何通過AI Agent提升安全系數(shù)呢?
這里王吉偉頻道以實在智能業(yè)界首發(fā)的實在RPA Agent智能體為例,介紹超自動化Agents如何保障用戶數(shù)據(jù)安全。
實在RPA Agent智能體是基于實在智能自研垂直領(lǐng)域大模型TARS構(gòu)建的RPA\超自動化智能體,是一種能夠自主拆解任務(wù)、感知當(dāng)前環(huán)境、執(zhí)行并且反饋、記憶歷史經(jīng)驗的RPA全新模式。
為了讓用戶更安全的使用AI智能體,實在RPA Agent智能體在TARS大語言模型和RPA工具包都設(shè)置的多重安全機制。
TARS大語言模型的安全機制側(cè)重于敏感數(shù)據(jù)、內(nèi)部政策和提示檢查。在預(yù)訓(xùn)練或SFT階段通過數(shù)據(jù)處理和文本分類算法刪除敏感數(shù)據(jù),在大模型的輸出結(jié)果之上疊加一個輔助安全模型,RLHF(人類反饋強化學(xué)習(xí))階段使用內(nèi)部策略,檢查用戶查詢并添加安全提示等。
這樣就能保證用戶輸入內(nèi)容的多層過濾,防止敏感數(shù)據(jù)的外露。
TARS大型語言模型上基于充分細致的語料收集和清洗、數(shù)據(jù)處理及標(biāo)注,超千億Tokens的預(yù)訓(xùn)練語料和超百萬條指令微調(diào)數(shù)據(jù),實在智能獨立完整復(fù)現(xiàn)大模型構(gòu)建的預(yù)訓(xùn)練、指令微調(diào)和RLHF三階段,使大模型具備完整能力。
同時實在智能自主研發(fā)用于中文不當(dāng)言論判別和生成終止的Detoxify系統(tǒng),也提升了TARS的安全性和無害性,讓大模型“既懂事,又懂法”。
在RPA工具包上,TARS-RPA-Agent安全機制側(cè)重于機器人授權(quán)繼承和指揮官分配或分發(fā)授權(quán):
首先,RPA機器人的授權(quán)均繼承自創(chuàng)建機器人的用戶,同時其權(quán)限范圍也和所在賬號的權(quán)限是一致的,不會獲取超出其權(quán)限范圍的信息;
其次,RPA指揮官可以分配和控制TARS-RPA-Agent的授權(quán);
第三,在開發(fā)過程中,實在智能設(shè)計了一個易于處理敏感數(shù)據(jù)的模塊,使得敏感數(shù)據(jù)更易于通過配置、刪除、導(dǎo)入等方式進行設(shè)置。
除了LLM和RPA,TARS-RPA-Agent還包含其他輔助模塊,其中的安全機制側(cè)重于內(nèi)部知識庫認(rèn)證、內(nèi)部文檔訪問以及用戶確認(rèn)。
有了面向LLM、RPA和輔助模塊的多重安全機制,在十幾層防護墻的共同作用下,想要泄露隱私數(shù)據(jù)都很難,徹底杜絕了前文所講的人為泄露數(shù)據(jù)的情況。再加上應(yīng)對系統(tǒng)漏洞的相關(guān)安全機制,足以把LLM應(yīng)用安全打造得固若金湯。
當(dāng)然,這還是直接使用TARS大模型或者調(diào)用API的情況。如果你是現(xiàn)金流充沛的企業(yè),采用本地部署大語言模型的方式,安全情況會更上一層樓。
需要說明的是,這種整體安全解決方案非常適用于一些大型企業(yè)的LLM應(yīng)用安全過濾。
出于安全考慮,企業(yè)都希望在應(yīng)用LLM時過濾內(nèi)部敏感信息。
目前市面上的數(shù)據(jù)安全管理軟件,功能豐富但應(yīng)用復(fù)雜且價格不菲。為了LLM數(shù)據(jù)過濾這種單一應(yīng)用場景而斥巨資購買全數(shù)據(jù)監(jiān)控軟件,顯然過于浪費,并不是LLM數(shù)據(jù)過濾的最優(yōu)選。
事實上,這類需求更適合LLM技術(shù)供應(yīng)商基于大語言模型技術(shù)路徑去做。只需在其LLM產(chǎn)品體系中添加隱私數(shù)據(jù)過濾功能,為企業(yè)用戶開放不斷更新或增刪敏感數(shù)據(jù)庫內(nèi)容的權(quán)限。
這種模式,不僅能為本身大語言模型提供過濾安全功能,還能用于企業(yè)所使用的OpenAI、文心一言等第三方大語言模型,能夠在最大限度保護員工創(chuàng)造力的同時做好公司敏感數(shù)據(jù)的防護。
這樣,企業(yè)就能實現(xiàn)花一份錢去保障更多LLM的安全。
如果你的企業(yè)正在為LLM的應(yīng)用安全及預(yù)算而發(fā)愁,不妨試試實在智能的這種安全解決方案,或許會讓你眼前一亮。
全文完
【王吉偉頻道,關(guān)注AIGC與IoT,專注數(shù)字化轉(zhuǎn)型、業(yè)務(wù)流程自動化與RPA,歡迎關(guān)注與交流。】
申請創(chuàng)業(yè)報道,分享創(chuàng)業(yè)好點子。點擊此處,共同探討創(chuàng)業(yè)新機遇!
9月24日,2025云棲大會在杭州開幕,阿里巴巴集團CEO、阿里云智能集團董事長兼CEO吳泳銘發(fā)表主旨演講,首次系統(tǒng)性地闡述通往ASI的三階段演進路線,包括智能涌現(xiàn)、自主行動以及自我迭代等,實現(xiàn)從學(xué)習(xí)人、輔助人到超越人的發(fā)展脈絡(luò)?;谏鲜龅陌l(fā)展路線,吳泳銘對外做出判斷,大模型是下一代的操作系統(tǒng)。“我
文/二風(fēng)來源/節(jié)點財經(jīng)每年高考成績放榜后,數(shù)千萬考生和家長將迎來另一場硬仗——填報志愿。今年,這一領(lǐng)域迎來了AI的全面介入,多家互聯(lián)網(wǎng)大廠和教育公司紛紛推出智能志愿填報產(chǎn)品,為考生提供院校和專業(yè)選擇建議。據(jù)艾媒咨詢數(shù)據(jù),2023年中國高考志愿填報市場付費規(guī)模約9.5億元,近九成考生愿意借助志愿填報服
崔大寶|節(jié)點財經(jīng)創(chuàng)始人進入2024年,大模型似乎有熄火之勢:資本市場,與之關(guān)聯(lián)的概念炒不動了,英偉達股價動輒暴跌重挫,引發(fā)“泡沫戳破”的擔(dān)憂;消費市場,BATH們的推新活動少了,產(chǎn)品更新迭代的速度慢了,民眾的關(guān)注度降了……熱鬧的大概只剩下兩場酣仗:自5月15日字節(jié)跳動宣布“以厘計費”,打響國內(nèi)大模型
年初大模型行業(yè)上演“長文本”大戰(zhàn)時,我們就萌生過做一個“讀書助理”的想法。測試了市面上主流的大模型后,發(fā)現(xiàn)普遍存在兩個不足:一種是可以處理的文本長度不夠,即使有些大模型將文本長度提升到了20萬字,像《紅樓夢》這樣近百萬字的名著,還是需要多次才能“讀”完。另一種是語言理解和生成能力不足,經(jīng)常出現(xiàn)“幻覺
互聯(lián)網(wǎng)或許從未停止創(chuàng)新,只是對于創(chuàng)新的認(rèn)知下降了。
“養(yǎng)龍蝦”到底要花多少錢?這個問題可能是大家最關(guān)心的。我們把成本拆成三部分:服務(wù)器租用費+大模型API調(diào)用費+雜項開銷。第一部分:服務(wù)器租用費。最省錢的方案當(dāng)然是本地舊電腦自托管——零新增成本,電費忽略不計。但如前所述,你需要接受“不是7×24小時在線”的局限性。如果選擇云服務(wù)器,成本差異就很大了。
不少朋友第一次接觸OpenClaw時,都會有一個相同的困惑:這玩意兒到底該裝在哪里?OpenClaw(社區(qū)戲稱“養(yǎng)龍蝦”,因Logo為龍蝦鉗)不是普通的聊天機器人,而是一款本地優(yōu)先、可自主執(zhí)行、支持多Agent分工協(xié)作的AI執(zhí)行網(wǎng)關(guān)。說白了,它讓大模型從“只會說話”變成“會動手做事”——幫你管理文件
01別相信“一鍵養(yǎng)蝦,躺平賺錢”的鬼話打開社交媒體,你可能會看到這樣的標(biāo)題:“養(yǎng)只龍蝦自動炒股,零代碼養(yǎng)出數(shù)字巴菲特!”信了,你就輸了。真實情況是:一個做跨境電商的小哥花了200元租服務(wù)器、訂閱API,指望龍蝦幫他炒股暴富。結(jié)果龍蝦開始幾天還像模像樣,后來直接擺爛,生成個干癟的大綱就敷衍了事。AI是
一張證書引發(fā)的討論4月7日,北京嫣然天使兒童醫(yī)院給陳光標(biāo)發(fā)了一張感謝證書,感謝他捐贈1000萬元。這事說起來挺曲折的。此前陳光標(biāo)高調(diào)說要贈給張雪一臺價值1300萬元的勞斯萊斯,張雪回應(yīng)“收了,八折賣掉捐給嫣然”,一番拉扯之后,陳光標(biāo)把車變現(xiàn),1000萬元直接打到了嫣然醫(yī)院賬上。醫(yī)院發(fā)證書感謝,本來是
2026年4月7日,國家安全部就AI核心術(shù)語“詞元”(Token)發(fā)布安全警示,強調(diào)在日均調(diào)用量突破140萬億規(guī)模的市場背景下,需高度警惕由此引發(fā)的數(shù)據(jù)泄露與金融詐騙風(fēng)險。據(jù)統(tǒng)計,截至今年3月,我國日均詞元調(diào)用量已超過140萬億,較2024年初增長1000多倍。詞元作為大模型處理信息的最小單元,兼具
如今出門,如果你還沒用過AI智能助手,可能真有點跟不上節(jié)奏了。無論是寫作文、查資料,還是規(guī)劃出行路線,越來越多的人已經(jīng)習(xí)慣隨手打開AI問一句。這股熱潮背后,中國AI大模型用實打?qū)嵉臄?shù)據(jù)交出了一份亮眼的成績單。根據(jù)全球知名AI模型聚合平臺OpenRouter的最新數(shù)據(jù),在3月30日至4月5日這一周,中
01別在主電腦上養(yǎng)!這是最最重要的一條“保命”建議。很多小白心血來潮,直接在自己存著畢業(yè)論文、工作文件、銀行卡信息的主力電腦上部署OpenClaw。然后悲劇發(fā)生了:讓龍蝦幫忙整理一下桌面文件,結(jié)果它把整臺電腦的文件全刪了。這不是段子,是真事。OpenClaw一旦被授予高權(quán)限,就能執(zhí)行刪除、修改等不可
01免費領(lǐng)養(yǎng),但飼料要錢很多人第一次聽說OpenClaw時,腦子里冒出的第一個念頭是:開源軟件,那不免費嗎?沒錯,OpenClaw本身確實是開源的,下載安裝一分錢不收。但你很快就會發(fā)現(xiàn),真正的開銷根本不在這里。養(yǎng)一只“龍蝦”,就像領(lǐng)養(yǎng)了一只寵物——領(lǐng)養(yǎng)免費,但“蝦缸”“蝦糧”“蝦保姆”都得自己掏錢。
一只“龍蝦”,火遍全網(wǎng)“今天你養(yǎng)龍蝦了嗎?”這句話在2026年初,迅速取代“吃了嗎”成為社交媒體上的新晉暗號。別誤會,這不是什么水產(chǎn)養(yǎng)殖新風(fēng)口。這里說的“龍蝦”,是一款名為OpenClaw的開源AI智能體。因為它的圖標(biāo)是一只紅色龍蝦,網(wǎng)友們便把部署、配置和使用它的過程,戲稱為“養(yǎng)龍蝦”。一個開源軟件
凌晨兩點,小王合上筆記本,揉了揉酸脹的眼睛?;艘粋€月寫出來的10萬字短劇劇本躺在硬盤里,要真正把它拍成劇,得找演員、租場地、請攝像、做后期……粗算下來少說要幾十萬,他只能把劇本繼續(xù)鎖在抽屜里。不過,現(xiàn)在小王的劇本可以“見光”了。2026年3月19日,字節(jié)跳動旗下的小云雀AI正式上線了短劇Agent