AI Agent發(fā)展簡(jiǎn)史，從哲學(xué)思想啟蒙到人工智能實(shí)體落地

2023-10-19 12:52 來(lái)源：A5專欄我來(lái)投稿撤稿糾錯(cuò)

AI Agent發(fā)展簡(jiǎn)史，從哲學(xué)思想啟蒙到人工智能實(shí)體落地想了解AI智能體的發(fā)展歷程?這篇AI Agent發(fā)展簡(jiǎn)史必讀!終于有人把AI Agent的發(fā)展史講明白了，一定要收藏AI Agent發(fā)展簡(jiǎn)史，解密AI智能體從哲學(xué)啟蒙到落地人工智能的歷程全面了解AI智能體發(fā)展歷程，一定要看這篇AI Agent發(fā)展簡(jiǎn)史你可能想不到，AI Agent最早出現(xiàn)于《道德經(jīng)》和亞里士多德哲學(xué)

文/王吉偉

自AutoGPT火出圈后，業(yè)內(nèi)對(duì)AI Agent的討論從沒(méi)停止過(guò)。

Lilian Weng在其六千字博文中對(duì)AI Agent的系統(tǒng)介紹，直接對(duì)當(dāng)代基于大語(yǔ)言模型的AI Agent做了全新定義，至此“LLM+記憶+任務(wù)規(guī)劃+工具使用”就成了全新的AI Agent四件套。

搞懂了AI Agent原理，業(yè)內(nèi)外對(duì)于AI Agent探索與交流自然就更多。尤其是經(jīng)歷了一段時(shí)間的“LLM落地難”聲音的洗禮后，現(xiàn)在只要談到AI Agent，創(chuàng)業(yè)者們就會(huì)雙眼放光，投資人們也是熱情高漲，大企業(yè)們更是躍躍欲試。

由此，AI Agent成了繼LLM之后產(chǎn)學(xué)研用各界無(wú)人不知的嶄新焦點(diǎn)。

從人人皆談大語(yǔ)言模型，到張口就是AI Agent，意味著大家對(duì)LLM的關(guān)注真正落點(diǎn)到了應(yīng)用層，如何落地也真正成了所有領(lǐng)域探索LLM的壓軸戲。

談到AI Agent，很多人都認(rèn)為它是LLM的產(chǎn)物，畢竟大部分人接觸Agent是從基于GPT-4的AutoGPT、BabyGPT、GPT-Engineer等開源Agent程序開始的。

但了解AI Agent的人應(yīng)該知道，Agent概念并不是當(dāng)今的產(chǎn)物，而是伴隨人工智能而出現(xiàn)的智能實(shí)體概念不斷進(jìn)化的結(jié)果。

有人認(rèn)為AI Agent起源于20世紀(jì)80年代Wooldridge等人將Agent引入到人工智能，也有人認(rèn)為最早的Agent概念應(yīng)該是上世紀(jì)50年代阿蘭圖靈把“高度智能有機(jī)體””擴(kuò)展到了人工智能。

也有論文(見(jiàn)復(fù)旦大學(xué)《基于大型語(yǔ)言模型的Agent的興起和潛力：綜述》，文末可獲取)，將最早的Agent概念追溯到了丹尼斯·狄德羅的“聰明的鸚鵡”學(xué)說(shuō)。

如果從哲學(xué)啟迪的角度來(lái)看 Agent，大概可以上溯到公元前280年到公元前485年之間的莊子、亞里士多德、老子等思想家的學(xué)說(shuō)與著作。

從這些觀點(diǎn)、學(xué)說(shuō)與論文中，沿著哲學(xué)思想到人工智能實(shí)體的發(fā)展方向，大體可以梳理出一個(gè)AI Agent發(fā)展的大體脈絡(luò)。

在此基礎(chǔ)上，王吉頻道總結(jié)了這篇AI Agent發(fā)展簡(jiǎn)史，以讓大家更全面地了解AI Agent。

全文約7000字，文章略長(zhǎng)，建議大家先收藏再閱讀。如果感覺(jué)對(duì)你有用，不要忘了點(diǎn)贊、轉(zhuǎn)發(fā)和收藏。

起源：哲學(xué)啟蒙階段

“Agent”是一個(gè)有著悠久歷史的概念，在許多領(lǐng)域都得到了探索和解釋。

關(guān)于AI Agent的最早起源，還要從能夠啟發(fā)人類思考的哲學(xué)領(lǐng)域開始探尋。一些論文將其追溯到公元前350年左右的亞里士多德(Aristotle)時(shí)期，當(dāng)時(shí)的一些哲學(xué)家就曾在哲學(xué)作品描述過(guò)一些擁有欲望、信念、意圖和采取行動(dòng)能力的實(shí)體。

若從古代哲學(xué)家的思想著述中尋找Agent蹤跡，還可以把時(shí)間繼續(xù)上溯到公元前485年左右的中國(guó)春秋時(shí)代，老子在其對(duì)后世影響深遠(yuǎn)的思想巨著《道德經(jīng)》中也可以看到智能體的影子。

該書在四十二章寫道：“道生一，一生二，二生三，三生萬(wàn)物”。用現(xiàn)在計(jì)算科學(xué)眼光來(lái)看，它所描繪的”道”或許正是一個(gè)生生不息、包容萬(wàn)物并且能夠自身演化的實(shí)體，這種實(shí)體小到種子的生發(fā)榮枯，大到宇宙天體的周天運(yùn)轉(zhuǎn)，這是典型的自主智能體。

時(shí)間再晚一些的莊子，在“莊周夢(mèng)蝶”的時(shí)候，他不知道自己是莊子還是蝴蝶，分不清是夢(mèng)境還是現(xiàn)實(shí)。如果用現(xiàn)代計(jì)算科技技術(shù)來(lái)看，這個(gè)夢(mèng)可以理解為元宇宙，那么夢(mèng)里的蝴蝶包括所有具備生命的物體，便都如“西部世界小鎮(zhèn)”游戲那樣的生成智能體。

時(shí)間來(lái)到18世紀(jì)，法國(guó)思想啟蒙運(yùn)動(dòng)時(shí)期的丹尼斯·狄德羅(Denis Diderot )也提出了類似的觀點(diǎn)：如果鸚鵡可以回答每個(gè)問(wèn)題，它就可以被認(rèn)為是聰明的。雖然狄德羅在著作中寫的是鸚鵡，但誰(shuí)都能體會(huì)到這里的“鸚鵡”并不是指一只鳥，而是突出了一個(gè)深刻的概念，即高度智能的有機(jī)體可以有著類似于人類的智能。

是不是很有意思，我們認(rèn)為近代人們?cè)诳萍既〉靡欢ㄟM(jìn)展后才設(shè)想的AI Agent，其實(shí)古人早就思考并探索過(guò)。

或許正是因?yàn)檫@種思想，造就了人類對(duì)于各種工具的極致追求，誕生了春秋戰(zhàn)國(guó)時(shí)期魯班打造的能飛三天三夜的“木鵲”與墨家打造的機(jī)關(guān)城，三國(guó)時(shí)期的木牛流馬和指南車，唐代“酌酒行觴”的木人“女招待”，以及明朝幫人干活的多種“機(jī)關(guān)轉(zhuǎn)捩”木頭人。

這些人類早期出現(xiàn)的自動(dòng)化工具，并非具備分析及推理能力并能夠采取行動(dòng)的智能體。但自古至今一直存在的這些想法與做法，恰恰也反映了人類數(shù)千年來(lái)對(duì)于智能體或者說(shuō)自動(dòng)化的持續(xù)追求。

當(dāng)然通過(guò)這些思想我們也能獲悉，Agent的哲學(xué)概念泛指具有自主性的概念或?qū)嶓w，它可以是人造的物體，可以是植物或動(dòng)物，當(dāng)然也可以是人。

發(fā)展：人工智能實(shí)體化

不管最早的Agent描述出自哪里，這些哲學(xué)思想都不同程度啟發(fā)了近代Agent的發(fā)展。

20世紀(jì)50年代，阿蘭圖靈(Alan Turing)把“高度智能有機(jī)體”概念擴(kuò)展到了人工實(shí)體，并提出了著名的圖靈測(cè)試。這個(gè)測(cè)試是人工智能的基石，旨在探索機(jī)器是否可以顯示與人類相當(dāng)?shù)闹悄苄袨椤?/p>

這些人工智能實(shí)體通常被稱為“Agent”，形成了人工智能系統(tǒng)的基本構(gòu)建塊。至此，人工智能領(lǐng)域提到的Agent，通常是指能夠使用傳感器感知其周圍環(huán)境、做出決策、然后使用致動(dòng)器采取響應(yīng)行動(dòng)的人工實(shí)體。

隨著人工智能的發(fā)展，術(shù)語(yǔ)“Agent”在人工智能研究中找到了自己的位置，用來(lái)描述顯示智能行為并具有自主性、反應(yīng)性、主動(dòng)性和社交能力等素質(zhì)的實(shí)體。此后，Agent的探索和技術(shù)進(jìn)步成為人工智能領(lǐng)域的焦點(diǎn)。

50年代末到60年代是人工智能的創(chuàng)造時(shí)期，所出現(xiàn)的編程語(yǔ)言、書籍及電影到現(xiàn)在還在持續(xù)影響更多的人。

在經(jīng)歷第一次人工智能寒冬后，80年代出現(xiàn)了一股人工智能熱潮。這段時(shí)間的各項(xiàng)研究都有所突破，來(lái)自政府等機(jī)構(gòu)的投資也開始增多，研究者對(duì)AI Agent的探索也在逐步增加。

但這股熱潮僅維持了7年，到1987年迎來(lái)了第二次人工智能寒冬。

這股寒潮延續(xù)了很多年，盡管在這期間大部分機(jī)構(gòu)都缺少資金支持，人工智能還是沿著既有技術(shù)路線剛毅發(fā)展。

其中，AI Agent就在1995年被Wooldridge和Jennings定義為一個(gè)計(jì)算機(jī)系統(tǒng)：它位于某個(gè)環(huán)境中，能夠在這個(gè)環(huán)境中自主行動(dòng)，以實(shí)現(xiàn)其設(shè)計(jì)目標(biāo)。他們還提出AI Agent應(yīng)具有自主性、反應(yīng)性、社會(huì)能力與主動(dòng)性等四個(gè)基本屬性。

而在AI Agent正式被經(jīng)濟(jì)學(xué)接納后，它也被進(jìn)一步定義為具備感知其環(huán)境并采取行動(dòng)以最大限度地提高成功機(jī)會(huì)的系統(tǒng)。根據(jù)這個(gè)定義，能夠解決特定問(wèn)題的簡(jiǎn)單程序也是“AI Agent”，所以后來(lái)能夠在各種棋類游戲中與人類對(duì)弈的機(jī)器人也算是AI Agent的一種。

AI Agent范式將AI研究定義為“智能代理研究”，它研究各種智力，超越了研究人類智能。

在AI Agent被賦予“四種基本屬性”期間，1993年到2011年，出現(xiàn)了很多基于當(dāng)時(shí)AI技術(shù)且令人印象深刻的Agent類項(xiàng)目。

這些項(xiàng)目的出現(xiàn)時(shí)間和簡(jiǎn)介如下：

1997年：深藍(lán)(由IBM開發(fā))在一場(chǎng)廣為人知的比賽中擊敗了世界國(guó)際象棋冠軍加里·卡斯帕羅夫，成為第一個(gè)擊敗人類國(guó)際象棋冠軍的程序。1997年：Windows發(fā)布了語(yǔ)音識(shí)別軟件(由Dragon Systems開發(fā))。2000年：Cynthia Breazeal教授開發(fā)了第一個(gè)可以用面部模擬人類情感的機(jī)器人，它擁有眼睛、眉毛、耳朵和嘴巴，被稱為Kismet。2002年：第一個(gè)Roomba被釋放。2003年：美國(guó)宇航局將兩輛火星車(勇氣號(hào)和機(jī)遇號(hào))降落在火星上，它們?cè)跊](méi)有人類干預(yù)的情況下在火星表面航行。2006年：Twitter，F(xiàn)acebook和Netflix等公司開始利用AI作為其廣告和用戶體驗(yàn)(UX)算法的一部分。2010年：Microsoft推出了Xbox 360 Kinect，這是第一款旨在跟蹤身體運(yùn)動(dòng)并將其轉(zhuǎn)化為游戲方向的游戲硬件。2011年：一臺(tái)名為Watson(由IBM創(chuàng)建)的NLP計(jì)算機(jī)被編程來(lái)回答問(wèn)題，在電視轉(zhuǎn)播的智力比賽節(jié)目《Jeopardy》中戰(zhàn)勝了兩位前冠軍。2011年：蘋果發(fā)布了Siri，這是第一個(gè)流行的虛擬助手。

進(jìn)化：AI Agnet的演變

伴隨著AI 技術(shù)的發(fā)展，至2000年左右，Agent已經(jīng)衍生出不少種類。

根據(jù)其感知的智能和能力程度的不同，羅素、諾維格、彼得等人在《Artificial Intelligence: A Modern Approach》一書中將AI Agent分為以下五類：

簡(jiǎn)單反射智能體(SIMPLE REFLEX AGENTS)：一種簡(jiǎn)單的代理類型，它基于當(dāng)前的感知而不是基于感知?dú)v史的其余部分。這種類型的問(wèn)題包括智力非常有限，對(duì)狀態(tài)的非感知部分一無(wú)所知，生成和存儲(chǔ)規(guī)模巨大以及無(wú)法適應(yīng)環(huán)境變化。

基于模型的智能體(MODEL-BASED AGENTS)：這種代理利用條件操作規(guī)則，通過(guò)查找允許滿足基于當(dāng)前情況的條件的規(guī)則來(lái)工作，通常由兩個(gè)重要因素組成，即模型和內(nèi)部狀態(tài)。它可以通過(guò)獲取有關(guān)世界如何演變以及代理的操作如何影響世界的信息來(lái)更新代理的狀態(tài)。

基于目標(biāo)的智能體(GOAL-BASED AGENTS)：此類型根據(jù)其目標(biāo)或理想情況做出決定，以便它可以選擇可以實(shí)現(xiàn)所需目標(biāo)的操作。這種智能體可以通過(guò)搜索以及不同的計(jì)劃，具備思考一長(zhǎng)串可能的行動(dòng)來(lái)確認(rèn)其實(shí)現(xiàn)目標(biāo)的能力，使代理具有主動(dòng)性。

基于實(shí)用程序的智能體(UTILITY-BASED AGENTS)：公用事業(yè)代理的最終用途是其構(gòu)建塊，當(dāng)需要從多個(gè)替代方案中采取最佳行動(dòng)和決策時(shí)使用。它考慮了代理的幸福感，并給出了代理由于效用而有多幸福的想法，因此具有最大效用的行動(dòng)。

學(xué)習(xí)型智能體(LEARNING AGENTS)：具有從過(guò)去的經(jīng)驗(yàn)中學(xué)習(xí)的能力，并根據(jù)學(xué)習(xí)能力采取行動(dòng)或做出決定。它從過(guò)去獲得基礎(chǔ)知識(shí)，并利用這些學(xué)習(xí)來(lái)自動(dòng)行動(dòng)和適應(yīng)。一般由四部分組成，分別是學(xué)習(xí)元素、批評(píng)者、性能元素和問(wèn)題生成器。

從這些分類和基本定義而言，很多AI工具以及早期的智能程序都可以歸類為Agent的一種。包括早期的IBM用于象棋比賽的深藍(lán)以及后文出場(chǎng)的AlphaGO，都算是基于當(dāng)時(shí)最新AI技術(shù)的AI Agent。

當(dāng)代：基于LLM的智能體

在2012年的ImageNet計(jì)算機(jī)視覺(jué)挑戰(zhàn)賽中，AlexNet卷積神經(jīng)網(wǎng)絡(luò)的深度學(xué)習(xí)模型取得了第一名，深度學(xué)習(xí)從此真正在人工智能領(lǐng)域大顯身手。

2016年，AlphaGO(谷歌專門從事圍棋游戲的AI Agent)將擊敗歐洲冠軍(范慧)和世界冠軍(李世石)，并很快被自己的兄弟(AlphaGo Zero)打敗。

2017年，谷歌提出transformer。

2018年，谷歌發(fā)布基于Transformer模型的BERT，拉開了大語(yǔ)言模型序幕。

2019年，谷歌AlphaStar在視頻游戲《星際爭(zhēng)霸2》上達(dá)到了Grandmaster，表現(xiàn)優(yōu)于除0.2%以外的所有人類玩家。

2019年，OpenAI發(fā)布GPT-2的自然語(yǔ)言處理模型，并分別在2020年和2022年發(fā)布了GPT-3、DALL·E 2及GPT-3.5，ChatGPT的火爆為AI Agent在大語(yǔ)言模型時(shí)代的發(fā)展與應(yīng)用提供了新的契機(jī)。

從2023年1月開始，全球廠商發(fā)布了多個(gè)LLM，其中包括LLaMA、BLOOM、StableLM、ChatGLM等多個(gè)開源LLM。

與此同時(shí)，全球科技廠商所推出的數(shù)以千計(jì)的LLM，為AI Agent在各領(lǐng)域多元化應(yīng)用提供了更廣泛的基礎(chǔ)。

2023年3月14日，OpenAI發(fā)布GPT-4。3月底，AutoGPT橫空出世，迅速火遍全球。

Auto GPT是Github上由OpenAI推出的一個(gè)免費(fèi)開源項(xiàng)目，結(jié)合了GPT-4和GPT-3.5技術(shù)，通過(guò)API創(chuàng)建完整的項(xiàng)目。

與ChatGPT不同的是，用戶不需要不斷對(duì)AI提問(wèn)以獲得對(duì)應(yīng)回答，在AutoGPT中只需為其提供一個(gè)AI名稱、描述和五個(gè)目標(biāo)，AutoGPT就可以自己完成項(xiàng)目。它可以讀寫文件、瀏覽網(wǎng)頁(yè)、審查自己提示的結(jié)果，以及將其與所說(shuō)的提示歷史記錄相結(jié)合。

AutoGPT也是OpenAI的一個(gè)實(shí)驗(yàn)性項(xiàng)目，用以展示GPT-4語(yǔ)言模型的強(qiáng)大功能。由此開始，更多人在了解與體驗(yàn)AutoGPT的同時(shí)，也逐漸認(rèn)知到了AI Agent。

由此開始，基于LLM的AI Agent開始雨后春筍般涌現(xiàn)，出現(xiàn)了Generative Agent、GPT-Engineer、BabyAGI、MetaGPT等多個(gè)項(xiàng)目，這些項(xiàng)目的爆發(fā)將LLM的發(fā)展與應(yīng)用帶入了新階段，也將LLM的創(chuàng)業(yè)與落地引向了AI Agent。

5月，OpenAI拿下新一輪3億美元融資后，創(chuàng)始人Sam Altman透露更加關(guān)注如何使用聊天機(jī)器人來(lái)創(chuàng)建自主AI Agents，并會(huì)將相關(guān)功能部署到ChatGPT助手中。

6月，扎克伯格在全體員工會(huì)議上宣布了一系列處于不同開發(fā)階段的技術(shù)，其中一個(gè)就是將發(fā)布能為用戶提供幫助或娛樂(lè)功能的具備不同個(gè)性和能力的AI Agents。

6月底，OpenAI Safety團(tuán)隊(duì)負(fù)責(zé)人Lilian Weng發(fā)表了一篇名為《LLM Powered Autonomous Agents》的文章，詳細(xì)介紹了基于LLM的AI Agent，并認(rèn)為這將使LLM轉(zhuǎn)為通用問(wèn)題解決方案的途徑之一。

至此，人們終于對(duì)AI Agent有了全面的了解，AI Agent的神秘面紗終于被揭開。

人工智能領(lǐng)域?qū)τ贏I Agent的探索從未停止，在每個(gè)AI技術(shù)獲得全新突破之后都會(huì)有組織將其探索與應(yīng)用納入新課題。以AlphaGo為代表的深度學(xué)習(xí)與神經(jīng)網(wǎng)絡(luò)技術(shù)嶄露頭角后，就出現(xiàn)了基于深度學(xué)習(xí)及神經(jīng)網(wǎng)絡(luò)的Agent，被應(yīng)用于游戲、醫(yī)療等諸多領(lǐng)域。

而近幾年大語(yǔ)言模型獲得突破，在谷歌發(fā)布Bert及OpenAI 發(fā)布GPT-2后，很多組織都開始與其合作開始打造基于LLM的Agent。

我們還在談?wù)揂I Agent的時(shí)候，海外已經(jīng)出現(xiàn)很多AI Agent框架與產(chǎn)品。比如在8月末剛完成1500萬(wàn)美金融資的Voiceflow，現(xiàn)在已是最受開發(fā)者歡迎的Al Agent構(gòu)建平臺(tái)之一，有超過(guò)13萬(wàn)團(tuán)隊(duì)在這里高效協(xié)同構(gòu)建自己的Al Agent。

從這類AI Agent構(gòu)建平臺(tái)來(lái)看，目前已經(jīng)有不少組織正在或者已經(jīng)構(gòu)建自己的AI Agent，且每個(gè)組織都可以面向不同業(yè)務(wù)場(chǎng)景的多個(gè)Agent。

王吉偉頻道也在之前盤點(diǎn)了全球60個(gè)AI Agent項(xiàng)目，目前已經(jīng)提出項(xiàng)目清單1.0，這個(gè)名單將會(huì)不斷迭代，也歡迎已經(jīng)推出AI Agent的團(tuán)隊(duì)或者AI Agent愛(ài)好者，共同完善這份清單。(PS：回復(fù)agent+，獲取完整名單圖。)

定義：當(dāng)代AI Agent特性

Lilian Weng在其博文《LLM Powered Autonomous Agents》中，對(duì)基于LLM的AI Agent 做了系統(tǒng)綜述。(PS：嫌麻煩不想找的朋友，后臺(tái)回復(fù)agent+獲取該文及翻譯。)

原文地址：https://lilianweng.github.io/posts/2023-06-23-agent/

她將Agents定義為L(zhǎng)LM、記憶(Memory)、任務(wù)規(guī)劃(Planning Skills)以及工具使用(Tool Use) 的集合，其中 LLM 是核心大腦，Memory、Planning Skills 以及 Tool Use 等則是 Agents 系統(tǒng)實(shí)現(xiàn)的三個(gè)關(guān)鍵組件，并對(duì)每個(gè)模塊下實(shí)現(xiàn)路徑進(jìn)行了細(xì)致的梳理和說(shuō)明。

▲ Agent系統(tǒng)架構(gòu)圖，出自博文《LLM Powered Autonomous Agents》

從文章中不難看出，目前我們所說(shuō)的AI Agent本質(zhì)是一個(gè)控制LLM來(lái)解決問(wèn)題的代理系統(tǒng)。LLM的核心能力是意圖理解與文本生成，如果能讓LLM學(xué)會(huì)使用工具，那么LLM本身的能力也將大大拓展。AI Agent系統(tǒng)就是這樣一種解決方案，可以讓LLM“超級(jí)大腦”真正有可能成為人類的“全能助手”。

在AI發(fā)展到大語(yǔ)言模型時(shí)代，很多AI工具看起來(lái)已經(jīng)具備了初步的Agent能力。雖然AI工具包括機(jī)器人和Agent都是旨在自動(dòng)化任務(wù)的軟件程序，但特定的關(guān)鍵特征將AI智能體區(qū)分為更復(fù)雜的AI 軟件。

業(yè)內(nèi)認(rèn)為，當(dāng)AI工具具備以下特征時(shí)，就可以將該工具視為AI Agent：

自治(Autonomy)：AI 虛擬智能體能夠獨(dú)立執(zhí)行任務(wù)，而無(wú)需人工干預(yù)或輸入。知覺(jué)(Perception)：智能體功能通過(guò)各種傳感器(如攝像頭或麥克風(fēng))感知和解釋它們所處的環(huán)境。反應(yīng)(Reactivity)：AI 智能體可以評(píng)估環(huán)境并做出相應(yīng)的響應(yīng)以實(shí)現(xiàn)其目標(biāo)。推理和決策(Reasoning and decision-making)：AI 智能體是智能工具，可以分析數(shù)據(jù)并做出決策以實(shí)現(xiàn)目標(biāo)。他們使用推理技術(shù)和算法來(lái)處理信息并采取適當(dāng)?shù)男袆?dòng)。學(xué)習(xí)(Learning)：可以通過(guò)機(jī)器、深度和強(qiáng)化學(xué)習(xí)元素和技術(shù)來(lái)學(xué)習(xí)和提高他們的表現(xiàn)。通信(Communication)：AI 智能體可以使用不同的方法與其他智能體或人類進(jìn)行通信，例如理解和響應(yīng)自然語(yǔ)言、識(shí)別語(yǔ)音以及通過(guò)文本交換消息。以目標(biāo)為導(dǎo)向(Goal-oriented)：它們旨在實(shí)現(xiàn)特定目標(biāo)，這些目標(biāo)可以通過(guò)與環(huán)境的交互來(lái)預(yù)定義或?qū)W習(xí)。

在這個(gè)更為廣義的特征之下，今后AI Agent存在的環(huán)境將更加寬泛，種類也將更加繁多。

與此同時(shí)，在大語(yǔ)言模型的加持之下，AI Agent也逐步衍生出了自主智能體(Autonomous Agent)和生成智能體(Generative Agent)。

自主智能體如AutoGPT，能夠根據(jù)人們通過(guò)自然語(yǔ)言提出的需求，自動(dòng)執(zhí)行任務(wù)并實(shí)現(xiàn)預(yù)期結(jié)果。在這種合作模式下，自主智能體主要是為人類服務(wù)，更像是一個(gè)高效的工具。

大家目前所聊的智能體多數(shù)是基于LLM自主智能體，它已被認(rèn)為是通向通用人工智能(AGI)最有希望的道路。

如果說(shuō)AutoGPT拉開了自主智能體的帷幕，今年4月份斯坦福和谷歌的研究者共同創(chuàng)建的“西部世界小鎮(zhèn)(Westworld simulation)”則開啟了生成智能體之路。小鎮(zhèn)里的25個(gè)AI Agent，每天都在樂(lè)此不疲地散步、約會(huì)、聊天、用餐以及分享當(dāng)天的新聞。

▲ 生成智能體Westworld simulation運(yùn)行截圖

生成智能體基于GPT-3 、BERT等LLM構(gòu)建，以自然語(yǔ)言存儲(chǔ)代理體驗(yàn)的完整記錄。生成智能體體系結(jié)構(gòu)包括三個(gè)主要組件：觀察、規(guī)劃和反思。這些組件協(xié)同工作，使生成代理能夠生成反映其個(gè)性、偏好、技能和目標(biāo)的現(xiàn)實(shí)且一致的行為。此外，此體系結(jié)構(gòu)允許用戶、代理和其他代理之間進(jìn)行自然語(yǔ)言通信。

簡(jiǎn)單的講，生成智能體就像美劇《西部世界》中的人形機(jī)器人以及《失控玩家》中的智能NPC，它們?cè)谕画h(huán)境中生活，擁有自己的記憶和目標(biāo)，不僅與人類交往，還會(huì)與其他機(jī)器人互動(dòng)。

未來(lái)：AI Agent無(wú)處不在

Agent的核心在于LLM，可以說(shuō)大語(yǔ)言模型的能力決定了AI Agent的能力半徑，所以目前基于GPT-4的Agent表現(xiàn)得更加智能。未來(lái)隨著更多大語(yǔ)言模型的完善、迭代與優(yōu)化，基于這些LLM構(gòu)建的Agent自然能力也會(huì)更強(qiáng)。

以后的AI Agnet，將主要呈現(xiàn)以下幾種特征：

更加智能、自主并擁有更強(qiáng)適應(yīng)性。將能夠?qū)W習(xí)和改進(jìn)自己的行為，根據(jù)不同的情境和用戶做出最優(yōu)的決策，以及處理不確定性和復(fù)雜性。更加人性化、友好和可信賴。能夠理解和表達(dá)情感，建立和維持與用戶的關(guān)系，以及遵守道德和社會(huì)準(zhǔn)則。更加多樣化、專業(yè)化和協(xié)作化。能夠針對(duì)不同的領(lǐng)域和任務(wù)提供專業(yè)的服務(wù)或幫助，以及與其他AI Agent或人類進(jìn)行有效的協(xié)作和協(xié)調(diào)。

Agent將會(huì)成為大模型在各行業(yè)及領(lǐng)域應(yīng)用的主體形式，未來(lái)LLM的開發(fā)與應(yīng)用的都將圍繞Agent以工具或者助手的形式呈現(xiàn)。隨著Agent以標(biāo)準(zhǔn)化產(chǎn)品形態(tài)出現(xiàn)，廣大組織引入與應(yīng)用AI Agent將變得更加簡(jiǎn)單。

相關(guān)企業(yè)與組織也可以基于引入的大語(yǔ)言模型或者垂直領(lǐng)域模型構(gòu)建面向領(lǐng)域的Agent，以幫助客戶高效釋放LLM的能力。也可以構(gòu)建內(nèi)部或者面向客戶的AI Agent平臺(tái)及社區(qū)，方便自身及客戶運(yùn)營(yíng)中隨時(shí)構(gòu)建所需的Agent。

更多的AI Agent構(gòu)建平臺(tái)，也將促使大量Agent的出現(xiàn)，個(gè)人構(gòu)建與應(yīng)用Agent也將更加容易。未來(lái)只要大家愿意，隨時(shí)都可以通過(guò)各種Agent平臺(tái)打造適合自己的個(gè)性化Agent，通過(guò)更加個(gè)性化的功能與服務(wù)增強(qiáng)溝通和協(xié)作、拓展知識(shí)和技能等。

甚至還能在不同業(yè)務(wù)場(chǎng)景構(gòu)建多個(gè)不同的Agent，并讓這些Agent協(xié)同工作，多Agent系統(tǒng)協(xié)同可以輸出更加準(zhǔn)確的結(jié)果以及完成更加復(fù)雜的任務(wù)。

AI Agent無(wú)視行業(yè)與業(yè)務(wù)場(chǎng)景，只要能應(yīng)用LLM的地方都可以構(gòu)建相應(yīng)的Agent。它可以應(yīng)用于各行業(yè)，例如教育、醫(yī)療、金融、制造、娛樂(lè)等，幫助提高效率、降低成本、創(chuàng)造價(jià)值。

未來(lái)，AI Agent可能會(huì)更加智能、自適應(yīng)、多樣化，能夠處理更復(fù)雜的問(wèn)題和場(chǎng)景，與人類形成更緊密的合作和共生。

如Lilian Weng在博文中所說(shuō)，AI Agent可以讓LLM從“超級(jí)大腦”進(jìn)化為人類的“全能助手”，這意味著基于LLM的Agent助手以后將會(huì)服務(wù)更多的人與組織。

隨著AI Agent的廣泛應(yīng)用，大語(yǔ)言模型時(shí)代的人機(jī)交互也將升級(jí)人類與AI Agent的自動(dòng)化合作體系。這種新型人機(jī)合作可以稱之為人機(jī)智能體，它將推動(dòng)人類社會(huì)的生產(chǎn)結(jié)構(gòu)進(jìn)一步升級(jí)，進(jìn)而影響社會(huì)的各個(gè)方面。

同時(shí)，一個(gè)具備交流能力并能自主/自動(dòng)執(zhí)行任務(wù)的智能網(wǎng)絡(luò)將是互聯(lián)網(wǎng)的下一階段，AI Agent將是人類與之交互和執(zhí)行任務(wù)的智能工具。

未來(lái)的趨勢(shì)，AI agent大概率會(huì)出現(xiàn)在人類工作、學(xué)習(xí)、生活、娛樂(lè)的各個(gè)場(chǎng)景中，人人都將配備一個(gè)基于AI agent系統(tǒng)的智能助手，《鋼鐵俠》《星際穿越》《星球大戰(zhàn)》等電影中人機(jī)協(xié)同的場(chǎng)景將會(huì)真正變成現(xiàn)實(shí)。

這，又將是一個(gè)多大量級(jí)的市場(chǎng)。

寫在最后：本來(lái)還想在這篇文章中探討“Agent游戲的進(jìn)化”與“人類與智能體的界限”這兩個(gè)話題。限于篇幅以及這兩個(gè)話題與本文的相關(guān)性，只能在新的選題中與大家探討了。對(duì)這些感興趣的朋友，可以與王吉偉頻道交流。

參考資料：復(fù)旦大學(xué)NLP團(tuán)隊(duì)論文《基于大型語(yǔ)言模型的Agent的興起和潛力：綜述》

全文完

【王吉偉頻道，關(guān)注AIGC與IoT，專注數(shù)字化轉(zhuǎn)型、業(yè)務(wù)流程自動(dòng)化與RPA，歡迎關(guān)注與交流?！?/p>

申請(qǐng)創(chuàng)業(yè)報(bào)道，分享創(chuàng)業(yè)好點(diǎn)子。點(diǎn)擊此處，共同探討創(chuàng)業(yè)新機(jī)遇！