域名預(yù)訂/競(jìng)價(jià),好“米”不錯(cuò)過
看過劇版《三體》的讀者或許都記得一個(gè)名場(chǎng)面:來自三體的智子封鎖了人類科技,還向地球人發(fā)出了「你們是蟲子」的宣告。但沒有超能力的普通人史強(qiáng)卻在蝗群漫天飛舞的麥田中喊出:「把我們?nèi)祟惪闯墒窍x子的三體人,他們似乎忘了一個(gè)事實(shí),那就是蟲子從來就沒有被真正地戰(zhàn)勝過」。
三體人看到的是單個(gè)蟲子脆弱的一面 —— 你可以輕松踩死一只螞蟻,打死一只蝗蟲、蜜蜂。但他們沒有看到的是,當(dāng)這些蟲子集結(jié)在一起時(shí),它們可以涌現(xiàn)出遠(yuǎn)超個(gè)體簡(jiǎn)單相加的力量。
科學(xué)家們很早就發(fā)現(xiàn)了這種力量,并將其命名為「群體智能」(Swarm Intelligence)。這種智能不是由某個(gè)中央大腦控制,而是通過個(gè)體間的簡(jiǎn)單互動(dòng)和信息交換自然形成的。它是一種集體智慧的體現(xiàn),是自然界中一種奇妙而高效的協(xié)作方式。
其實(shí),從宏觀上說,人類社會(huì)的不斷發(fā)展和演化也是一種群體智能現(xiàn)象,絕大多數(shù)文明成果都是人類個(gè)體在長(zhǎng)期群體化、社會(huì)化的生產(chǎn)生活中逐漸演化形成的產(chǎn)物。
那么,人工智能的發(fā)展能否借鑒這種模式?答案自然是「能」。但長(zhǎng)期以來,由于機(jī)器的個(gè)體智能化程度較低等原因,「群體智能」遲遲難以涌現(xiàn)。
生成式 AI 的發(fā)展或許可以推動(dòng)這些問題的解決,也讓「群體智能」獲得了新一輪的關(guān)注。
「這波生成式 AI 相當(dāng)于把個(gè)體的智能化水平提升上去了。而個(gè)體智能的提升,意味著群體的智能有望實(shí)現(xiàn)指數(shù)級(jí)增長(zhǎng)。」在近期的一次訪談中,RockAI CEO 劉凡平向機(jī)器之心表達(dá)了這樣的觀點(diǎn)。
RockAI 是一家成立于 2023 年 6 月的 AI 初創(chuàng),他們自研了國(guó)內(nèi)首個(gè)非 Attention 機(jī)制的 Yan 架構(gòu)通用大模型,并將這個(gè)大模型部署在了手機(jī)、PC、無(wú)人機(jī)、機(jī)器人等多種端側(cè)設(shè)備上,還嘗試讓自己的大模型在這些設(shè)備上實(shí)現(xiàn)「自主學(xué)習(xí)」能力。
而這一切均服務(wù)于一個(gè)宏大的目標(biāo) —— 讓每一臺(tái)設(shè)備都擁有自己的智能,而且是可以像人類一樣實(shí)時(shí)學(xué)習(xí)、個(gè)性化自主進(jìn)化的系統(tǒng)。劉凡平認(rèn)為,當(dāng)這些擁有不同能力、不同個(gè)性的智能單元得以協(xié)同,即可完成數(shù)據(jù)共享、任務(wù)分配和策略協(xié)調(diào),涌現(xiàn)出更為宏大、多元的群體智能,最終實(shí)現(xiàn)個(gè)性化與群體智能的和諧統(tǒng)一,開啟人與機(jī)器的智能新時(shí)代。
那這一切怎么去實(shí)現(xiàn)呢?在訪談中,劉凡平和鄒佳思(RockAI 聯(lián)合創(chuàng)始人)向機(jī)器之心分享了他們的路線圖和最新進(jìn)展。
一條不同于 OpenAI 的 AGI 路線
前面提到,「群體智能」的研究進(jìn)展受限于單個(gè)個(gè)體的智能化程度,所以研究者們首先要解決的問題就是讓單個(gè)個(gè)體變得足夠聰明。
要說「聰明」,OpenAI 的模型可以說是出類拔萃。但從目前的情況來看,他們似乎更側(cè)重于訓(xùn)練出擁有超級(jí)智能的單個(gè)大模型。而且,這條路線走起來并不容易,因?yàn)樗叨纫蕾嚭A康臄?shù)據(jù)和計(jì)算資源,這在能源、數(shù)據(jù)和成本上都帶來了可持續(xù)性的問題。
此外,通過一個(gè)超級(jí)智能模型來處理所有任務(wù)是一種高度中心化的模式,這在實(shí)踐中容易出現(xiàn)智能增長(zhǎng)的瓶頸,因?yàn)閱我荒P腿狈`活的適應(yīng)能力和協(xié)作效應(yīng),導(dǎo)致其智能提升速度受到限制。
那么,OpenAI 未來有沒有可能也走群體智能的路線?這個(gè)問題目前還沒有明確答案。但可以看到的一點(diǎn)是,以該公司和其他大部分公司當(dāng)前采用的 Transformer 架構(gòu)去構(gòu)建群體智能的單個(gè)個(gè)體可能會(huì)遇到一些障礙。
首先是高算力需求的障礙。以 Attention 機(jī)制為基礎(chǔ)的 Transformer 架構(gòu)對(duì)計(jì)算資源的需求非常高,其計(jì)算復(fù)雜度為 O (n^2)(n 為序列長(zhǎng)度)。這意味著隨著輸入序列的增長(zhǎng),計(jì)算成本急劇增加。在構(gòu)建群體智能時(shí),我們需要多個(gè)單元大模型協(xié)同工作,而這些單元大模型往往部署在低算力的設(shè)備上(如無(wú)人機(jī)、手機(jī)、機(jī)器人等)。如果不經(jīng)過量化、裁剪等操作,Transformer 架構(gòu)的模型很難在低算力設(shè)備上直接部署。所以我們看到,很多公司都是通過這些操作讓模型成功在端側(cè)跑起來。
但對(duì)于群體智能來說,光讓模型跑起來還不夠,還要讓它們具備自主學(xué)習(xí)的能力。在劉凡平看來,這一點(diǎn)至關(guān)重要。
他解釋說,在一個(gè)沒有自主學(xué)習(xí)的群體中,最聰明的個(gè)體會(huì)主導(dǎo)其他智能體的決策,其他智能體只能跟隨它的指引。這種情況下,群體智能的上限就是最聰明個(gè)體的水平,無(wú)法超越。但通過自主學(xué)習(xí),每個(gè)智能體都可以獨(dú)立提升自身的智能水平,并逐漸接近最聰明的個(gè)體。而且,自主學(xué)習(xí)促進(jìn)了知識(shí)共享,類似于人類的知識(shí)傳承。這樣,群體中的所有智能體都會(huì)變得更聰明,群體整體的智能水平有望實(shí)現(xiàn)指數(shù)級(jí)增長(zhǎng),遠(yuǎn)遠(yuǎn)超出簡(jiǎn)單的個(gè)體累加。
而量化、裁剪等操作最致命的問題,就是破壞了模型的這種自主學(xué)習(xí)能力?!府?dāng)一個(gè)模型被壓縮、量化、裁剪之后,這個(gè)模型就不再具備再學(xué)習(xí)的能力了,因?yàn)樗臋?quán)重已經(jīng)發(fā)生了變化,這種變化基本是不可逆的。這就像我們把一個(gè)螺絲釘釘入墻中,如果在敲入的過程中螺絲釘受到損壞,那么想要把它取出來重新使用就變得很困難,讓它變得更鋒利就變得不可能。」劉凡平解釋說。
講到這里,實(shí)現(xiàn)群體智能的路線其實(shí)就已經(jīng)非常清晰了:
首先,你要在架構(gòu)層面做出改變,研發(fā)出一種可以克服 Transformer 缺陷的新架構(gòu)。
然后,你要將基于這個(gè)架構(gòu)的模型部署到各種端側(cè)設(shè)備上,讓模型和這些設(shè)備高度適配。
接下來,更重要的一點(diǎn)是,這個(gè)架構(gòu)的模型要能夠在各種端側(cè)設(shè)備上自主學(xué)習(xí),不斷進(jìn)化。
最后,這些模型與端側(cè)設(shè)備結(jié)合成的智能體要能夠自主協(xié)作,共同完成任務(wù)。
這其中的每個(gè)階段都不簡(jiǎn)單:
在第一階段,新架構(gòu)不止要具備低算力、部署到端側(cè)原生無(wú)損的特點(diǎn),還要具備可以媲美 Transformer 架構(gòu)的性能,保證單個(gè)個(gè)體足夠聰明且可以自主學(xué)習(xí)。
在第二階段,「大腦和身體」的高度適配涉及感知層面和數(shù)據(jù)處理的不同模態(tài),每種設(shè)備有著不同的需求,這增加了模型和設(shè)備適配的復(fù)雜性。
在第三階段,讓模型部署之后還可以學(xué)習(xí)就意味著要挑戰(zhàn)現(xiàn)有的訓(xùn)練、推理完全分離的機(jī)制,讓模型參數(shù)在端側(cè)也可以調(diào)整,且調(diào)整足夠快、代價(jià)足夠小。這就涉及到對(duì)傳統(tǒng)反向傳播機(jī)制的挑戰(zhàn),需要的創(chuàng)新非常底層。
在第四階段,主要挑戰(zhàn)是如何實(shí)現(xiàn)智能體之間的有效協(xié)作。這個(gè)過程要求智能體自主發(fā)現(xiàn)并形成完成任務(wù)的最佳方案,而不是依賴于人為設(shè)定或程序預(yù)設(shè)的方案。智能體需要根據(jù)自己的智能水平來決定協(xié)作的方式。
這些難點(diǎn)就決定了,RockAI 必須走一條不同于 OpenAI 的路線,挑戰(zhàn)一些傳統(tǒng)的已經(jīng)成為「共識(shí)」的方法。
劉凡平提到,在前兩個(gè)階段,他們已經(jīng)做出了一些成果,針對(duì)第三、四個(gè)階段也有了一些實(shí)驗(yàn)和構(gòu)想。
群體智能的單元大模型 ——Yan 1.3
第一階段的標(biāo)志性進(jìn)展是一個(gè)采用 Yan 架構(gòu)(而非 Transformer 架構(gòu)或其變體)的大模型。這個(gè)模型的 1.0 版本發(fā)布于今年的 1 月份,為非 Attention 機(jī)制的通用自然語(yǔ)言大模型。據(jù)了解,該模型有相較于同等參數(shù) Transformer 的 7 倍訓(xùn)練效率、5 倍推理吞吐和 3 倍記憶能力。而且,這一模型 100% 支持私有化部署應(yīng)用,不經(jīng)裁剪和壓縮即可在主流消費(fèi)級(jí) CPU 等端側(cè)設(shè)備上無(wú)損運(yùn)行。
經(jīng)過半年多的攻關(guān),這一模型剛剛迎來了最新版本 ——Yan 1.3。
Yan 1.3 是一個(gè) 3B 參數(shù)的多模態(tài)模型,能夠處理文本、語(yǔ)音、視覺等多種輸入,并輸出文本和語(yǔ)音,實(shí)現(xiàn)了多模態(tài)的模擬人類交互。
盡管參數(shù)量較小,但其效果已超越 Llama 3 8B 的模型。而且,它所用的訓(xùn)練語(yǔ)料比 Llama 3 要少,訓(xùn)練、推理算力也比 Llama 3 低很多。這在眾多非 Transformer 架構(gòu)的模型中是一個(gè)非常領(lǐng)先的成績(jī),其訓(xùn)練、推理的低成本也讓它比其他架構(gòu)更加貼近工業(yè)化和商業(yè)化。
這些出色的性能得益于高效的架構(gòu)設(shè)計(jì)和算法創(chuàng)新。
在架構(gòu)層面,RockAI 用一個(gè)名叫 MCSD(multi-channel slope and decay)的模塊替換了 Transformer 中的 Attention 機(jī)制,同時(shí)保留 Attention 機(jī)制中 token 之間的關(guān)聯(lián)性。在信息傳遞過程中,MCSD 強(qiáng)調(diào)了有效信息的傳遞,確保只有最重要的信息被傳遞給后續(xù)步驟,而且是以 O (n) 的復(fù)雜度往下傳,這樣可以提高整體效率。在驗(yàn)證特征有效性和 token 之間的關(guān)聯(lián)性方面,MCSD 表現(xiàn)優(yōu)秀。
在算法層面,RockAI 提出了一種類腦激活機(jī)制。這是一種分區(qū)激活的機(jī)制,就像人開車和寫字會(huì)分別激活腦部的視覺區(qū)域和閱讀區(qū)域一樣,Yan 1.3 會(huì)根據(jù)學(xué)習(xí)的類型和知識(shí)范圍來自適應(yīng)調(diào)整部分神經(jīng)元,而不是讓全量的參數(shù)參與訓(xùn)練。推理時(shí)也是如此。具體有哪些神經(jīng)元來參與運(yùn)算是由仿生神經(jīng)元驅(qū)動(dòng)的算法來決定的。
在今年的 GTC 大會(huì)上,Transformer 論文作者之一 Illia Polosukhin 提到,像 2+2 這樣的簡(jiǎn)單問題可能會(huì)使用大模型的萬(wàn)億參數(shù)資源。他認(rèn)為自適應(yīng)計(jì)算是接下來必須出現(xiàn)的事情之一,我們需要知道在特定問題上應(yīng)該花費(fèi)多少計(jì)算資源。RcokAI 的類腦激活機(jī)制是自適應(yīng)計(jì)算的一種實(shí)現(xiàn)思路。
這或許聽起來和 MoE 有點(diǎn)像。但劉凡平解釋說,類腦激活機(jī)制和 MoE 有著本質(zhì)的區(qū)別。MoE 是通過「專家」投票來決定任務(wù)分配,每個(gè)「專家」的網(wǎng)絡(luò)結(jié)構(gòu)都是固定的,其結(jié)果是可預(yù)測(cè)的。而類腦激活機(jī)制沒有「專家」,也沒有「專家」投票的過程,取而代之的是神經(jīng)元的選擇過程。其中的每個(gè)神經(jīng)元都是有價(jià)值的,選擇的過程也是一個(gè)自學(xué)習(xí)的過程。
這種分區(qū)激活機(jī)制在 MCSD 的基礎(chǔ)上進(jìn)一步降低了 Yan 架構(gòu)模型的訓(xùn)練、推理計(jì)算復(fù)雜度和計(jì)算量。
「這也符合人類大腦的運(yùn)行方式。人腦的功耗只有二十幾瓦,如果全部的 860 億個(gè)神經(jīng)元每次都參與運(yùn)算,大腦產(chǎn)生的生物電信號(hào)肯定是不夠用的?!箘⒎财秸f道。目前,他們的類腦激活機(jī)制已經(jīng)得到了腦科學(xué)團(tuán)隊(duì)的理論支持和實(shí)際論證,也申請(qǐng)到了相關(guān)專利。
以端側(cè)設(shè)備為載體,邁向群體智能
在 Yan 1.3 的發(fā)布現(xiàn)場(chǎng),我們看到了該模型在 PC、手機(jī)、機(jī)器人、無(wú)人機(jī)等端側(cè)設(shè)備的部署情況。鑒于 Yan 1.2 發(fā)布時(shí)甚至能在樹莓派上運(yùn)行,這樣的端側(cè)部署進(jìn)展并不令我們感到意外。
那么,為什么一定要把模型部署在端側(cè)呢?云端的模型不行嗎?鄒佳思提到,這是因?yàn)槟P鸵鷻C(jī)器本體做高度適配。以機(jī)器人為例,設(shè)備的很多參數(shù)是難以與云端大模型融合。端側(cè)大模型更容易讓機(jī)器人肢體協(xié)調(diào)、大小腦協(xié)同工作。
而且我們知道,這些端側(cè)智能體的潛力才剛剛顯露。畢竟,以上創(chuàng)新的目標(biāo)不只是讓模型能夠在端側(cè)跑起來(當(dāng)前很多模型都能做到這一點(diǎn)),而是使其具備自主學(xué)習(xí)的能力,作為「群體智能的單元大模型」持續(xù)進(jìn)化。無(wú)論是 Yan 架構(gòu)的「0 壓縮、0 裁剪」無(wú)損部署,還是分區(qū)激活的高效計(jì)算,都是服務(wù)于這一目標(biāo)。這是 RockAI 和其他專注于端側(cè) AI 的公司的一個(gè)本質(zhì)區(qū)別。
「如果我們拿一個(gè) 10 歲的孩子和一個(gè) 30 歲的博士來比,那肯定 30 歲的博士知識(shí)面更廣。但是,我們不能說這個(gè) 10 歲的孩子在未來無(wú)法達(dá)到甚至超越這位博士的成就。因?yàn)槿绻@個(gè) 10 歲的孩子自我學(xué)習(xí)能力足夠高,他的未來成長(zhǎng)速度可能比 30 歲的博士還要快。所以我們認(rèn)為,自主學(xué)習(xí)能力才是衡量一個(gè)模型智能化程度的重要標(biāo)志?!箘⒎财秸f道。可以說,這種自主學(xué)習(xí)能力才是 RockAI 追求的「scaling law」。
為了實(shí)現(xiàn)這種自主學(xué)習(xí)能力,RockAI 的團(tuán)隊(duì)提出了一種「訓(xùn)推同步」機(jī)制,即讓模型可以在推理的同時(shí),實(shí)時(shí)有效且持續(xù)性地進(jìn)行知識(shí)更新和學(xué)習(xí),最終建立自己獨(dú)有的知識(shí)體系。這種「訓(xùn)推同步」的運(yùn)行方式類似于人類在說話的同時(shí)還能傾聽并將其內(nèi)化為自己的知識(shí),對(duì)底層技術(shù)的要求非常高。
為此,RockAI 的團(tuán)隊(duì)正在尋找反向傳播的更優(yōu)解,方法也已經(jīng)有了一些原型,并且在世界人工智能大會(huì)上進(jìn)行過展示。不過,他們的方法原型目前仍面臨一些挑戰(zhàn),比如延遲。在后續(xù) Yan 2.0 的發(fā)布中,我們有望見到原型升級(jí)版的演示。
那么,在每一臺(tái)設(shè)備都擁有了智能后,它們之間要怎么聯(lián)結(jié)、交互,從而涌現(xiàn)出群體智能?對(duì)此,劉凡平已經(jīng)有了一些初步構(gòu)想。
首先,它們會(huì)組成一個(gè)去中心化的動(dòng)態(tài)系統(tǒng)。在系統(tǒng)中,每臺(tái)設(shè)備都擁有自主學(xué)習(xí)和決策的能力,而不需要依賴一個(gè)中央智能來控制全局。同時(shí),它們之間又可以共享局部數(shù)據(jù)或經(jīng)驗(yàn),并通過快速的通信網(wǎng)絡(luò)互相傳遞信息,從而在需要時(shí)發(fā)起合作,并利用其他智能體的知識(shí)和資源來提升任務(wù)完成的效率。
路線「小眾」,挑戰(zhàn)與機(jī)遇并存
縱觀國(guó)內(nèi) AI 領(lǐng)域,RockAI 走的路可以說非?!感”姟?因?yàn)槔锩嫔婕暗椒浅5讓拥膭?chuàng)新。在硅谷,有不少人在做類似的底層研究,就連「神經(jīng)網(wǎng)絡(luò)之父」Hinton 也對(duì)反向傳播的一些限制表示過擔(dān)憂,特別是它與大腦的生物學(xué)機(jī)制不符。不過,大家目前都還沒有找到特別有效的方法,因此這一方向還沒有出現(xiàn)明顯的技術(shù)代差。對(duì)于 RockAI 這樣的國(guó)內(nèi)企業(yè)來說,這既是挑戰(zhàn),也是機(jī)遇。
對(duì)于群體智能,劉凡平相信,這是一條邁向更廣泛的通用人工智能的路線,因?yàn)樗睦碚摶A(chǔ)是非常堅(jiān)實(shí)的,「如果沒有群體智能,就沒有人類社會(huì)的文明,更不會(huì)有科技的發(fā)展」。
而且,劉凡平認(rèn)為,群體智能所能帶來的生產(chǎn)力變革比擁有超級(jí)智能的單個(gè)大模型所能帶來的更全面、更多樣。隨著自主架構(gòu)大模型的研發(fā)成功和多元化硬件生態(tài)的構(gòu)建,他們相信自己正在逐漸接近這一目標(biāo)。
我們也期待看到這家公司的后續(xù)進(jìn)展。
申請(qǐng)創(chuàng)業(yè)報(bào)道,分享創(chuàng)業(yè)好點(diǎn)子。點(diǎn)擊此處,共同探討創(chuàng)業(yè)新機(jī)遇!