當(dāng)下,人工智能技術(shù)正從“感知智能”邁向“行動智能”,如何科學(xué)、公正地評估機器人在真實物理世界中的真實能力,成為制約行業(yè)發(fā)展的核心命題。在 Dexmal 原力靈機與 Hugging Face 共同發(fā)起 RoboChallenge 之后,迅速在行業(yè)內(nèi)引發(fā)強烈共鳴并吸引廣泛參與。智源研究院、智元機器人、Qwen、星海圖、自變量、清華大學(xué)、西安交通大學(xué)、GOSIM 國際國內(nèi)合作伙伴進(jìn)一步攜手,共同推動生態(tài)建設(shè),并于 2025 年 11 月 20 日正式成立 RoboChallenge 組委會。這標(biāo)志著具身智能真機測評的開源協(xié)作不僅邁入了標(biāo)準(zhǔn)化的新階段,更以“開放共同體”的行業(yè)共創(chuàng)模式,為具身智能技術(shù)的落地與迭代注入新動能。
日前,在不久前深圳舉行的一場國際人工智能展覽會上,一臺名為“小量”的機器人嫻熟地進(jìn)行著果味冰沙制作的全部流程。取杯、接冰、添加小料,整個動作連貫且精準(zhǔn),兩分鐘內(nèi)就完成了一份飲品。這個看似簡單的場景背后,是深圳一家成立僅一年多的初創(chuàng)公司——自變量機器人。
自變量機器人是國內(nèi)最早實現(xiàn)端到端具身智能大模型商業(yè)化的公司之一。其自主研發(fā)的「WALL-A」系列視覺-語言-行動(VLA)操作大模型,構(gòu)建了統(tǒng)一的認(rèn)知與行動框架,讓機器人不僅能“看懂”,還能自主“動手”完成。

更具行業(yè)意義的是,自變量機器人近期開源了端到端具身智能基礎(chǔ)模型「WALL-OSS」。與行業(yè)內(nèi)常見的部分開源不同,該公司提供了一整套完整可復(fù)現(xiàn)的開源方案,包括模型權(quán)重、訓(xùn)練代碼、數(shù)據(jù)集接口及詳細(xì)部署文檔。
“我們希望真正把成果交到行業(yè)手中,讓大家能夠用起來,而不僅僅是停留在展示層面。”創(chuàng)始人兼CEO王潛表示。這一舉措有望降低行業(yè)技術(shù)門檻,推動具身智能生態(tài)的快速發(fā)展。
01 信仰:從理論到實踐的“關(guān)鍵變量”
王潛身上烙印著清華人的典型特質(zhì):理性、執(zhí)著、目光長遠(yuǎn)。本碩畢業(yè)于清華大學(xué),他是全球最早在神經(jīng)網(wǎng)絡(luò)中引入注意力機制的學(xué)者之一,其工作與Google在該領(lǐng)域的開創(chuàng)性論文同期發(fā)表。這些研究,后來成為Transformer架構(gòu)的基石,奠定了當(dāng)今大模型的技術(shù)根基。
遠(yuǎn)赴美國南加州大學(xué)攻讀博士時,他選擇了摯愛的機器人方向,在頂級實驗室深耕機器人學(xué)習(xí)與人機交互。這段經(jīng)歷讓他深刻認(rèn)識到傳統(tǒng)機器人技術(shù)的局限。博士畢業(yè)后,王潛曾在美國創(chuàng)辦量化基金,然而,“晚上經(jīng)常睡不著,想做機器人”的念頭始終纏繞著他。2023年,隨著大語言模型等領(lǐng)域迎來突破,他敏銳察覺機器人行業(yè)的新機,毅然解散基金,回國創(chuàng)業(yè)。
回國并非一時沖動。王潛看中的是中國無與倫比的硬件制造與供應(yīng)鏈優(yōu)勢。“美國的硬件人才多被‘金手銬’鎖在大公司,”他指出,“而中國的供應(yīng)鏈優(yōu)勢可能領(lǐng)先美國一個數(shù)量級。”他特別提到,數(shù)據(jù)收集成本在中國大約僅為美國的十分之一。
2023年12月18日,王潛初次踏足深圳,自變量機器人就此誕生。深圳的產(chǎn)業(yè)生態(tài)讓他驚嘆:“當(dāng)時我們實驗室用的機器人硬件和零配件,很多都產(chǎn)自深圳。”“在這里,配齊所有零件有時只需半天。”
02 堅守:“大小腦統(tǒng)一”的孤傲之路
自變量創(chuàng)立之初,就選擇了一條與眾不同的技術(shù)路線——“大小腦統(tǒng)一的端到端大模型”。這在當(dāng)時顯得頗為孤傲,甚至遭受質(zhì)疑。數(shù)年前,當(dāng)王潛闡述端到端思路時,一位知名機器人教授曾當(dāng)面否定:“這很有趣,但可能永遠(yuǎn)只是個玩具,無法落地。”
何為端到端模型?與傳統(tǒng)的分層架構(gòu)不同,端到端模型試圖在統(tǒng)一架構(gòu)中解決從感知、規(guī)劃到控制的全流程問題。傳統(tǒng)分層架構(gòu)將任務(wù)分解為感知、規(guī)劃、控制等多個模塊,每個模塊有獨立模型,而端到端模型則是單一的、整合的模型。
王潛解釋道,“分層模型每多一步拆解,就會引入額外誤差和不可控的噪聲,難以實現(xiàn)真正可靠的執(zhí)行;而端到端統(tǒng)一模型,能夠在‘感知—決策—執(zhí)行’的全流程中保持連續(xù)性,從根本上解決這一問題。”
自變量機器人的技術(shù)理念可以概括為“縱向統(tǒng)一”和“橫向統(tǒng)一”??v向統(tǒng)一指從視頻、傳感器等原始輸入到機器人運動輸出,全部由同一模型處理;橫向統(tǒng)一則是不同任務(wù)共用同一個模型,訓(xùn)練和推理都在同一架構(gòu)下完成。
這一技術(shù)路線的優(yōu)勢在WALL-A模型上得到了充分體現(xiàn)。該模型使機器人僅用二指夾爪就能完成拉拉鏈、疊衣服、澆花等復(fù)雜操作,數(shù)分鐘級別的任務(wù)成功率達(dá)到了95%以上。
03 進(jìn)化:WALL-A模型釋放泛化之力
自變量的產(chǎn)品演進(jìn)清晰印證了其技術(shù)路線的生命力。成立僅兩個月,公司便訓(xùn)練出第一版具身智能操作模型,實現(xiàn)了切菜、倒水等復(fù)雜任務(wù)。2024年10月,自變量推出具身智能通用操作大模型Great Wall系列(GW)的WALL-A模型。可以實現(xiàn)機器人自主感知、決策與高精度操作,解決從感知到最后動作生成之間的巨大鴻溝。
它的核心突破,主要體現(xiàn)在三個方面。
第一,強大的泛化能力。模型在部分未見過的物理場景中,無需針對新場景進(jìn)行額外訓(xùn)練,已經(jīng)能部分實現(xiàn)零樣本泛化。
其二,具身思維鏈(CoT,Chain of Thought)。模型通過多步邏輯推理,將抽象任務(wù)拆解為可執(zhí)行的子步驟,并能夠根據(jù)實時變化調(diào)整行動策略。
其三,統(tǒng)一架構(gòu)。將視覺、語言、動作等所有模態(tài)信息,轉(zhuǎn)換為統(tǒng)一的token序列,再送入一個Transformer核心,從而實現(xiàn)端到端統(tǒng)一學(xué)習(xí)。這能讓系統(tǒng)在面對新任務(wù)時,可以像人類一樣思考和工作,不再依賴模塊化的信息傳遞。

04 選擇:真機數(shù)據(jù),筑牢模型迭代的根基
在數(shù)據(jù)策略上,自變量堅持“高質(zhì)量真機數(shù)據(jù)”,與依賴仿真或網(wǎng)絡(luò)視頻數(shù)據(jù)的同行形成鮮明對比。王潛明確表示:“所有涉及復(fù)雜物理交互(如豐富的手部操作)不應(yīng)完全用仿真數(shù)據(jù)。我們探索了十幾年,基本結(jié)論是:手部復(fù)雜操作無法通過仿真數(shù)據(jù)進(jìn)化。”
數(shù)據(jù)主要來自三個渠道:集中式采集場地、分布式現(xiàn)實環(huán)境收集,以及機器人部署后的回流數(shù)據(jù)。自變量將泛化能力分為四個層次:基礎(chǔ)條件(光照、位置變化)、跨環(huán)境、跨對象(處理未見過的同類物體)、跨任務(wù)(解決全新任務(wù))。目前自變量的模型在前三個層次已展現(xiàn)出優(yōu)秀的通用性與泛化能力。
05 野心:資本重注下的賽道卡位
自變量在資本市場的表現(xiàn)堪稱耀眼。成立不到兩年,完成8輪融資,累計金額超20億元。2025年9月,公司完成近10億元A+輪融資,由阿里云、國科投資領(lǐng)投,國開金融、紅杉中國、渶策資本跟投,老股東美團(tuán)、聯(lián)想之星、君聯(lián)資本持續(xù)加碼。這是阿里云首次投資具身智能公司,也是美團(tuán)第二次參投。
06 清晰的商業(yè)化路徑
面對商業(yè)化這一行業(yè)核心質(zhì)疑,王潛思路清晰。他認(rèn)為:“家庭是機器人最大市場,預(yù)計3-4年會出現(xiàn)早期產(chǎn)品。”有經(jīng)濟(jì)學(xué)測算指出,未被計入GDP的家務(wù)勞動價值約占總量四分之一,這意味著家庭機器人市場潛力巨大,甚至可能超越工業(yè)及其他所有場景。
自變量的商業(yè)化將先從To B場景切入,逐步延伸至To C。王潛表示,公司今年將在多個功能場景推動落地,讓機器人在開放、隨機環(huán)境中自主完成復(fù)雜操作。對于當(dāng)前部分企業(yè)將人形機器人送入工廠從事簡單重復(fù)勞動,他直言“那更像是一種PR行為”。真正有價值的商業(yè)化,必須依賴具身智能模型泛化能力的提升。
價格方面,王潛預(yù)測,消費者可接受且產(chǎn)業(yè)鏈能支撐的價格區(qū)間可能在1-2萬美元(約人民幣10萬元上下),但這仍需產(chǎn)業(yè)鏈進(jìn)一步優(yōu)化成本。他預(yù)計,類GPT-3水平的具身智能大模型可能在一年左右出現(xiàn),而人形機器人的“ChatGPT時刻”則需要3-5年。
07 未來挑戰(zhàn)與生態(tài)構(gòu)建
盡管進(jìn)展顯著,王潛清醒認(rèn)識到,通往通用機器人的道路仍布滿挑戰(zhàn)。他認(rèn)為,當(dāng)前限制產(chǎn)業(yè)化的主要是機器人的“大腦”,而非硬件。“展會上很多機器人運動能力不錯,但提供的‘實用價值’有限,更多是‘形式價值’。”
為此,自變量正積極構(gòu)建生態(tài)。2025年9月,公司在合肥發(fā)布《具身智能生態(tài)建設(shè)計劃》,旨在通過自研基礎(chǔ)模型,打造全球具身智能創(chuàng)新與產(chǎn)業(yè)樞紐。此前,公司開源了自研端到端具身智能基礎(chǔ)模型WALL-OSS,這是目前唯一面向物理世界交互、具備真實落地能力的開源模型。
對于長遠(yuǎn)商業(yè)模式,王潛認(rèn)為機器人將走向軟硬一體。“機器人相對特殊,難以形成像Windows或Android那樣的純軟件模式。它需要軟硬件高度耦合,一體化的模式最為合理。”
2025年世界機器人大會上,搭載自變量WALL-A模型的機器人嫻熟地制作香囊、整理客廳,引來無數(shù)駐足。那個讓通用機器人步入千家萬戶的夢想,正以“深圳速度”,一步步照進(jìn)現(xiàn)實。
申請創(chuàng)業(yè)報道,分享創(chuàng)業(yè)好點子。點擊此處,共同探討創(chuàng)業(yè)新機遇!





