當(dāng)前位置:首頁 >  科技 >  IT業(yè)界 >  正文

【Nature系列】以眼動數(shù)據(jù)揭示人類與智駕算法視覺注意力的本質(zhì)差異

 2026-04-13 10:02  來源: 互聯(lián)網(wǎng)   我來投稿 撤稿糾錯

  一鍵部署OpenClaw

近日,清華大學(xué)智能產(chǎn)業(yè)研究院(AIR)團隊在 npj Artificial Intelligence 發(fā)表題為《Human and algorithmic visual attention in driving tasks》的研究。該研究圍繞自動駕駛這一安全關(guān)鍵場景展開,首次通過“人類眼動追蹤實驗 + 算法對比驗證”的雙軌設(shè)計,系統(tǒng)拆解了人類與算法在視覺注意力上的本質(zhì)差異。研究采用了3×3×2混合實驗設(shè)計,招募36名駕駛員(18名專家、18名新手),并結(jié)合眼動數(shù)據(jù)對駕駛注意力進行階段劃分,最終提出人類駕駛注意力可分為掃描、檢查、重新評估三個階段,其中“檢查階段”的語義注意力,是提升算法性能的關(guān)鍵入口。

在該研究中,清華AIR團隊基于北京七鑫易維信息技術(shù)有限公司的aSee Pro桌面式眼動儀完成了關(guān)鍵的眼動數(shù)據(jù)采集。在異常檢測任務(wù)中,研究招募了5名駕駛員,并通過 aSee Pro以 250Hz 采樣率進行全程記錄,為后續(xù)的注意力階段劃分、注視軌跡建模以及人類與算法注意力相關(guān)性分析提供了穩(wěn)定的數(shù)據(jù)基礎(chǔ)。對于這類對時間分辨率與空間精度要求極高的研究而言,眼動設(shè)備的作用并不止于數(shù)據(jù)記錄本身,其精度與穩(wěn)定性直接影響注意力結(jié)構(gòu)的可解析程度,也在很大程度上決定了相關(guān)分析結(jié)果的可靠性。

論文的核心發(fā)現(xiàn)之一,是駕駛?cè)蝿?wù)中的人類注意力并不是單一連續(xù)過程,而是具有清晰的階段結(jié)構(gòu):掃描階段以自下而上的空間搜索為主,檢查階段以對 AOI 特征和語義的評估為主,重新評估階段則體現(xiàn)出任務(wù)驅(qū)動下的混合注意力。研究結(jié)果顯示,專家和新手在檢查階段表現(xiàn)出顯著差異,例如專家檢查階段時長達到 705.75ms,高于新手的 622.52ms。也就是說,人類駕駛中的“看見”,并不只是看到了什么位置,更重要的是看懂了什么語義。這個結(jié)論之所以能夠被清楚地量化出來,關(guān)鍵就在于眼動數(shù)據(jù)足夠細、足夠穩(wěn),才能把這種原本難以觀察的認(rèn)知過程轉(zhuǎn)成可分析的行為證據(jù)。

研究進一步驗證了一個更重要的問題:算法雖然在空間定位上有優(yōu)勢,但在語義顯著性提取上仍存在明顯短板。團隊將不同階段的人類注意力融入 AxANet、UniAD、VAD、DriveLM、TOD³Cap 等模型后發(fā)現(xiàn),檢查階段注意力帶來的提升最穩(wěn)定,也最顯著。例如,AxANet 在異常檢測任務(wù)中,融入檢查階段注意力后,準(zhǔn)確率從 0.724 提升到 0.736;而將掃描階段注意力融入后,準(zhǔn)確率反而下降到 0.709。軌跡規(guī)劃任務(wù)中,UniAD 的平均 L2 誤差從 0.90m 降至 0.82m,VAD 的碰撞率也出現(xiàn)下降。相較之下,大模型在高維推理任務(wù)中并未明顯受益,而在細粒度視覺接地任務(wù)中則仍能看到語義注意力帶來的提升。這些結(jié)果共同說明,真正能補上算法缺口的,不是簡單模仿“看哪里”,而是補入“為什么看、看到了什么意義”的語義注意力。

在這項研究中,七鑫易維 aSee Pro眼動儀的是作為數(shù)據(jù)采集與分析的基礎(chǔ)模塊自然嵌入其中。論文中的三階段注意力劃分、偽人類注意力生成以及模型驗證流程,本質(zhì)上都依賴于穩(wěn)定、精細的眼動數(shù)據(jù)支撐。高采樣率與高精度記錄,使研究得以從注視點坐標(biāo)、AOI 時序、注視時長等多個維度刻畫專家與新手差異,并進一步轉(zhuǎn)化為算法優(yōu)化的依據(jù)。這也意味著,設(shè)備并非簡單“出鏡”,而是參與到研究方法本身。

從產(chǎn)品體系來看,以 aSee Pro與 aSee Pro Plus(1500hz)系列為核心,結(jié)合 aSee Glasses、aSee VR、aSeeA8、aSee Pad、aSee Expert(2000hz) 等不同形態(tài)設(shè)備,七鑫易維構(gòu)建了覆蓋科研到多場景應(yīng)用的完整能力。同時,其能力已從單一設(shè)備延展至醫(yī)療、教育、車載、XR、溝通輔具等方向的應(yīng)用方案與數(shù)據(jù)服務(wù)層,逐步形成面向行業(yè)的眼動技術(shù)解決路徑。

如果把這篇 Nature 論文放回到產(chǎn)業(yè)視角看,它真正說明的是:眼動追蹤已經(jīng)不再只是心理學(xué)或?qū)嶒炇依锏妮o助工具,而正在成為連接人類認(rèn)知、算法學(xué)習(xí)與真實場景決策的重要數(shù)據(jù)接口。清華AIR團隊借助七鑫易維 aSee Pro眼動儀完成的這項研究,把“人類如何看”變成了“算法如何學(xué)”的問題,也把眼動數(shù)據(jù)從單純的觀測變量,推進為能夠參與模型優(yōu)化的語義信號。對于自動駕駛、智能座艙、醫(yī)學(xué)評估和人機交互等領(lǐng)域來說,這類研究的價值不只在論文結(jié)果本身,更在于它給出了一個可復(fù)制的方法路徑:用高質(zhì)量眼動數(shù)據(jù),把人的注意力結(jié)構(gòu)變成算法可用的輸入。

因此,這篇論文的意義并不只是“發(fā)表了一篇頂刊成果”,而是說明了七鑫易維 aSee Pro 這類科研級眼動設(shè)備,已經(jīng)能夠進入國際前沿研究的真實工作流中,參與從數(shù)據(jù)采集、階段劃分到模型驗證的完整閉環(huán)。對研究團隊而言,它提供的是可靠、可量化的行為數(shù)據(jù);對行業(yè)而言,它所支撐的,是人類注意力機制向智能算法遷移的更深一步。

申請創(chuàng)業(yè)報道,分享創(chuàng)業(yè)好點子。點擊此處,共同探討創(chuàng)業(yè)新機遇!

相關(guān)標(biāo)簽
【Nature系列】

相關(guān)文章

熱門排行

信息推薦