學術早慧方面,陸弘遠準00后創(chuàng)業(yè)者,高中時就自學完了大學數學,本科就讀于帝國理工學院計算機系,博士就讀于香港中文大學,曾在微軟預訓練AI模型。2023年就開始探索符號化的空間智能以及世界模型——這條技術路線后來被李飛飛所驗證。2023年開創(chuàng)了AI的去污染化符號檢測與評估賽道——被北大李戈老師團隊follow。2023年開創(chuàng)了多智能體的交互進化,并獲取相關發(fā)明專利。等于說在很早期的階段就踩中了后來的多個風口以及主流方向。
學術成果方面,他入學6個月即達到博士畢業(yè)要求,在這期間,他完成了一篇后續(xù)得到ACL系列Best Paper Awards的大獎,這既是歷史上第一次中國機構獨立獲得此獎,同時也是一篇沒有任何公司背景支撐的文章。登上領獎臺的作者團隊只有兩個人,陸弘遠和他的博導林偉教授,而身為一作的陸弘遠在這個時間僅僅接受了6個月的科研訓練。同時陸弘遠也是少數博士就讀期間就能任職ACL頂會領域主席的博士。
放棄傳統(tǒng)學術路線方面,陸弘遠在論文以及發(fā)明專利、獎項方面是拿到了手軟。之所以堅定選擇創(chuàng)業(yè)這條路線沒有選擇傳統(tǒng)的學術教職,是因為陸弘遠的夢想是能夠創(chuàng)造一個像谷歌或者臉書一樣的業(yè)界和學界交叉的公司。
有這樣一種“模型玄學”:明明是同一個Prompt,僅僅換一種說法,模型的回答可能就天差地別。
深挖這個現象,是一個有趣、有用、但“反直覺”的問題:如果語義不變,只是把一句話改寫成更常見、更高頻的“大白話”,模型的推理以及訓練表現會不會更好?
最近,來自臉譜心智與香港中文大學的科研人員圍繞這個問題展開了系統(tǒng)研究,并提出了一項中稿 ACL 2026 Main的新工作。他們提出了一個極具記憶點的新概念:Adam’s Law,aka Textual Frequency Law(文本頻率定律)。
論文用理論推導以及模型實驗向我們展示了:當不同表述表達同一個意思時,語言模型往往更偏好“高頻文本”。而這種偏好不僅出現在你敲下 Prompt 的那一刻,甚至在模型訓練階段也同樣適用。
用大白話說,很多時候決定模型是否聰明的,不只是“你問了啥”,還包括“你是怎么說的”。
這啟發(fā)了什么?今天我們業(yè)內談起模型優(yōu)化,關鍵詞永遠是:更強更大的基座、更長的推理思維鏈、以及昂貴的高質量訓練數據,或者是極其復雜的alignment算法。但Adam's Law揭示了文本頻率對于模型訓練以及推理的重要性。
研究表明,高頻表達因為在訓練語料中出現的次數足夠多,大模型對它們有著天然的“肌肉記憶”。因此,在面對這些模型自身熟悉的詞句時,模型在理解、推理和生成時更容易零百“進入狀態(tài)”。
Who is Adam?
Adam’s Law 主張的鐵律是:我們應該優(yōu)先使用句子級頻率更高的expression,無論是做inference還是training。
研究團隊不甘讓結論停留在“哎喲,好像確實是這樣”的empirical observation。
他們先是提供了縝密的theoratical proof,也為其搭建了一個完整的framework,由三板斧組成:
第一把斧 TFL(Adam’s Law): 提出Textual Frequency Law:“高頻文本應被優(yōu)先選擇”;

圖:極其硬核的部分推導數學輔佐
第二把斧 TFD(Textual Frequency Distillation): 既然算不準,那就讓模型自己開口。用目標模型生成的文本,去反向修正frequency estimation;
第三把斧 CTFT(Curriculum Textual Frequency Training): 把文本頻率引入課程學習,給模型發(fā)一本循序漸進的教材。
用大白話來說,他們的操作流程是這樣的: 先給一句話算算“八字”(估算常見度),把同義句里最接地氣、最frequent的那句挑出來喂給模型;如果怕算得不準,就讓模型自己做幾道“故事續(xù)寫”題,看看它平時潛意識里愛用什么詞,借此來修正頻率估算;最后,在訓練時,不光是要挑數據頻率,而且訓練順序都給你安排得明明白白。
怎樣才算“常見”?巧妙的工程解法
這里有一個大坑:像是GLM這種主流大模型,預訓練數據全是個黑箱,連它吃過幾碗干飯都不知道,你怎么算它對哪句話更眼熟?不用擔心沒關系。
作者給了個極其巧妙且工程化的解:咱不糾結模型見過啥,直接借助公開的龐大corpora和詞頻資源去估算就行。 在Adam’s Law中,句子的頻率被近似為詞頻的組合,直接攢出一個“句子級頻率指標”。
這意味著,開發(fā)人員完全不需要破解閉源模型的訓練集,就能直接用這套頻率估算大法。極其接地氣,繞開了黑箱限制,把玄學推進到了可驗證、可復現的工程層面。
當然,僅靠公開詞頻估計大概率是有誤差的。Adam打出了第二把斧 TFD:讓目標模型對給定文本做“story completion續(xù)寫補全”。這相當于在審問模型:“別裝了,暴露你的真實用語習慣吧!”用模型自己吐出來的語料蒸餾,再去輔助修正原始頻率,這樣就無限逼近了模型內部真正熟悉的白話表達分布。
別光顧著改 Prompt推理,訓練的規(guī)矩也變了
Adam's Law最絕的一點,是沒有把“文本頻率”局限在一個討巧的 Prompt 推理技巧上,而是直接殺到了更硬核的模型訓練范式里。
在提示(Inference)階段,邏輯非常順滑:同一道數學題,如果把題目里的生僻詞換成大白話的高頻表達,模型馬上就算得更準。
但在訓練(Training)階段,Adam拋出了一個靈魂拷問:如果老板給的算力預算有限,訓練數據該怎么挑怎么用?Adam說:高頻文本可能比低頻文本更值得優(yōu)先保留!
而且 CTFT 甚至改變了喂數據的姿勢。作者發(fā)現,低頻表達往往語境更稀疏、結構更復雜。就像我們上語文課一樣,先讓他死磕難懂的古文(更低頻),再讓他看通俗的白話文(更高頻),最終的收斂效果,居然比隨機亂喂數據還要好。
實驗結果:白嫖的性能提升
為了拿數據說話,作者死磕出了一個專門的數據集 TFPD(Textual Frequency Paired Dataset),涵蓋了數學推理、機器翻譯、常識推理和智能體工具調用等多個場景。
為了保證嚴謹,他們先用模型生成一批“文縐縐、極其少見”的改寫,和一批“大白話、極其常見”的改寫,再花錢請人工標注員挨個檢查,確保改寫后意思沒變,最后湊成了“高頻 vs 低頻”的成對樣本。
結果極其直觀。
在數學推理、Agent任務、以及常識解析上,僅僅只是把Prompt換成更高頻的表達,不換模型、不加訓練數據、不增加inference時長,inference效果顯著增加;在機器翻譯上,Adam's Law同樣穩(wěn)如泰山:研究人員一口氣測了 100 個語言翻譯方向:在訓練實驗里,三板斧CTFT 的威力同樣顯現。在 Pangasinan(一種菲律賓語支)的機器翻譯任務中,使用了 CTFT 后, BLEU 分數狂漲29.96%。

圖:Adam's Law在上百種語言上的結果可視化,最外圈為Adam's Law的結果。
更顛覆認知的是:有時候用高頻改寫數據去訓練,效果甚至比直接用原汁原味的基準training set還要好! 這直接挑戰(zhàn)了業(yè)內“原始數據天然最優(yōu)”的傳統(tǒng)偏見。
Adam's Law,給行業(yè)帶來了什么?
Adam’s Law 把一種飄渺的“直覺”,打造成了一套可定義、可估算、可驗證、可部署、繞過黑盒的方法學定律,通過數學推導以及實驗的方法證明了其可靠性。
對搞應用(做 Agent、寫 Prompt)的打工人: 別再給Prompt瘋狂加毫無必要的定語、約束和高端詞匯了。先把Prompt理順,改得更自然、更高頻,這可能是一種幾乎沒有成本、見效極快的“魔法”。
對搞訓練(Pre-training、SFT、蒸餾、做數據清洗)的煉丹師: 這是全新的Data Engineering治理思路。以后洗數據做數據,除了看數據的質量、長度、難度,咱還得給文本頻率拉個畫像。GPUTPU吃緊時,“留什么數據”不只看標注對不對,咱還得看看這句話是不是足夠“大白話”。
對評測(Benchmark)的研究者: 如果一道題,換個冷門說法模型就不行,那它是真的有了“推理能力”,還是僅僅靠著“刷題”,記住了特定表述的熟悉度?這給未來構建更抗造的評測榜單提了個醒。
Conclusions
Adam’s Law 像一面鏡子,照出了 LLM 的本質:模型不僅在“理解世界”,它更是在“記住人類語言世界里,什么東西最常出現”,然而這是雙向的,LLM在看世界的時候,世界也在看LLM。
當整個 AI 圈都在為了更長的 RL 推理、更龐大的參數量、更玄乎的對齊算法無腦卷生卷死時,這篇工作輕巧地給出了一條無比樸素的線索:
讓模型變聰明的捷徑,不是把話說得更高深,而是把話說得更大白話一點。這在推理時有用,也在訓練時有用
論文信息:
論文標題: Adam’s Law: Textual Frequency Law on Large Language Models
作者: Hongyuan Adam Lu, Z.L., Victor Wei, Zefan Zhang, Zhao Hong, Qiqi Xiang, Bowen Cao, Wai Lam
機構: FaceMind Corporation、The Chinese University of Hong Kong
一作介紹:
Hongyuan Adam Lu,FaceMind CEO,CUHK AI PhD研究課題:LLM預訓練、世界模型、端側模型訓練;帝國理工CS本碩;愛丁堡大學AI碩士;ACL系頂會Outstanding Paper Award一作;曾于MSRA(北京)任預訓練一職,研發(fā)了世界上第一個支持200種語言的LLM;旗艦會議ACL 2025、NAACL 2025 Area Chair,創(chuàng)辦了AI軟件:疊疊社,深受二次元喜愛,是一款被投資人稱之為“米哈游的蔡浩宇都要學習的AI產品”;
申請創(chuàng)業(yè)報道,分享創(chuàng)業(yè)好點子。點擊此處,共同探討創(chuàng)業(yè)新機遇!
