年初大模型行業(yè)上演“長文本”大戰(zhàn)時,我們就萌生過做一個“讀書助理”的想法。測試了市面上主流的大模型后,發(fā)現(xiàn)普遍存在兩個不足:
一種是可以處理的文本長度不夠,即使有些大模型將文本長度提升到了20萬字,像《紅樓夢》這樣近百萬字的名著,還是需要多次才能“讀”完。
另一種是語言理解和生成能力不足,經(jīng)常出現(xiàn)“幻覺”。“長文本”的特點不僅僅是長,還涉及到復(fù)雜的邏輯和文本語義,需要更連貫、相關(guān)的響應(yīng)。
直到前兩天,一位做AIGC的朋友向我們同步了一個新消息:“智譜AI開放平臺默默上線了為處理超長文本和記憶型任務(wù)設(shè)計的GLM-4-Long,支持1M上下文。”100萬上下文長度到底意味著什么呢?我們找來了另外兩個大模型,用120回版本的《紅樓夢》(大約有73萬個漢字)進行了簡單對比:
月之暗面128K的大模型,每次可以處理6.4萬個漢字,需要12次才能讀完;
Claude 200K的大模型,每次可以處理10萬個漢字,需要8次才能讀完;
GLM-4-Long實測可以處理150-200萬字,一次就能讀完一本《紅樓夢》。
不過,文本長度只是一個入門能力,能否扮演起“讀書助理”的角色,必須要確保能夠從大量文本中準(zhǔn)確檢索信息,特別是當(dāng)某些關(guān)鍵信息被置于文檔的深處時,以及出色的推理和內(nèi)容生成能力。
于是我們對GLM-4-Long進行了深度測試。
01 兩分鐘“熟讀”錢穆先生的《國史大綱》
大約是5年前,我們購買了錢穆先生的《國史大綱》,商務(wù)印書館的繁體豎排版。因為是用大學(xué)教科書體例寫成,學(xué)術(shù)味兒比較濃,再加上錢穆先生精煉的文筆風(fēng)格,至今都沒有完整讀完。
GLM-4-Long能否勝任“書童”的角色呢?
我們調(diào)用了GLM-4-Long的API接口,讀取了50多萬字的電子版《國史大綱》,然后針對性地問了三個問題:
第一個問題:請總結(jié)這篇文檔中每個部分的主要內(nèi)容
原書目錄中只羅列了每個章節(jié)的標(biāo)題,希望通過這個問題驗證大模型是否處理了文檔的全部信息,對內(nèi)容的理解和總結(jié)生成能力。
從輸出的結(jié)果來看,不僅準(zhǔn)確整理出了每個章節(jié)的核心內(nèi)容,還按照現(xiàn)在比較主流的紀(jì)年方式,將全書內(nèi)容拆分為上古文化、春秋戰(zhàn)國、秦漢、魏晉南北朝、隋唐五代、兩宋、元明、清代等8個部分,內(nèi)容準(zhǔn)確度超過99%,僅僅是“兩宋之部”在小標(biāo)題上被列舉了兩次(可以通過模型微調(diào)進行優(yōu)化)。
第二個問題:“秦漢國力與對外形勢”在文檔哪個部分?
這是一個迷惑性比較強的問題,因為第七章和第八章都講了相關(guān)背景,但錢穆先生放在了第十一章進行重點介紹。

GLM-4-Long并未掉進預(yù)設(shè)的“陷阱”,準(zhǔn)確指出了問題所在的章節(jié)和標(biāo)題。這也是長文本處理的一個典型痛點,在長達幾十萬字的內(nèi)容中,作者可能在多個地方描述相似的幾件事,最為考驗大模型的語義理解和內(nèi)容檢索能力,并非是對文本的機械處理,意味著需要更強的抽象和內(nèi)容歸納能力。
第三個問題:北宋的建國和漢唐時期有什么不同?
搜索引擎上沒有直接相關(guān)的答案,但錢穆先生在書中給出了系統(tǒng)闡述,用于驗證GLM-4-Long能否理解書中的細節(jié)信息。

這次的答案再次讓我們驚艷,分別從建國方式、統(tǒng)治方式、對外政策、經(jīng)濟、文化、社會、政治制度等角度綜述了錢穆先生的觀點。特別是在“對外政策”上,準(zhǔn)確回答了“漢唐時期積極對外擴張,北宋采取保守的防御策略”,并且簡單提及了政策變化背后的原因,即五代十國時期戰(zhàn)爭頻繁,導(dǎo)致國力消耗嚴重。
相關(guān)的測試問題不再一一贅述,直接給出我們的答案:GLM-4-Long對文檔全局信息的處理、長文本理解和生成、多輪對話等能力均超出預(yù)期,整個體驗有一種和錢穆先生跨時空對話的“錯覺”。
另一個不應(yīng)該被忽略的信息在于,一本50多萬字的書籍,GLM-4-Long僅用了兩分鐘左右的時間進行處理。如果想要用大模型處理一些沒有時間研讀的長文本,GLM-4-Long某種程度上可以說是最佳幫手。
02 用多個文檔訓(xùn)練出一位“知識博主”
很多人在日常工作和生活中接觸的文檔,并非是動輒近百萬字的巨著,而是幾萬字、最多十幾萬字的文檔和資料。在這樣比較大眾化的需求下,像GLM-4-Long這樣1M長文本能力的大模型,有何特殊價值?
前面用《紅樓夢》做了對比,其實還有另一種對比方式:
月之暗面128K的大模型,每次可以處理6.4萬個漢字,相當(dāng)于讀1本《活著》;
Claude 200K的大模型,每次可以處理10萬個漢字,相當(dāng)于一次讀《活著》和《在細雨中吶喊》兩本書;
GLM-4-Long的1M上下文,可以一次讀余華老師的多本書,比如《活著》《在細雨中吶喊》《河邊的錯誤》《第七天》……
由此萌生的一個想法是:是不是可以讓大模型一次讀多本相關(guān)的專業(yè)書籍,快速訓(xùn)練出一個專業(yè)的知識博主?
首先想到的一個場景就是飲食,生活中經(jīng)常碰到吃什么可以減肥、6月齡寶寶能不能吃蛋黃、高血壓病人的飲食需要注意什么等問題,每次都需要搜索或者問AI,又擔(dān)心內(nèi)容是不是準(zhǔn)確。
我們讓GLM-4-Long一次性讀取了《中國居民膳食指南》《中國食物成分表》《中國飲食文化》《中國居民膳食營養(yǎng)素參考攝入量》等多個文檔,然后用日常生活中的常見問題進行了針對性提問:
8月齡兒童日常飲食應(yīng)該注意什么?

可以看到,GLM-4-Long輸出的答案非常全面,除了要補充蛋白質(zhì)、維生素和礦物質(zhì),還給出了一些貼心的建議:食物應(yīng)該細膩易消化,避免大塊或硬的食物,以防噎食;建議先引入蔬菜泥,然后是水果泥,接著是強化鐵的米粉或米糊;如果家族中有過敏史,應(yīng)避免引入可能導(dǎo)致過敏的食物……
50歲的高血壓病人有什么飲食建議?

答案依然比較全面,包括應(yīng)將食鹽攝入量控制在每天6克以下、每天攝入300-500克新鮮蔬菜和200-350克新鮮水果、每日攝入25-30克膳食纖維、避免過多攝入精制糖和白面食、建議通過食物攝入足夠的鉀和鈣、避免過多攝入蛋白質(zhì)、限制飲酒等等,并提供了具體的食物建議。
以上只是我們簡單嘗試的一個場景,可以聯(lián)想到的應(yīng)用場景還有很多。
比如一次性通讀余華老師的所有小說,然后“變身”余華老師進行對話;一次性讀多篇相關(guān)的論文,幫助提升論文閱讀的效率;一次性讀取上百份簡歷,然后根據(jù)需求篩選出最合適的候選人;以及找到一家企業(yè)多個季度的財報進行橫向?qū)Ρ?,從更宏大、信息更豐富的視角進行財報分析......
我們列舉的“想法”僅僅是拋磚引玉,相信智譜AI在大模型能力上打破天花板后,會有越來越多開發(fā)者參與其中,挖掘藏在應(yīng)用層的機會,帶來各種有趣、有生產(chǎn)力的體驗。
03 “卷”長文本過渡到“卷”綜合能力
有別于年初單純卷文本長度的比拼,智譜AI在GLM-4-Long的宣傳和營銷上不可謂不低調(diào),卻折射出了大模型市場的一個隱性共識:不再為了傳播某個能力硬凹需求,而是開始卷大模型的綜合能力。
個中原因并不難解釋。
長文本在本質(zhì)上是一種智力能力。如果將大模型比作是一臺“電腦”的話,“更長的上下文”可以看作是更大的內(nèi)存,能夠提高多任務(wù)處理能力、提升運行大型軟件的流暢度、帶來更好的游戲體驗等等。內(nèi)存的大小,可能在某種程度上影響消費者的購買決策,卻不是優(yōu)先級最高的購買因素。
同樣的道理,僅僅是在文本長度上領(lǐng)先,并不足以讓大模型吸引所有的注意力,不會是一條穩(wěn)定的護城河。
與之相對應(yīng)的,大模型的“長文本熱”就像是曇花一現(xiàn),開發(fā)者們沒有趨之若鶩,資本市場不斷傳出批判的聲音:“感覺是各家公司在為搶入頭部陣營做成績,本質(zhì)上還是為了秀肌肉,衡量長文本的價值,要等到更明確的落地場景和對應(yīng)的商業(yè)模式出現(xiàn),否則市場再熱鬧也是沒有用的。”
時間過去半年后,GLM-4-Long讓外界看到了大模型新的演變方向:除了記住多長的上下文,還在比拼語言理解和生成能力、長文本推理和QA能力,不再是做長木桶的一塊板,而是把把所有木板做長。
比起我們“淺嘗輒止”的測試,對大模型行業(yè)新方向感到興奮的,恰恰是那群做AIGC的創(chuàng)業(yè)者。正如那位朋友所說的:“大模型可以滿足100萬字的上下文,并且可以很好地、準(zhǔn)確地執(zhí)行復(fù)雜指令,預(yù)示著巨大的想象空間。希望智譜AI開放平臺可以早日推出GLM-4-Long的正式版,我們已經(jīng)有了多個智能體相關(guān)的想法。”
自從ChatGPT走紅后,整個大模型行業(yè)風(fēng)譎云詭。然而一個看起來有些畸形的現(xiàn)象是:資本大多將錢投個了大模型企業(yè),做應(yīng)用創(chuàng)新的創(chuàng)業(yè)者鮮有機會,即便不少人都在呼吁創(chuàng)業(yè)者應(yīng)該卷應(yīng)用,而非卷模型。
回頭再來看這樣的現(xiàn)象,需要批判的不是資本的“勢力”,而是開發(fā)者們的無奈。直接的例子就是長文本,半年前的火爆只是技術(shù)上的,由于存在能力上的短板,未能在應(yīng)用層延續(xù)熱度和爆點。借著上面的比喻,一臺電腦的內(nèi)存很大,可CPU、GPU、屏幕等依然是短板,開發(fā)者很難做出體驗優(yōu)秀的應(yīng)用。
當(dāng)大模型的競爭走向綜合能力的較量,100萬長文本賦予了開發(fā)者更大的創(chuàng)造空間,同時在生成、推理、QA等能力上不再被制約,注定會吸引越來越多的開發(fā)者參與進來,進一步將想象力轉(zhuǎn)化為生產(chǎn)力,創(chuàng)造出一個又一個“出圈”的現(xiàn)象級應(yīng)用,加速大模型在應(yīng)用賽道上的繁榮。
04 結(jié)語
“2024年是AGI落地元年“。
這樣的預(yù)言正在被進一步驗證。不僅僅是大模型綜合能力的進階,還在于技術(shù)和應(yīng)用在方向上的統(tǒng)一:逐漸從博眼球式的拉新,轉(zhuǎn)向“脫虛向?qū)?rdquo;, 不斷回歸用戶體驗,沉淀出解決實際問題的能力。
申請創(chuàng)業(yè)報道,分享創(chuàng)業(yè)好點子。點擊此處,共同探討創(chuàng)業(yè)新機遇!
9月24日,2025云棲大會在杭州開幕,阿里巴巴集團CEO、阿里云智能集團董事長兼CEO吳泳銘發(fā)表主旨演講,首次系統(tǒng)性地闡述通往ASI的三階段演進路線,包括智能涌現(xiàn)、自主行動以及自我迭代等,實現(xiàn)從學(xué)習(xí)人、輔助人到超越人的發(fā)展脈絡(luò)?;谏鲜龅陌l(fā)展路線,吳泳銘對外做出判斷,大模型是下一代的操作系統(tǒng)。“我
文/二風(fēng)來源/節(jié)點財經(jīng)每年高考成績放榜后,數(shù)千萬考生和家長將迎來另一場硬仗——填報志愿。今年,這一領(lǐng)域迎來了AI的全面介入,多家互聯(lián)網(wǎng)大廠和教育公司紛紛推出智能志愿填報產(chǎn)品,為考生提供院校和專業(yè)選擇建議。據(jù)艾媒咨詢數(shù)據(jù),2023年中國高考志愿填報市場付費規(guī)模約9.5億元,近九成考生愿意借助志愿填報服
崔大寶|節(jié)點財經(jīng)創(chuàng)始人進入2024年,大模型似乎有熄火之勢:資本市場,與之關(guān)聯(lián)的概念炒不動了,英偉達股價動輒暴跌重挫,引發(fā)“泡沫戳破”的擔(dān)憂;消費市場,BATH們的推新活動少了,產(chǎn)品更新迭代的速度慢了,民眾的關(guān)注度降了……熱鬧的大概只剩下兩場酣仗:自5月15日字節(jié)跳動宣布“以厘計費”,打響國內(nèi)大模型
互聯(lián)網(wǎng)或許從未停止創(chuàng)新,只是對于創(chuàng)新的認知下降了。
“養(yǎng)龍蝦”到底要花多少錢?這個問題可能是大家最關(guān)心的。我們把成本拆成三部分:服務(wù)器租用費+大模型API調(diào)用費+雜項開銷。第一部分:服務(wù)器租用費。最省錢的方案當(dāng)然是本地舊電腦自托管——零新增成本,電費忽略不計。但如前所述,你需要接受“不是7×24小時在線”的局限性。如果選擇云服務(wù)器,成本差異就很大了。
不少朋友第一次接觸OpenClaw時,都會有一個相同的困惑:這玩意兒到底該裝在哪里?OpenClaw(社區(qū)戲稱“養(yǎng)龍蝦”,因Logo為龍蝦鉗)不是普通的聊天機器人,而是一款本地優(yōu)先、可自主執(zhí)行、支持多Agent分工協(xié)作的AI執(zhí)行網(wǎng)關(guān)。說白了,它讓大模型從“只會說話”變成“會動手做事”——幫你管理文件
01別相信“一鍵養(yǎng)蝦,躺平賺錢”的鬼話打開社交媒體,你可能會看到這樣的標(biāo)題:“養(yǎng)只龍蝦自動炒股,零代碼養(yǎng)出數(shù)字巴菲特!”信了,你就輸了。真實情況是:一個做跨境電商的小哥花了200元租服務(wù)器、訂閱API,指望龍蝦幫他炒股暴富。結(jié)果龍蝦開始幾天還像模像樣,后來直接擺爛,生成個干癟的大綱就敷衍了事。AI是
一張證書引發(fā)的討論4月7日,北京嫣然天使兒童醫(yī)院給陳光標(biāo)發(fā)了一張感謝證書,感謝他捐贈1000萬元。這事說起來挺曲折的。此前陳光標(biāo)高調(diào)說要贈給張雪一臺價值1300萬元的勞斯萊斯,張雪回應(yīng)“收了,八折賣掉捐給嫣然”,一番拉扯之后,陳光標(biāo)把車變現(xiàn),1000萬元直接打到了嫣然醫(yī)院賬上。醫(yī)院發(fā)證書感謝,本來是
2026年4月7日,國家安全部就AI核心術(shù)語“詞元”(Token)發(fā)布安全警示,強調(diào)在日均調(diào)用量突破140萬億規(guī)模的市場背景下,需高度警惕由此引發(fā)的數(shù)據(jù)泄露與金融詐騙風(fēng)險。據(jù)統(tǒng)計,截至今年3月,我國日均詞元調(diào)用量已超過140萬億,較2024年初增長1000多倍。詞元作為大模型處理信息的最小單元,兼具
如今出門,如果你還沒用過AI智能助手,可能真有點跟不上節(jié)奏了。無論是寫作文、查資料,還是規(guī)劃出行路線,越來越多的人已經(jīng)習(xí)慣隨手打開AI問一句。這股熱潮背后,中國AI大模型用實打?qū)嵉臄?shù)據(jù)交出了一份亮眼的成績單。根據(jù)全球知名AI模型聚合平臺OpenRouter的最新數(shù)據(jù),在3月30日至4月5日這一周,中
01別在主電腦上養(yǎng)!這是最最重要的一條“保命”建議。很多小白心血來潮,直接在自己存著畢業(yè)論文、工作文件、銀行卡信息的主力電腦上部署OpenClaw。然后悲劇發(fā)生了:讓龍蝦幫忙整理一下桌面文件,結(jié)果它把整臺電腦的文件全刪了。這不是段子,是真事。OpenClaw一旦被授予高權(quán)限,就能執(zhí)行刪除、修改等不可
01免費領(lǐng)養(yǎng),但飼料要錢很多人第一次聽說OpenClaw時,腦子里冒出的第一個念頭是:開源軟件,那不免費嗎?沒錯,OpenClaw本身確實是開源的,下載安裝一分錢不收。但你很快就會發(fā)現(xiàn),真正的開銷根本不在這里。養(yǎng)一只“龍蝦”,就像領(lǐng)養(yǎng)了一只寵物——領(lǐng)養(yǎng)免費,但“蝦缸”“蝦糧”“蝦保姆”都得自己掏錢。
一只“龍蝦”,火遍全網(wǎng)“今天你養(yǎng)龍蝦了嗎?”這句話在2026年初,迅速取代“吃了嗎”成為社交媒體上的新晉暗號。別誤會,這不是什么水產(chǎn)養(yǎng)殖新風(fēng)口。這里說的“龍蝦”,是一款名為OpenClaw的開源AI智能體。因為它的圖標(biāo)是一只紅色龍蝦,網(wǎng)友們便把部署、配置和使用它的過程,戲稱為“養(yǎng)龍蝦”。一個開源軟件
凌晨兩點,小王合上筆記本,揉了揉酸脹的眼睛?;艘粋€月寫出來的10萬字短劇劇本躺在硬盤里,要真正把它拍成劇,得找演員、租場地、請攝像、做后期……粗算下來少說要幾十萬,他只能把劇本繼續(xù)鎖在抽屜里。不過,現(xiàn)在小王的劇本可以“見光”了。2026年3月19日,字節(jié)跳動旗下的小云雀AI正式上線了短劇Agent