文 | 曾響鈴
來源 | 科技向令說(xiangling0815)
用文字描述“一個(gè)女人打著紅色的雨傘在路上走”,系統(tǒng)呈現(xiàn)出一張唯美的街拍;
有一張飛機(jī)起飛的照片,想配上一段適合的聲音,上傳圖片后,一段發(fā)動(dòng)機(jī)呼嘯聲的音頻播放出來;
把淅淅瀝瀝的下雨聲導(dǎo)入進(jìn)去,江南水鄉(xiāng)老宅的氤氳雨景圖展現(xiàn)在了眼前……
這些,是已經(jīng)實(shí)現(xiàn)了的多模態(tài)AI應(yīng)用,橫貫文字、圖像、語音,在初級(jí)應(yīng)用功能上就已經(jīng)展現(xiàn)出相比單模態(tài)更智能、更自然、更多樣化的魅力,其前景被普遍關(guān)注,只不過很長一段時(shí)間以來,多模態(tài)的發(fā)展速度一直不算快。
現(xiàn)在,事情正在發(fā)生變化。
在華為全聯(lián)接2021期間,中國科學(xué)技術(shù)信息研究所、AITISA(新一代人工智能產(chǎn)業(yè)技術(shù)創(chuàng)新戰(zhàn)略聯(lián)盟)和鵬城實(shí)驗(yàn)室聯(lián)合了發(fā)布《人工智能計(jì)算中心發(fā)展白皮書2.0——從人工智能計(jì)算中心走向人工智能算力網(wǎng)絡(luò)》,其中明確提到了以“大算力+大數(shù)據(jù)”使能大模型(多模態(tài)多樣化的能力一般都由大模型才能更好的實(shí)現(xiàn),或者說多模態(tài)的形式表現(xiàn)為大模型)。會(huì)上,中國科學(xué)院自動(dòng)化研究所發(fā)布了全球首個(gè)三模態(tài)大模型紫東.太初,這無疑讓多模態(tài)的發(fā)展進(jìn)入了一個(gè)全新的落地階段。
多模態(tài)大模型,正在與人工智能算力網(wǎng)絡(luò)互相促進(jìn),成為彼此的最佳伴行者。
多重因素下,多模態(tài)大模型已成大勢(shì)所趨
隨著AI的技術(shù)和產(chǎn)業(yè)發(fā)展逐步走向深入,多模態(tài)大模型的趨勢(shì)十分明朗,這主要表現(xiàn)在三個(gè)方面:
首先,是AI自身的能力進(jìn)化要求。
在單模態(tài)領(lǐng)域,例如歸屬NLP的跨語種翻譯這類應(yīng)用,機(jī)器可以說早已超越人類,實(shí)現(xiàn)了重要的技術(shù)和產(chǎn)業(yè)價(jià)值,如果要進(jìn)一步往前走,多模態(tài)自然而然就成為AI技術(shù)和產(chǎn)業(yè)突圍的新方向。與此同時(shí),單模態(tài)本身也面臨“知識(shí)冰山”的瓶頸問題,進(jìn)一步智能化也需要大模型來支撐,例如對(duì)“老王去吃食堂”的理解,單純的文字?jǐn)?shù)據(jù)很難讓AI辨別“吃食堂”不是把食堂吃掉而是“到食堂吃飯”,但一張場(chǎng)景圖片或視頻就可以很容易解釋清楚并關(guān)聯(lián)起來。
然后,是“數(shù)據(jù)”供給的要求。
數(shù)據(jù)是AI發(fā)展的根本、是AI的“食物”,在全球范圍內(nèi),包括中國市場(chǎng)上,互聯(lián)網(wǎng)的出現(xiàn)幫助AI模型訓(xùn)練的數(shù)據(jù)量越來越龐大,它們讓AI得到了快速的能量補(bǔ)充。
然而,目前互聯(lián)網(wǎng)音視頻數(shù)據(jù)高速增長,占比超過80%,單一數(shù)據(jù)類型例如文本只占不多的比例,這使得更豐富的語音、圖像、視頻等數(shù)據(jù)并未被充分利用與學(xué)習(xí),以多模態(tài)的方式將更深度、更廣泛地挖掘這些數(shù)據(jù)的價(jià)值,反過來,大量的各種屬性的數(shù)據(jù)投喂也將推動(dòng)AI擺脫單模態(tài),朝著多模態(tài)大模型不斷前進(jìn)。
最后,是產(chǎn)業(yè)需求的倒逼。
隨著AI逐步落地,產(chǎn)業(yè)需求也在往深處走,更多場(chǎng)景應(yīng)用需要多模態(tài)大模型來支撐,例如,跨模態(tài)檢索、智能問答、文學(xué)藝術(shù)創(chuàng)作、視頻配音、視頻摘要等等。
可以說,越是在技術(shù)層面將圖像、文字、語音相互融合,一個(gè)應(yīng)用在場(chǎng)景中表現(xiàn)的價(jià)值就越為明顯,也更能讓AI的場(chǎng)景應(yīng)用真正告別常常被詬病的“雞肋”感。
算力、框架、技術(shù)積累三位一體,多模態(tài)大模型加速落地
為什么紫東.太初這樣的多模態(tài)大模型得以實(shí)現(xiàn),原因主要有三大方面,缺一不可:
1、人工智能算力網(wǎng)絡(luò)成為多模態(tài)、大模型的重要推進(jìn)因素
多模態(tài)大模型的一個(gè)重要特征,是訓(xùn)練的參數(shù)規(guī)模呈現(xiàn)指數(shù)級(jí)的上升。
以往的單模態(tài),單一類型的數(shù)據(jù)“喂養(yǎng)”幫助AI模型獲取知識(shí)、迭代能力,相對(duì)而言模型本身并不需要太多的參數(shù),就如同小學(xué)生不斷學(xué)習(xí)加減乘除一樣只要理解基本的數(shù)學(xué)規(guī)則一樣。
而當(dāng)不同模態(tài)加入后,一個(gè)可以識(shí)別圖像、文字、語音的通用算法,不僅需要理解單模態(tài)的各種數(shù)據(jù),還需要理解不同數(shù)據(jù)之間極端復(fù)雜的聯(lián)系,模型的參數(shù)發(fā)生膨脹,這就如同專業(yè)的大學(xué)理工科學(xué)習(xí)需要綜合各種學(xué)科知識(shí)進(jìn)行復(fù)雜地算一樣。
這時(shí)候,很顯然,算力就成為最基本的支撐,只有超大規(guī)模的算力才能支撐大模型的訓(xùn)練,才能讓多模態(tài)應(yīng)用有更好的效果。
所以,在提供強(qiáng)大集群化算力的各地人工智能計(jì)算中心基礎(chǔ)上,人工智能算力網(wǎng)絡(luò)的出現(xiàn),進(jìn)一步解決了多模態(tài)大模型的算力需求問題,成為重要的推進(jìn)因素。
事實(shí)上,由于大模型的運(yùn)算很多時(shí)候還有波峰波谷的問題(即計(jì)算時(shí)算力耗費(fèi)巨大,而不計(jì)算時(shí)則算力閑置),而人工智能算力網(wǎng)絡(luò)又能在全國范圍內(nèi)感知、分配、調(diào)度人工智能算力,根據(jù)各中心算力資源的情況和各地區(qū)的需求情況進(jìn)行算力動(dòng)態(tài)調(diào)配,雙方的供需關(guān)系除了“量”之外在“節(jié)奏”上也十分契合。
反過來看,多模態(tài)大模型的技術(shù)發(fā)展以及在產(chǎn)業(yè)中的應(yīng)用,也將推動(dòng)本身作為各地產(chǎn)業(yè)集群推進(jìn)力量的人工智能算力網(wǎng)絡(luò)更好地發(fā)展,“物盡其用”同時(shí)技術(shù)不斷進(jìn)步,可見二者是相互促進(jìn)的關(guān)系。
2、昇思MindSpore特性推動(dòng)開發(fā)加速
由于模型參數(shù)十分龐大,光有算力支撐還不行,多模態(tài)大模型開發(fā)所依托的AI框架也需要有承載和利用算力、支持龐大參數(shù)的能力,而這方面,過去國內(nèi)外已有的一些主流開發(fā)框架都只支持簡單的數(shù)據(jù)并行,滿足不了大模型的需要。
本次在華為全聯(lián)接2021上發(fā)布的多模態(tài)大模型紫東.太初,就基于昇思框架訓(xùn)練的,這是業(yè)界首個(gè)支持全自動(dòng)并行的框架,全球首個(gè)中文預(yù)訓(xùn)練大模型鵬程.盤古就出自其手。
昇思框架與多模態(tài)大模型相契合的主要技術(shù)優(yōu)勢(shì)在于,可以在訓(xùn)練過程中自動(dòng)將模型切分到不同的設(shè)備,并高效地利用龐大的計(jì)算設(shè)備集群來完成并行訓(xùn)練,相當(dāng)于建立了一套行之有效的中樞指揮系統(tǒng),將計(jì)算任務(wù)以同時(shí)進(jìn)行的方式分配下去,再大的訓(xùn)練任務(wù)也能有條不紊實(shí)現(xiàn)加速,而不是堵塞起來。
其實(shí)現(xiàn)過程,是通過多維度自動(dòng)并行這一獨(dú)特能力來實(shí)現(xiàn)的——通過數(shù)據(jù)并行、模型并行、Pipeline并行、異構(gòu)并行、重復(fù)計(jì)算、高效內(nèi)存復(fù)用及拓?fù)涓兄{(diào)度,降低通信時(shí)間的占用,實(shí)現(xiàn)整體迭代時(shí)間最小,簡單來說就是通過一系列技術(shù)創(chuàng)新來讓并行更有規(guī)模和效率,無需像其他AI框架一樣半自動(dòng)甚至是手動(dòng)來完成大模型的并行執(zhí)行開發(fā)。
在最新的1.5版本更新中,昇思框架還增加了多種并行調(diào)優(yōu),支持在大集群下高效訓(xùn)練千億至萬億參數(shù)模型。
3、已有多模態(tài)大模型相關(guān)經(jīng)驗(yàn)基礎(chǔ)
多模態(tài)能力一定建立在單模態(tài)能力的基礎(chǔ)之上,這是毫無疑問的。此次紫東.太初的開發(fā)者即中國科學(xué)院自動(dòng)化研究所,是昇騰AI的重要生態(tài)伙伴,在發(fā)布紫東.太初之前,中科院自動(dòng)化研究所就已經(jīng)在圖像、語音、文本三個(gè)方面自研了業(yè)界領(lǐng)先的模型:
在此基礎(chǔ)上,中科院自動(dòng)化研究所與昇騰AI攜手,還實(shí)現(xiàn)了一些“前期準(zhǔn)備”能力的構(gòu)建,包括圖文跨模態(tài)理解與生成性能、視頻理解與描述性能的全球領(lǐng)先,這些都成為紫東.太初的重要支撐:
最終可以看到,全球首個(gè)三模態(tài)大模型紫東.太初應(yīng)運(yùn)而生,讓多模態(tài)從常見的兩個(gè)模態(tài)一躍邁入了三模態(tài)時(shí)代,不僅可以實(shí)現(xiàn)跨模態(tài)理解(比如圖像識(shí)別、語音識(shí)別等任務(wù)),也能完成跨模態(tài)生成(比如從文本生成圖像、從圖像生成文本、語音生成圖像和視頻等任務(wù))。
看起來,兩個(gè)模態(tài)與三個(gè)模態(tài)似乎只有數(shù)量的差別,但從技術(shù)上,其實(shí)現(xiàn)難度或與二維世界到三維世界的跨越類似,需要大量的技術(shù)積累與創(chuàng)新。而一旦三模態(tài)得以實(shí)現(xiàn),相比較兩模態(tài),AI的交互會(huì)變得更加自然,能夠離強(qiáng)人工智能更近一步。
結(jié)語
多模態(tài)大模型正在加速賦能產(chǎn)業(yè),在開源開放的大前提下,昇騰AI加持的紫東.太初正在走入智能駕駛、工業(yè)質(zhì)檢、影視創(chuàng)作、智慧醫(yī)療等應(yīng)用場(chǎng)景,合作客戶包括上汽集團(tuán)、魏橋創(chuàng)業(yè)等知名企業(yè),一幅多模態(tài)大模型賦能千行百業(yè)的圖景正在展開。
從多模態(tài)大模型的發(fā)展可以看出,未來,隨著人工智能算力網(wǎng)絡(luò)、昇思框架這樣的基礎(chǔ)軟硬件突破性項(xiàng)目的發(fā)展,中國的AI將實(shí)現(xiàn)從基礎(chǔ)技術(shù)到產(chǎn)業(yè)應(yīng)用的全面領(lǐng)先,憑借技術(shù)和模式創(chuàng)新?lián)碛姓嬲母偁幈趬尽?/p>
*本文圖片均來源于網(wǎng)絡(luò)
*此內(nèi)容為【科技向令說】原創(chuàng),未經(jīng)授權(quán),任何人不得以任何方式使用,包括轉(zhuǎn)載、摘編、復(fù)制或建立鏡像。
【完】
曾響鈴
1鈦媒體、品途、人人都是產(chǎn)品經(jīng)理等多家創(chuàng)投、科技網(wǎng)站年度十大作者;
2虎嘯獎(jiǎng)評(píng)委;
3作家:【移動(dòng)互聯(lián)網(wǎng)+ 新常態(tài)下的商業(yè)機(jī)會(huì)】等暢銷書作者;
4《中國經(jīng)營報(bào)》《商界》《商界評(píng)論》《銷售與市場(chǎng)》等近十家報(bào)刊、雜志特約評(píng)論員;
5鈦媒體、36kr、虎嗅、界面、澎湃新聞等近80家專欄作者;
6“腦藝人”(腦力手藝人)概念提出者,現(xiàn)演變?yōu)?ldquo;自媒體”,成為一個(gè)行業(yè);
7騰訊全媒派榮譽(yù)導(dǎo)師、多家科技智能公司傳播顧問。
申請(qǐng)創(chuàng)業(yè)報(bào)道,分享創(chuàng)業(yè)好點(diǎn)子。點(diǎn)擊此處,共同探討創(chuàng)業(yè)新機(jī)遇!
2025年10月25日,2025世界青年科學(xué)家峰會(huì)之人工智能(AI)融合創(chuàng)新發(fā)展論壇在浙江溫州成功舉辦。本次論壇由國際院士科創(chuàng)中心主辦,中國投資協(xié)會(huì)能源投資專業(yè)委員會(huì)、溫港院士科創(chuàng)中心承辦,中國電工技術(shù)學(xué)會(huì)、中科先進(jìn)技術(shù)溫州研究院與溫州市電力工程學(xué)會(huì)提供支持,以“甌江論道-AI賦能綠色發(fā)展”為主題,
個(gè)人創(chuàng)業(yè)需要啟動(dòng)成本低、無需龐大團(tuán)隊(duì)、可快速驗(yàn)證、能利用個(gè)人技能或資源。這里分享適合個(gè)人創(chuàng)業(yè)的十個(gè)機(jī)會(huì)一.AI內(nèi)容優(yōu)化與本地化服務(wù)·做什么:幫助企業(yè)或個(gè)人利用AI工具(如GPT-4,Midjourney)優(yōu)化內(nèi)容生產(chǎn)流程。例如,為跨境電商撰寫多語言產(chǎn)品描述,為小紅書博主生成爆款文案,為小公司制作營銷
百度AI團(tuán)隊(duì)今日正式推出PaddleOCR3.1版本,以突破性的多語言組合識(shí)別(MultilingualCompositionPerception,MCP)技術(shù)為核心,徹底重構(gòu)復(fù)雜文檔處理邊界。此次升級(jí)標(biāo)志著OCR領(lǐng)域首次實(shí)現(xiàn)對(duì)同一文檔內(nèi)任意混合語言文本的精準(zhǔn)識(shí)別,為全球化企業(yè)、跨境業(yè)務(wù)及多元文化場(chǎng)
導(dǎo)航網(wǎng)站的崛起:從信息過載到精準(zhǔn)觸達(dá)隨著全球AI工具數(shù)量爆發(fā)式增長(2025年已超數(shù)萬款),用戶面臨前所未有的選擇困境。傳統(tǒng)搜索引擎的“關(guān)鍵詞-鏈接”模式難以應(yīng)對(duì)工具篩選的場(chǎng)景需求,垂直化、場(chǎng)景化的AI導(dǎo)航網(wǎng)站應(yīng)運(yùn)而生。這類平臺(tái)通過聚合、評(píng)測(cè)、分類與推薦四重機(jī)制,將分散的工具資源整合為結(jié)構(gòu)化入口。例
當(dāng)微信公眾號(hào)文章中出現(xiàn)一個(gè)人的名字,它會(huì)自動(dòng)變成藍(lán)色鏈接,點(diǎn)擊即可查看AI生成的“個(gè)人簡歷”——這一微信新功能讓不少用戶感到被“扒光”在互聯(lián)網(wǎng)上。近日,微信新上線的“AI搜索”功能陷入隱私泄露爭議漩渦。多位網(wǎng)友在社交平臺(tái)反映,當(dāng)微信公眾號(hào)推文中出現(xiàn)本人姓名時(shí),名字會(huì)自動(dòng)變?yōu)樗{(lán)色超鏈接,點(diǎn)擊即可瀏覽由
“養(yǎng)龍蝦”到底要花多少錢?這個(gè)問題可能是大家最關(guān)心的。我們把成本拆成三部分:服務(wù)器租用費(fèi)+大模型API調(diào)用費(fèi)+雜項(xiàng)開銷。第一部分:服務(wù)器租用費(fèi)。最省錢的方案當(dāng)然是本地舊電腦自托管——零新增成本,電費(fèi)忽略不計(jì)。但如前所述,你需要接受“不是7×24小時(shí)在線”的局限性。如果選擇云服務(wù)器,成本差異就很大了。
不少朋友第一次接觸OpenClaw時(shí),都會(huì)有一個(gè)相同的困惑:這玩意兒到底該裝在哪里?OpenClaw(社區(qū)戲稱“養(yǎng)龍蝦”,因Logo為龍蝦鉗)不是普通的聊天機(jī)器人,而是一款本地優(yōu)先、可自主執(zhí)行、支持多Agent分工協(xié)作的AI執(zhí)行網(wǎng)關(guān)。說白了,它讓大模型從“只會(huì)說話”變成“會(huì)動(dòng)手做事”——幫你管理文件
01別相信“一鍵養(yǎng)蝦,躺平賺錢”的鬼話打開社交媒體,你可能會(huì)看到這樣的標(biāo)題:“養(yǎng)只龍蝦自動(dòng)炒股,零代碼養(yǎng)出數(shù)字巴菲特!”信了,你就輸了。真實(shí)情況是:一個(gè)做跨境電商的小哥花了200元租服務(wù)器、訂閱API,指望龍蝦幫他炒股暴富。結(jié)果龍蝦開始幾天還像模像樣,后來直接擺爛,生成個(gè)干癟的大綱就敷衍了事。AI是
一張證書引發(fā)的討論4月7日,北京嫣然天使兒童醫(yī)院給陳光標(biāo)發(fā)了一張感謝證書,感謝他捐贈(zèng)1000萬元。這事說起來挺曲折的。此前陳光標(biāo)高調(diào)說要贈(zèng)給張雪一臺(tái)價(jià)值1300萬元的勞斯萊斯,張雪回應(yīng)“收了,八折賣掉捐給嫣然”,一番拉扯之后,陳光標(biāo)把車變現(xiàn),1000萬元直接打到了嫣然醫(yī)院賬上。醫(yī)院發(fā)證書感謝,本來是
2026年4月7日,國家安全部就AI核心術(shù)語“詞元”(Token)發(fā)布安全警示,強(qiáng)調(diào)在日均調(diào)用量突破140萬億規(guī)模的市場(chǎng)背景下,需高度警惕由此引發(fā)的數(shù)據(jù)泄露與金融詐騙風(fēng)險(xiǎn)。據(jù)統(tǒng)計(jì),截至今年3月,我國日均詞元調(diào)用量已超過140萬億,較2024年初增長1000多倍。詞元作為大模型處理信息的最小單元,兼具
如今出門,如果你還沒用過AI智能助手,可能真有點(diǎn)跟不上節(jié)奏了。無論是寫作文、查資料,還是規(guī)劃出行路線,越來越多的人已經(jīng)習(xí)慣隨手打開AI問一句。這股熱潮背后,中國AI大模型用實(shí)打?qū)嵉臄?shù)據(jù)交出了一份亮眼的成績單。根據(jù)全球知名AI模型聚合平臺(tái)OpenRouter的最新數(shù)據(jù),在3月30日至4月5日這一周,中
01別在主電腦上養(yǎng)!這是最最重要的一條“保命”建議。很多小白心血來潮,直接在自己存著畢業(yè)論文、工作文件、銀行卡信息的主力電腦上部署OpenClaw。然后悲劇發(fā)生了:讓龍蝦幫忙整理一下桌面文件,結(jié)果它把整臺(tái)電腦的文件全刪了。這不是段子,是真事。OpenClaw一旦被授予高權(quán)限,就能執(zhí)行刪除、修改等不可
01免費(fèi)領(lǐng)養(yǎng),但飼料要錢很多人第一次聽說OpenClaw時(shí),腦子里冒出的第一個(gè)念頭是:開源軟件,那不免費(fèi)嗎?沒錯(cuò),OpenClaw本身確實(shí)是開源的,下載安裝一分錢不收。但你很快就會(huì)發(fā)現(xiàn),真正的開銷根本不在這里。養(yǎng)一只“龍蝦”,就像領(lǐng)養(yǎng)了一只寵物——領(lǐng)養(yǎng)免費(fèi),但“蝦缸”“蝦糧”“蝦保姆”都得自己掏錢。
一只“龍蝦”,火遍全網(wǎng)“今天你養(yǎng)龍蝦了嗎?”這句話在2026年初,迅速取代“吃了嗎”成為社交媒體上的新晉暗號(hào)。別誤會(huì),這不是什么水產(chǎn)養(yǎng)殖新風(fēng)口。這里說的“龍蝦”,是一款名為OpenClaw的開源AI智能體。因?yàn)樗膱D標(biāo)是一只紅色龍蝦,網(wǎng)友們便把部署、配置和使用它的過程,戲稱為“養(yǎng)龍蝦”。一個(gè)開源軟件
凌晨兩點(diǎn),小王合上筆記本,揉了揉酸脹的眼睛。花了一個(gè)月寫出來的10萬字短劇劇本躺在硬盤里,要真正把它拍成劇,得找演員、租場(chǎng)地、請(qǐng)攝像、做后期……粗算下來少說要幾十萬,他只能把劇本繼續(xù)鎖在抽屜里。不過,現(xiàn)在小王的劇本可以“見光”了。2026年3月19日,字節(jié)跳動(dòng)旗下的小云雀AI正式上線了短劇Agent