5月14日OpenAI搶跑發(fā)布GPT-4o,通過實時的語音、視頻和文本交互刷屏社交網(wǎng)絡。
但僅僅24小時后,谷歌毫不示弱,在一年一度的Google I/O 開發(fā)者大會上,展示了由升級后Gemini模型驅(qū)動的AI助手項目Project Astra、對標Sora的文生視頻模型Veo,以及在硬件方面發(fā)布的第六代Tensor處理器單元(TPU)Trillium芯片,并推出了徹底AI改造后的搜索。
谷歌首席執(zhí)行官桑達爾?皮查伊表示,谷歌所有的工作都圍繞生成式AI模型Gemini來做。
由此,多模態(tài)大模型 成為巨頭選定的未來方向,這讓人不由的發(fā)出疑問,中國大模型誰能扛起多模態(tài)的大旗?
多模態(tài)遙遙領先的中國大模型
谷歌發(fā)布會固然精彩,但總體上也談不上絕對領先,比如我們看到一個挺有意思的演示,就是給出一個三天的膳食計劃,最后得出的結(jié)果是圖文并茂的。這一點確實帶來了很大的體驗提升,而目前國內(nèi)的大部分大模型的對話方式還是簡單的停留在文字交互上,多模態(tài)的混合內(nèi)容幾乎沒有。

不過比起國內(nèi)的多模態(tài)AI搜索領軍產(chǎn)品天工大模型(www.tiangong.cn)來說,谷歌這個多模態(tài)的搜索結(jié)果就有點花拳繡腿了,比如我提的一個問題是“特斯拉與小米的參數(shù)對比”,這里給出的答案應該是所有大模型里唯一能夠用表格對比并配圖的了,在實用性和可用性上來說,真的是遙遙領先,根本不需要二次處理數(shù)據(jù)就可以直接輸出內(nèi)容了。
從這個角度來看的話,我覺得谷歌還是處于一個炫技的demo階段,而天工大模型在多模態(tài)這塊確實已經(jīng)進入了一個實用階段。

從這里我們可以看出,早在4月17日發(fā)布的“天工3.0”在多模態(tài)領域的領先并不僅僅是在國內(nèi)范圍,而是全球范圍。“天工3.0”是采用4千億級參數(shù)MoE混合專家模型,也是全球模型參數(shù)最大、性能最強的MoE模型之一。
最為重要的一點則是,“天工3.0”也是全球首個多模態(tài)“超級模型”(Super Model),其最早集成了AI搜索、AI PPT、AI視頻轉(zhuǎn)繪、AI寫作、AI長文本閱讀、AI對話、AI語音合成、AI圖片生成、AI漫畫創(chuàng)作、AI圖片識別、AI音樂生成、AI代碼寫作、AI表格生成等多項能力。
這一路徑選擇,在一個月之后的今天,兩大巨頭的模型更新后,也被確認為全球大模型未來的發(fā)展方向。
之所以天工能夠?qū)崿F(xiàn)這樣的領先,是因為早在去年9月就發(fā)布了多模態(tài)大模型Skywork-MM然后一步一步迭代而來,這種對未來發(fā)展方向的遠見和正確判斷,無疑是在AI這種創(chuàng)新領域?qū)崿F(xiàn)領先的關鍵。
反觀谷歌反而在摸索方向方面耗費了太多的時間,現(xiàn)在才開始逐漸步入正軌。
多模態(tài)AI打破個人創(chuàng)作局限
如果說AI搜索是剛需的入口,那么多模態(tài)顯然就是應用的未來。我曾向很多公務員朋友推薦使用天工AI,其中很多多模態(tài)功能在工作中都有很好的表現(xiàn)。比如說AI ppt功能可以一鍵生成大綱和PPT,大幅降低工作的繁瑣程度,只要簡單修改就可以直接應用。
而AI視頻轉(zhuǎn)繪畫的功能則是我意想不到的一個受歡迎的功能,因為大家都要做短視頻,但又不方便露臉,一鍵轉(zhuǎn)成漫畫風格就完全沒有問題了。


對于文案工作者來說,閱讀分析大量的材料和進行范式文體的寫作是日常工作中最耗費精力的部分,而AI能夠帶來的最大價值就在這里了。
天工的AI文檔解析支持無字數(shù)限制的文檔閱讀,除了PDF和TXT、EXCEL等文檔形式外也支持網(wǎng)絡鏈接,文檔上傳后,能一鍵生成AI摘要和要點提煉,還貼心標注提煉內(nèi)容的總計字數(shù)及閱讀時間,方便參考。
而且AI閱讀的所有問答歷史、閱讀列表都將成為你的個人知識庫,避免重復學習,也能隨時找到過去的工作成果。
然后再配合AI寫作、AI PPT,可以快速生成大綱、框架、文本或者PPT,大幅提升文字工作的效率。這就是AI輔助未來辦公的一個真實可用的場景。

值得一提到是,天工AI解析EXCEL這種復雜數(shù)據(jù)場景也是游刃有余,絕對是未來的硬核生產(chǎn)力工具。

文字工作是一切的基礎,AI圖片、AI音樂、AI漫畫、AI代碼、AI數(shù)據(jù)分析等一系列AI多模態(tài)能力的誕生,則實現(xiàn)了全場景的生產(chǎn)效率提升,無論是我們想配一個無版權的插圖,還是想配一個合適的音樂,漫畫,現(xiàn)在都可以通過AI來生成完全具有知識產(chǎn)權的內(nèi)容,這一點不僅僅會為職場人士帶來效率提升的價值,也會為大量的內(nèi)容創(chuàng)業(yè)者打開創(chuàng)作的桎梏,生成更多的優(yōu)質(zhì)內(nèi)容。
從這一點來說,多模態(tài)的未來相關于每一個生產(chǎn)內(nèi)容的人,也勢必會為創(chuàng)造力插上最強的輔助翅膀。
除此之外,天工垂直領域的智能體對話的工具性也非常有實用價值,比如旅游在出行前問一問,就可以作出很好的推薦和路線規(guī)劃。

星座運勢也可以隨時給出關于星座的運勢走向和生活指南,也可以給枯燥的生活帶來幾分樂趣和期待。
這里尤其需要說明的是,能夠提供即時的信息內(nèi)容,且視覺感不輸傳統(tǒng)搜索引擎的體驗,也是天工大模型的獨家能力,如果是其他大模型,大部分都只能呈現(xiàn)文字效果,甚至還在分析過去的信息,是沒有辦法提供星座運程這樣的即時的信息分析反饋的。

還有很多年輕的朋友會在二次元漫畫中樂此不疲的完成自己的作品創(chuàng)作。而隨著多模態(tài)能力的發(fā)展,我相信還會有更多垂直領域的垂直模型被開發(fā)出來,這些對于人們的工作生活都會帶來顛覆性的改變。
而最完美的場景自然是和語音助手的結(jié)合,讓每個人都能擁有一個類似鋼鐵俠的賈維斯那樣的AI助手,這樣大量的工作和娛樂需求只要一句話就會被AI滿足,這種完美的生活體驗我相信距離我們已經(jīng)不遠了。
AI搜索的開創(chuàng)者
值得一提的是,除了在多模態(tài)方面的領先,天工也是中國AI搜索的開創(chuàng)者,2023年8月就率先推出基于自研大語言模型的AI搜索產(chǎn)品——天工AI搜索,這也啟發(fā)了國內(nèi)的搜索巨頭,百度和360也相繼入局。
目前來看,搜索融入AI可以說是一個神來之筆,從全球范圍來看,谷歌最終也很有可能憑借搜索的優(yōu)勢來反超OpenAI。
因為搜索和AI的結(jié)合是最為自然的,也是實用性提升最強的,它大大降低了搜索工具的使用門檻,同時篩掉了很多往往需要專業(yè)人士才能分辨的垃圾信息,而最終產(chǎn)生的搜索結(jié)果,就好像上面的對比表格一樣,直接利用率非常高,不再需要人們進行更復雜的二次數(shù)據(jù)整理和編輯。
在這里需要強調(diào)的是,天工大模型和其他AI搜索的領先之處還有一點是支持簡潔、增強、研究3個模式,其中的簡潔模式的結(jié)果和其他大模型類似,而增強和研究兩個模式則能輸出更為豐富和復雜的結(jié)果來供更加專業(yè)的需求使用。
比如關于普通人有必要理財么這個問題,簡潔模式就回復了基本的理財?shù)哪康摹⒑锰?、風險,而增強版搜索則更為細節(jié)的闡述了理財?shù)哪康?、理財?shù)牟呗陨踔吝€有理財?shù)漠a(chǎn)品推薦。


而在研究模式下,我們就可以看到指定理財計劃的推薦,以及10種理財工具的介紹,真的對這個領域有興趣的用戶就可以針對這10種產(chǎn)品進一步的進行研究和采納了。這三個答案可以說是比較充分的體現(xiàn)出了天工AI搜索三種模式結(jié)果的不同。
對我本人的使用場景來說,大大解決了搜索中專業(yè)度不足的問題。之前我使用的大模型提供的素材很難在專業(yè)的稿件中用到,但天工AI搜索的增強尤其是研究模式下的結(jié)果,可用度就非常高了。

當然天工在AI搜索方面的領先也不是憑空而來,很多人只知道天工的研發(fā)者昆侖萬維是國內(nèi)市值數(shù)百億的上市公司,但不知道的是,它之前曾收購并成功運營海外主流瀏覽器Opera,所以在搜索方面不僅有很強的技術積累,同時也奠定了如今自研搜索引擎的能力,這種積累最終在AI領域?qū)崿F(xiàn)了爆發(fā),不能不說昆侖萬維在戰(zhàn)略和遠見方面的優(yōu)勢。
要知道,在國內(nèi)同時具有大模型和搜索能力的公司屈指可數(shù),而從目前的發(fā)展趨勢來看,這兩種能力的齊備是最后還能留在一線的必要條件。
昆侖萬維在研發(fā)人員方面也是國內(nèi)的第一梯隊,相較于國內(nèi)幾個創(chuàng)業(yè)團隊百十人的規(guī)模,有數(shù)倍的優(yōu)勢。而且這些研發(fā)人員質(zhì)量也非常高,海內(nèi)外知名院校博士就超過百人,其他大部分也都來自于微軟、阿里、百度這樣的行業(yè)大廠,技術水準有更好的保障。
AI發(fā)展如火如荼,這其中不僅僅需要技術能力的支撐,也需要對未來發(fā)展方向的準確判斷和精準投入。畢竟AI發(fā)展就像滾雪球,好處是越來越大,領先優(yōu)勢也越來越明顯,后來者很難追上。壞處就是一旦方向錯了,很容易尾大不掉,難以轉(zhuǎn)向。
從目前的發(fā)展趨勢來看,多模態(tài)的方向已經(jīng)相當確定,而天工在海內(nèi)外的領先優(yōu)勢也比較明顯。接下來就是要拉開差距和分勝負的時刻了。期待更強大的產(chǎn)品出現(xiàn),也期待AI改變世界早日到來。
申請創(chuàng)業(yè)報道,分享創(chuàng)業(yè)好點子。點擊此處,共同探討創(chuàng)業(yè)新機遇!
9月24日,2025云棲大會在杭州開幕,阿里巴巴集團CEO、阿里云智能集團董事長兼CEO吳泳銘發(fā)表主旨演講,首次系統(tǒng)性地闡述通往ASI的三階段演進路線,包括智能涌現(xiàn)、自主行動以及自我迭代等,實現(xiàn)從學習人、輔助人到超越人的發(fā)展脈絡。基于上述的發(fā)展路線,吳泳銘對外做出判斷,大模型是下一代的操作系統(tǒng)?!拔?/p>
文/二風來源/節(jié)點財經(jīng)每年高考成績放榜后,數(shù)千萬考生和家長將迎來另一場硬仗——填報志愿。今年,這一領域迎來了AI的全面介入,多家互聯(lián)網(wǎng)大廠和教育公司紛紛推出智能志愿填報產(chǎn)品,為考生提供院校和專業(yè)選擇建議。據(jù)艾媒咨詢數(shù)據(jù),2023年中國高考志愿填報市場付費規(guī)模約9.5億元,近九成考生愿意借助志愿填報服
崔大寶|節(jié)點財經(jīng)創(chuàng)始人進入2024年,大模型似乎有熄火之勢:資本市場,與之關聯(lián)的概念炒不動了,英偉達股價動輒暴跌重挫,引發(fā)“泡沫戳破”的擔憂;消費市場,BATH們的推新活動少了,產(chǎn)品更新迭代的速度慢了,民眾的關注度降了……熱鬧的大概只剩下兩場酣仗:自5月15日字節(jié)跳動宣布“以厘計費”,打響國內(nèi)大模型
年初大模型行業(yè)上演“長文本”大戰(zhàn)時,我們就萌生過做一個“讀書助理”的想法。測試了市面上主流的大模型后,發(fā)現(xiàn)普遍存在兩個不足:一種是可以處理的文本長度不夠,即使有些大模型將文本長度提升到了20萬字,像《紅樓夢》這樣近百萬字的名著,還是需要多次才能“讀”完。另一種是語言理解和生成能力不足,經(jīng)常出現(xiàn)“幻覺
4月2日,字節(jié)跳動旗下火山引擎在武漢舉行的AI創(chuàng)新巡展上宣布,Seedance2.0API正式面向企業(yè)用戶開啟公測。同時,火山引擎總裁譚待在會上披露,截至今年3月,豆包大模型日均Token使用量已突破120萬億,在過去三個月內(nèi)增長一倍,比2024年5月發(fā)布時增長1000倍。Seedance2.0:從
養(yǎng)AI小龍蝦的路上,坑不少。有人被代裝服務騙了錢,有人電腦中了毒,有人收到天價賬單,還有人發(fā)現(xiàn)AI“失控”了,開始亂刪文件。如果你也遇到這些糟心事,別慌。下面這份“養(yǎng)蝦應急包”,告訴你第一時間該做什么。場景一:代裝被騙,錢打水漂了花了300塊找人遠程裝OpenClaw,結(jié)果對方收了錢就拉黑,或者裝了
把AI智能體請進電腦,就像把家里所有的鑰匙交給了一個陌生人。它能幫你打掃房間、整理文件,但萬一它“起了壞心”,或者被壞人利用了,你的家就不再安全了。這不是危言聳聽。國家互聯(lián)網(wǎng)應急中心已經(jīng)發(fā)布風險提示,指出OpenClaw的默認配置“極為脆弱”,攻擊者一旦得手,能輕易獲取系統(tǒng)控制權。微軟安全團隊也警告
OpenClaw火了,火到似乎人人都在討論“養(yǎng)蝦”。打開社交媒體,滿屏都是“有了AI小龍蝦,我再也不用加班了”“我讓AI幫我訂了機票、寫周報、點外賣”之類的分享。于是,很多人開始焦慮:別人都養(yǎng)了,我要不要也養(yǎng)一只?不養(yǎng)是不是就落伍了?先別急。在決定養(yǎng)“蝦”之前,我們先冷靜下來,想清楚一個問題:你到底
3月31日,科技圈上演了一場現(xiàn)實版的“代碼大逃殺”。一向以“閉源”為傲的AI巨頭Anthropic,因一個低級打包失誤,將旗下明星產(chǎn)品ClaudeCode的完整源代碼拱手送給了全世界。一次59.8MB的“裸奔”事情始于一個普通的周二早晨。Web3安全公司FuzzLab的實習研究員ChaofanSho
當?shù)貢r間3月31日,人工智能明星公司OpenAI宣布完成一輪規(guī)模達1220億美元的私募融資,投后估值攀升至8520億美元,創(chuàng)下全球AI企業(yè)估值新紀錄,同時也刷新了科技行業(yè)私募融資的歷史最高規(guī)模。本輪融資籌備歷時數(shù)月,核心資金來自三家頭部科技企業(yè):亞馬遜承諾投資500億美元,英偉達與軟銀集團分別出資3
“我也想養(yǎng)一只AI小龍蝦,但聽說安裝特別難,我連代碼都不會寫,怎么辦?”這是最近后臺收到最多的私信。面對OpenClaw這個技術門檻不低的AI智能體,很多普通人躍躍欲試,卻又望而卻步。于是,一個“代裝”產(chǎn)業(yè)應運而生——遠程50到300元,上門500到1500元,幫你搞定一切。但問題是:這些代裝服務靠
最近,身邊不少人都在討論“養(yǎng)AI小龍蝦”。這只叫OpenClaw的智能體,能替你自動訂機票、寫代碼、整理文件,聽起來像請了一個24小時不休息的數(shù)字員工。但問題來了——月薪五千的普通人,養(yǎng)得起嗎?我們先算一筆賬。養(yǎng)這只“蝦”,主要有三個花錢的地方。第一筆:硬件投入。OpenClaw創(chuàng)始人推薦用MacM
最近,“養(yǎng)AI小龍蝦”成了互聯(lián)網(wǎng)上的一股熱潮。這里的“小龍蝦”指的是OpenClaw——一個能替你自動做事的人工智能體。訂機票、寫代碼、整理文件,它就像一個24小時不休息的數(shù)字員工。聽起來很酷,但很多人忽略了一個關鍵問題:這只“蝦”需要你電腦的完整訪問權限。也就是說,一旦你把它“請”進家門,它就能看
最近,互聯(lián)網(wǎng)上刮起了一股“養(yǎng)蝦熱”。這個“蝦”不是餐桌上的小龍蝦,而是一個叫OpenClaw的AI智能體。標志是一只紅色小龍蝦,寓意不斷蛻殼成長。OpenClaw到底是個什么東西?簡單說,它是一個開源的AI智能體框架,能裝進你的電腦,替你自動做事——訂機票、寫代碼、整理文件,就像一個24小時不休息的