通義聽悟誕生背后，AI大模型打響應用第一槍

2023-06-05 14:36 來源：A5專欄我來投稿撤稿糾錯

2023年伊始，ChatGPT的爆火出圈，迅速引發(fā)了業(yè)界對于生成式AI應用的關注，AI大模型的競爭更是愈演愈烈。

作為參與其中的重要玩家，阿里云先是在4月11日舉行的阿里云峰會上，推出了通義千問大模型。緊接著6月1日，阿里云宣布通義大模型進展，聚焦音視頻內容的AI新品“通義聽悟”正式上線，成為國內首個開放公測的大模型應用產(chǎn)品，這意味著阿里云大語言模型，又向前端應用邁進了一大步。同時其基于AI大模型應用的發(fā)布，也相當于給當前紛爭正勁的“大模型混戰(zhàn)”，擲下了一枚重磅炸彈。

千模大戰(zhàn)一觸即發(fā)

近幾個月，隨著微軟、谷歌、亞馬遜等硅谷大廠，紛紛公布大模型及AIGC進展，通過AI搜索引擎、AI辦公軟件等一系列應用打響AI競賽，國內互聯(lián)網(wǎng)云大廠也陸續(xù)全軍出擊了。不只是大廠就連很多初創(chuàng)企業(yè)，VC/PE機構、各行各業(yè)巨頭，都涌入了AI大模型賽道，試圖從中分一杯羹。據(jù)不完全統(tǒng)計，目前公布推出AI大模型計劃的大企業(yè)，不下于50多家，其他參與者更是不計其數(shù)。

從格局上來看，以“BATH”等為代表的互聯(lián)網(wǎng)科技公司，憑借場景、算力、全棧技術能力等綜合實力，穩(wěn)居行業(yè)第一梯隊；而處于二線的重要行業(yè)企業(yè)，如商湯科技、中國電信、京東、360等，則借助其在相關領域的影響力，位列行業(yè)第二梯隊；緊隨各行業(yè)巨頭之后的是，包括美團聯(lián)合創(chuàng)始人王慧文、前搜狗CEO王小川等在內的各路知名創(chuàng)業(yè)者，他們有認知、有機構加持和相關背景，但由于還處于初始階段，因此在AI大模型混戰(zhàn)中暫居第三梯隊。

從分類上來看，圍繞通用大模型以及專用大模型，各個企業(yè)都有自己的定位和分工。根據(jù)業(yè)內人士介紹，目前國內大模型主要可以分為兩類：一類是對標GPT的通用大模型，聚焦基礎層的公司，如阿里、百度等公司；另一類是在開源大模型基礎之上訓練垂類大模型，聚焦垂直行業(yè)的企業(yè)，如應用于金融、醫(yī)療、交通等領域的垂類大模型。由于前者的技術要求高、成本大，因此當前很多行業(yè)已經(jīng)開始基于自身的情況，紛紛采取與通用大模型企業(yè)合作的方式，來訓練適合自己行業(yè)的垂類大模型了。

從產(chǎn)業(yè)鏈上來看，算力廠商、云服務廠商、前端應用廠商都有參與，體系完整、聯(lián)系緊密且范圍寬廣。目前包括算力廠商英偉達、云服務廠商阿里云，前端應用廠商如金山辦公、用友網(wǎng)絡、云從科技等，都在積極參與AI大模型的技術研發(fā)和場景落地?？傊斍皣@AI大模型的混戰(zhàn)正在陡然升溫。

通義聽悟打響大模型應用第一槍

而從AI大模型涉及的層面來看，主要可以分為應用層、模型層、框架層和芯片層等四個層次，而目前市面上大部分公司都還在模型層，深一點的涉及到框架層和芯片層的研究，前端應用目前業(yè)內還沒有。作為業(yè)內首個公測的大模型應用產(chǎn)品，通義聽悟的示范作用極為明顯。

一方面，相比底層技術，靠近應用前端的技術價值將更具想象空間。縱觀所有的技術演變歷史不難發(fā)現(xiàn)，技術的價值核心在于應用普及程度，以及對用戶問題解決的程度。正因為如此，承擔這一職責和使命的前端應用，往往具備更大的想象空間。

以6月1日阿里云推出的通義聽悟為例，它通過接入阿里的通義大模型，其作用已經(jīng)不僅僅是簡單的具備音視頻轉寫的工具了，而是已經(jīng)成為幫助人們在音視頻場景之下的高效AI助手了。它為人們提供自動做筆記、整理訪談、提取PPT等多種辦公服務，而且能夠實現(xiàn)音視頻轉化成圖文內容、分章節(jié)摘要和總結全文觀點等能力，具備了“類人”的高效檢索分類能力。

此外，在細分場景中，它還具備不少“寶藏”功能，比如可以打開Chrome插件，外語學習者和聽障人士，可以借助雙語懸浮字幕條隨時隨地看無字幕視頻，日程沖突時，聽悟還可成為職場人士的“開會替身”，在靜音情況下入會AI可代為記錄會議、整理要點；轉寫結果可下載為字幕文件，方便新媒體從業(yè)者視頻后期制作；聽悟梳理的問答回顧可以讓記者、分析師、律師、HR等群體整理訪談更高效?？傊?，在解決具體場景問題的能力上，它已經(jīng)超出了現(xiàn)有音視頻應用的能力范疇，也刷新了以往用戶體驗的上限，必將在業(yè)內掀起不小的風浪。

另一方面，從阿里云自身來說，通義千問大模型剛剛對外推出不久，就能夠迅速推出基于AI大模型的技術應用，說明阿里云AI大模型的確已經(jīng)比較成熟，具備了衍生AI應用的能力。

從模型層到應用層，從AI大模型到大模型應用的誕生，看似簡單實則實現(xiàn)起來并不容易。通常來說，垂類應用是依托于通用大模型這個技術底座來實現(xiàn)的，撇開通用大模型的話，這些通常無法實現(xiàn)，而這要求其所依托的通用大模型本身是足夠成熟的，否則其很難推出相對好用且超出現(xiàn)有產(chǎn)品能力的應用。拿通義聽悟來說，其所呈現(xiàn)的技術實力，在業(yè)內并不是所有玩家都有的。

全體系AI基礎設施成決勝關鍵

從AI大模型本身所需要的動軋千億的參數(shù)訓練要求來說，其推進的難度和復雜性可能遠超外界想象。長遠來看，具備全棧AI大模型技術能力和基礎設施能力的企業(yè)，才能夠走得更遠。

一來，由于生成式AI的發(fā)展速度遠超外界預期，任何單一環(huán)節(jié)的進步對整體的大模型訓練促進作用有限。據(jù)OpenAI測算，自2012年以來，全球頭部的AI模型訓練算力需求，3-4個月翻一番，每年增長幅度高達10倍。但根據(jù)摩爾定律，芯片計算性能每隔18-24個月才能翻一番，也就說是芯片性能遠遠跟不上AI大模型的發(fā)展要求。具體到相關領域來說，基于CPU的計算體系，難以滿足大模型訓練之下，高帶寬、低時延的網(wǎng)絡傳輸要求，這些問題的解決，依靠單一的“堆砌算力”很難短期內見效，并且可能并不經(jīng)濟，必須借助來自算法、算力、框架等多層次的整體系統(tǒng)支持，才能更好地應對這種變化。

二來，由于發(fā)展通用大模型所需要的算力需求大、推理訓練成本高、數(shù)據(jù)量要求高，導致其本身的門檻非常高，不具備全棧大模型研發(fā)、場景落地能力、生態(tài)開放能力的公司，很難保持較快的更迭速度，很容易被淘汰出局。據(jù)業(yè)內人士分析，要做成一個成功的可對外商業(yè)化輸出的通用大模型，需要廠商擁有全棧大模型訓練與研發(fā)能力，業(yè)務場景落地經(jīng)驗、AI安全治理舉措，以及生態(tài)開放性等核心優(yōu)勢，而一般的企業(yè)很難完全具備這些能力。

而阿里云作為亞洲第一、全球第三的云計算服務商，其擁有國內最強的算力支撐體系。比如，阿里云飛天云操作系統(tǒng)，可實現(xiàn)單集群10萬臺規(guī)模、千億文件數(shù)運算能力，其飛天智算平臺可實現(xiàn)千卡并行效率達到90%，自研網(wǎng)絡架構可對萬卡規(guī)模的AI集群，提供無擁堵、高性能的集群通訊能力，阿里云自有的深度學習平臺PAI，可以將計算資源利用率提高3倍以上，AI訓練效率提升11倍，推理效率提升6倍。另外，阿里云還牽頭建立了國內最大規(guī)模的AI模型服務社區(qū)“魔搭”，降低大模型開發(fā)成本、助力AI普惠；算法方面，阿里在語言以及多模態(tài)能力、超大模型、通用統(tǒng)一模型等多個技術維度，處于國內第一梯隊，這都是阿里通義大模型能夠迅速“出圈”的核心原因。

三來，從商業(yè)可能性來看，擁有全體系AI基礎設施能力的公司，在MaaS（模型即服務）到來之后擁有更大的商業(yè)價值，在市場競爭方面會有更大的“回旋余地”。以阿里云為例，其后期既可以通過提供通用大模型服務，獲取平臺服務費；也可以出租算力和推訓平臺，賺取租金，變現(xiàn)路徑相對更多，在市場競爭中可以根據(jù)情況靈活調整產(chǎn)品定價，以應對經(jīng)營挑戰(zhàn)。

產(chǎn)業(yè)迎來AI惠普時代

隨著AI大模型應用的誕生，以深度AI普惠為特征的全新時代，也在逐漸拉開帷幕，AI深度嵌入產(chǎn)業(yè)實體，將成為不可逆轉的行業(yè)趨勢。

一方面，通用大模型的高門檻和廣泛的垂類領域差異化需求，決定了基于通用大模型的專屬大模型和產(chǎn)業(yè)應用，會成為未來主流的應用方向，推動AI加速進入千行百業(yè)。正如前文所述，通用大模型的高門檻，決定了國內外能夠做成通用大模型的公司只是少數(shù)，而且隨著AI模型變大，AI產(chǎn)業(yè)正從“手工作坊”組成的輕工業(yè)走向集約化生產(chǎn)，需要高性能、低成本的體系化基礎設施，才能完成工業(yè)化生產(chǎn)。

這種能力不僅很多中小企業(yè)沒有，即便是對于各行業(yè)頭部企業(yè)，從0到1優(yōu)化大模型訓練，本身也并不經(jīng)濟，各行各業(yè)都需要成本足夠低的AI基礎設施。而且對于現(xiàn)有的廠商而言，繼續(xù)加入這個領域“重復造輪子”并無多大必要。相比之下，垂類大模型本身的訓練成本相對較低，而且一些專業(yè)領域擁有豐富數(shù)據(jù)場景的公司，做垂直大模型條件更好、數(shù)據(jù)質量更優(yōu)，推出的產(chǎn)品更能夠適應垂類行業(yè)需求，因此未來各類垂類行業(yè)GPT，或將成為主流大模型應用，推進AI迅速滲入產(chǎn)業(yè)。

另一方面，發(fā)展AI大模型的短期瓶頸是算力，長期來看是數(shù)據(jù)，因此高質量的前端應用有助于加速企業(yè)積累充分的數(shù)據(jù)資產(chǎn)，增強自身長期競爭力，加速產(chǎn)業(yè)應用普惠進程。當前來看，大模型的迅速迭代和進化，迫使所有的參與玩家不斷累積算力資源，從芯片、云服務等各方面來優(yōu)化配置，保證大模型訓練所需要的算力支持。不過，從更長遠來看，訓練AI大模型的算法還在不斷優(yōu)化調整之中，未來隨著算法的突破，算力可能不再是瓶頸，而高質量的數(shù)據(jù)資源將成為一種稀缺的資源，會受到更多關注。

作為業(yè)內首個基于AI大模型的應用，通義聽悟的面世，有利于阿里加速積累優(yōu)質數(shù)據(jù)資源，加速產(chǎn)業(yè)普惠進程，為更長期的發(fā)展奠定良好基礎。

申請創(chuàng)業(yè)報道，分享創(chuàng)業(yè)好點子。點擊此處，共同探討創(chuàng)業(yè)新機遇！

相關標簽: ai技術

甌江論道：AI賦能綠色發(fā)展

2025年10月25日，2025世界青年科學家峰會之人工智能（AI）融合創(chuàng)新發(fā)展論壇在浙江溫州成功舉辦。本次論壇由國際院士科創(chuàng)中心主辦，中國投資協(xié)會能源投資專業(yè)委員會、溫港院士科創(chuàng)中心承辦，中國電工技術學會、中科先進技術溫州研究院與溫州市電力工程學會提供支持，以“甌江論道-AI賦能綠色發(fā)展”為主題，

標簽：

ai技術
王通：未來個人創(chuàng)業(yè)的十個機會

個人創(chuàng)業(yè)需要啟動成本低、無需龐大團隊、可快速驗證、能利用個人技能或資源。這里分享適合個人創(chuàng)業(yè)的十個機會一.AI內容優(yōu)化與本地化服務·做什么：幫助企業(yè)或個人利用AI工具（如GPT-4,Midjourney）優(yōu)化內容生產(chǎn)流程。例如，為跨境電商撰寫多語言產(chǎn)品描述，為小紅書博主生成爆款文案，為小公司制作營銷

標簽：

創(chuàng)業(yè)機會

ai技術
百度智能云PaddleOCR 3.1正式發(fā)布：關鍵能力支持MCP

百度AI團隊今日正式推出PaddleOCR3.1版本，以突破性的多語言組合識別（MultilingualCompositionPerception,MCP）技術為核心，徹底重構復雜文檔處理邊界。此次升級標志著OCR領域首次實現(xiàn)對同一文檔內任意混合語言文本的精準識別，為全球化企業(yè)、跨境業(yè)務及多元文化場

標簽：

ai智能

ai技術
AI工具導航網(wǎng)站，未來的發(fā)展前景怎么樣？

導航網(wǎng)站的崛起：從信息過載到精準觸達隨著全球AI工具數(shù)量爆發(fā)式增長（2025年已超數(shù)萬款），用戶面臨前所未有的選擇困境。傳統(tǒng)搜索引擎的“關鍵詞-鏈接”模式難以應對工具篩選的場景需求，垂直化、場景化的AI導航網(wǎng)站應運而生。這類平臺通過聚合、評測、分類與推薦四重機制，將分散的工具資源整合為結構化入口。例

標簽：

ai技術

導航網(wǎng)站
微信AI搜索被指“強行開盒”：名字成了數(shù)據(jù)入口，騰訊回應“僅用公開信息”

當微信公眾號文章中出現(xiàn)一個人的名字，它會自動變成藍色鏈接，點擊即可查看AI生成的“個人簡歷”——這一微信新功能讓不少用戶感到被“扒光”在互聯(lián)網(wǎng)上。近日，微信新上線的“AI搜索”功能陷入隱私泄露爭議漩渦。多位網(wǎng)友在社交平臺反映，當微信公眾號推文中出現(xiàn)本人姓名時，名字會自動變?yōu)樗{色超鏈接，點擊即可瀏覽由

標簽：

ai技術

ai搜索

字節(jié)火山引擎Seedance 2.0正式面向普通API客戶開放申請，豆包大模型日均Token使用量突破120萬億

4月2日，字節(jié)跳動旗下火山引擎在武漢舉行的AI創(chuàng)新巡展上宣布，Seedance2.0API正式面向企業(yè)用戶開啟公測。同時，火山引擎總裁譚待在會上披露，截至今年3月，豆包大模型日均Token使用量已突破120萬億，在過去三個月內增長一倍，比2024年5月發(fā)布時增長1000倍。Seedance2.0：從

標簽：

大模型

火山引擎
養(yǎng)“蝦”被騙、數(shù)據(jù)泄露、天價賬單……遇到這些糟心事該怎么辦？

養(yǎng)AI小龍蝦的路上，坑不少。有人被代裝服務騙了錢，有人電腦中了毒，有人收到天價賬單，還有人發(fā)現(xiàn)AI“失控”了，開始亂刪文件。如果你也遇到這些糟心事，別慌。下面這份“養(yǎng)蝦應急包”，告訴你第一時間該做什么。場景一：代裝被騙，錢打水漂了花了300塊找人遠程裝OpenClaw，結果對方收了錢就拉黑，或者裝了

標簽：

ai龍蝦是什么

ai小龍蝦什么意思

openclaw小龍蝦
把“鑰匙”交給AI，如何防止它“拆家”？數(shù)據(jù)安全實操手冊

把AI智能體請進電腦，就像把家里所有的鑰匙交給了一個陌生人。它能幫你打掃房間、整理文件，但萬一它“起了壞心”，或者被壞人利用了，你的家就不再安全了。這不是危言聳聽。國家互聯(lián)網(wǎng)應急中心已經(jīng)發(fā)布風險提示，指出OpenClaw的默認配置“極為脆弱”，攻擊者一旦得手，能輕易獲取系統(tǒng)控制權。微軟安全團隊也警告

標簽：

ai龍蝦是什么

ai小龍蝦什么意思

openclaw小龍蝦
我到底需不需要一只“AI小龍蝦”？別被焦慮裹挾

OpenClaw火了，火到似乎人人都在討論“養(yǎng)蝦”。打開社交媒體，滿屏都是“有了AI小龍蝦，我再也不用加班了”“我讓AI幫我訂了機票、寫周報、點外賣”之類的分享。于是，很多人開始焦慮：別人都養(yǎng)了，我要不要也養(yǎng)一只？不養(yǎng)是不是就落伍了？先別急。在決定養(yǎng)“蝦”之前，我們先冷靜下來，想清楚一個問題：你到底

標簽：

ai龍蝦是什么

ai小龍蝦什么意思

openclaw小龍蝦
Claude Code意外泄露51萬行核心源碼，全球開發(fā)者連夜“搶救式”備份

3月31日，科技圈上演了一場現(xiàn)實版的“代碼大逃殺”。一向以“閉源”為傲的AI巨頭Anthropic，因一個低級打包失誤，將旗下明星產(chǎn)品ClaudeCode的完整源代碼拱手送給了全世界。一次59.8MB的“裸奔”事情始于一個普通的周二早晨。Web3安全公司FuzzLab的實習研究員ChaofanSho

標簽：

大模型

人工智能
OpenAI宣布完成 1220 億美元巨額融資，估值已高達 8520 億美元

當?shù)貢r間3月31日，人工智能明星公司OpenAI宣布完成一輪規(guī)模達1220億美元的私募融資，投后估值攀升至8520億美元，創(chuàng)下全球AI企業(yè)估值新紀錄，同時也刷新了科技行業(yè)私募融資的歷史最高規(guī)模。本輪融資籌備歷時數(shù)月，核心資金來自三家頭部科技企業(yè)：亞馬遜承諾投資500億美元，英偉達與軟銀集團分別出資3

標簽：

人工智能

融資創(chuàng)投

技術小白想養(yǎng)“龍蝦”？手把手教你避坑，別當“韭菜”

“我也想養(yǎng)一只AI小龍蝦，但聽說安裝特別難，我連代碼都不會寫，怎么辦？”這是最近后臺收到最多的私信。面對OpenClaw這個技術門檻不低的AI智能體，很多普通人躍躍欲試，卻又望而卻步。于是，一個“代裝”產(chǎn)業(yè)應運而生——遠程50到300元，上門500到1500元，幫你搞定一切。但問題是：這些代裝服務靠

標簽：

ai龍蝦是什么

ai小龍蝦什么意思

openclaw小龍蝦
月薪五千，能養(yǎng)得起一只“AI小龍蝦”嗎？

最近，身邊不少人都在討論“養(yǎng)AI小龍蝦”。這只叫OpenClaw的智能體，能替你自動訂機票、寫代碼、整理文件，聽起來像請了一個24小時不休息的數(shù)字員工。但問題來了——月薪五千的普通人，養(yǎng)得起嗎？我們先算一筆賬。養(yǎng)這只“蝦”，主要有三個花錢的地方。第一筆：硬件投入。OpenClaw創(chuàng)始人推薦用MacM

標簽：

ai龍蝦是什么

openclaw小龍蝦

ai小龍蝦什么意思
普通人養(yǎng)AI小龍蝦，如何保護好自己的數(shù)據(jù)？

最近，“養(yǎng)AI小龍蝦”成了互聯(lián)網(wǎng)上的一股熱潮。這里的“小龍蝦”指的是OpenClaw——一個能替你自動做事的人工智能體。訂機票、寫代碼、整理文件，它就像一個24小時不休息的數(shù)字員工。聽起來很酷，但很多人忽略了一個關鍵問題：這只“蝦”需要你電腦的完整訪問權限。也就是說，一旦你把它“請”進家門，它就能看

標簽：

ai龍蝦是什么

ai小龍蝦什么意思

openclaw小龍蝦
OpenClaw適合哪些人群，普通人養(yǎng)小龍蝦到底有沒有價值？

最近，互聯(lián)網(wǎng)上刮起了一股“養(yǎng)蝦熱”。這個“蝦”不是餐桌上的小龍蝦，而是一個叫OpenClaw的AI智能體。標志是一只紅色小龍蝦，寓意不斷蛻殼成長。OpenClaw到底是個什么東西？簡單說，它是一個開源的AI智能體框架，能裝進你的電腦，替你自動做事——訂機票、寫代碼、整理文件，就像一個24小時不休息的

標簽：

openclaw小龍蝦

ai小龍蝦什么意思

ai龍蝦是什么

加載更多

通義聽悟誕生背后，AI大模型打響應用第一槍

相關文章

甌江論道：AI賦能綠色發(fā)展

王通：未來個人創(chuàng)業(yè)的十個機會

百度智能云PaddleOCR 3.1正式發(fā)布：關鍵能力支持MCP

AI工具導航網(wǎng)站，未來的發(fā)展前景怎么樣？

微信AI搜索被指“強行開盒”：名字成了數(shù)據(jù)入口，騰訊回應“僅用公開信息”

字節(jié)火山引擎Seedance 2.0正式面向普通API客戶開放申請，豆包大模型日均Token使用量突破120萬億

養(yǎng)“蝦”被騙、數(shù)據(jù)泄露、天價賬單……遇到這些糟心事該怎么辦？

把“鑰匙”交給AI，如何防止它“拆家”？數(shù)據(jù)安全實操手冊

我到底需不需要一只“AI小龍蝦”？別被焦慮裹挾

Claude Code意外泄露51萬行核心源碼，全球開發(fā)者連夜“搶救式”備份

OpenAI宣布完成 1220 億美元巨額融資，估值已高達 8520 億美元

技術小白想養(yǎng)“龍蝦”？手把手教你避坑，別當“韭菜”

月薪五千，能養(yǎng)得起一只“AI小龍蝦”嗎？

普通人養(yǎng)AI小龍蝦，如何保護好自己的數(shù)據(jù)？

OpenClaw適合哪些人群，普通人養(yǎng)小龍蝦到底有沒有價值？

熱門排行

編輯推薦