當(dāng)前位置:首頁 >  科技 >  互聯(lián)網(wǎng) >  正文

26歲的“天才少年”,帶隊面壁打通高效大模型之路

 2024-06-17 09:45  來源: A5專欄   我來投稿 撤稿糾錯

  域名預(yù)訂/競價,好“米”不錯過

每一輪技術(shù)浪潮出現(xiàn)時,沖在最前面的都是朝氣蓬勃的年輕人。

當(dāng)大模型代表的人工智能浪潮席卷全球,作為移動互聯(lián)網(wǎng)“原住民”的年輕開發(fā)者,可以說是最活躍的群體。他們的臉龐還有些稚嫩,但在技術(shù)和方向上有著自己的想法,在火熱的AI賽道里加速狂奔,努力打下一片新天地。

面壁智能CTO曾國洋就是其中的佼佼者,26歲的年紀(jì)管理著清華系明星大模型創(chuàng)業(yè)公司的研發(fā)團隊,堅定地踏上了AGI征途。

01 十多年開發(fā)經(jīng)驗的創(chuàng)業(yè)公司CTO

在許多人的印象中,24歲不過是研究生剛畢業(yè)的年紀(jì),剛剛進入職場,扮演的還是“學(xué)徒”的角色。但在曾國洋的故事里,24歲已經(jīng)作為CTO帶領(lǐng)著面壁智能的核心技術(shù)團隊,同時也是一位有著十多年經(jīng)驗的資深開發(fā)者。

和OpenAI的創(chuàng)始人Sam Altman一樣,曾國洋在8歲就開始學(xué)編程。身邊的朋友、老師、父母等潛移默化地告訴他:“會寫代碼”是一件很厲害的事。于是從Visual Basic開始,懵懵懂懂地開啟了編程之路。

到了中學(xué)時,曾國洋已經(jīng)系統(tǒng)性地接觸了C/C++,喜歡在網(wǎng)上看一些國內(nèi)外的資料,嘗試寫出更復(fù)雜的程序。因為“寫代碼”的愛好,曾國洋在高二時先后獲得全國青少年信息學(xué)競賽金牌和亞太地區(qū)信息學(xué)競賽金牌,并因此被保送到清華,為日后的大模型創(chuàng)業(yè)埋下了伏筆。

沒有高考壓力的曾國洋,在2015年的冬令營上了解到曠視正在招實習(xí)生,抱著試一試的心態(tài)報了名,由此正式步入AI領(lǐng)域。

AlphaGo和李世石的圍棋大戰(zhàn),點燃了深度學(xué)習(xí)的熱潮,無數(shù)年輕人為之徹夜不眠,曾國洋也不例外。大二期間,在室友的引薦下,曾國洋加入了清華大學(xué)NLP實驗室,誤打誤撞成為中國最早一批大模型研究員,并在后來成為悟道·文源中文預(yù)訓(xùn)練模型團隊的骨干成員。

十多年的開發(fā)經(jīng)驗,培養(yǎng)了曾國洋的工程化思維和能力,大學(xué)畢業(yè)時不甘于做象牙塔里的學(xué)術(shù)派,毅然加入到了大模型浪潮中。

在OpenAI發(fā)布GPT-3的第二年,為了解決大模型“訓(xùn)練難、微調(diào)難、應(yīng)用難”的挑戰(zhàn),曾國洋作為聯(lián)合發(fā)起人創(chuàng)建了OpenBMB開源社區(qū),旨在打造大規(guī)模預(yù)訓(xùn)練語言模型庫與相關(guān)工具,加速百億級以上大模型的訓(xùn)練、微調(diào)與推理,以降低大模型的使用門檻,實現(xiàn)大模型的標(biāo)準(zhǔn)化、普及化和實用化,讓大模型能夠飛入千家萬戶。

清華大學(xué)計算機系長聘副教授劉知遠(yuǎn)在2022年牽頭創(chuàng)辦面壁智能時,曾國洋果斷放棄了手里的多個Offer,擔(dān)綱這家大模型創(chuàng)業(yè)公司的技術(shù)1號位,完成了從一線開發(fā)者到大模型創(chuàng)業(yè)公司CTO的華麗轉(zhuǎn)身。

02 “高效大模型就是面壁智能”

Scaling law,被看作是 OpenAI 的核心技術(shù),簡單來說,可以通過更復(fù)雜的模型、更大的數(shù)據(jù)量、更多的計算資源,提高模型的性能。前兩年,國內(nèi)外企業(yè)都在卷參數(shù)量,做到了千億、萬億,甚至是十萬億,越到后面,但大家漸漸發(fā)現(xiàn)參數(shù)量更大,不代表模型效果更好。

在曾國洋看來:如果大模型作為實現(xiàn)AGI的關(guān)鍵路徑,但成本卻無比高昂,那么即使實現(xiàn)了AGI,但AGI比人還貴、那也沒太大意義,所以要降低模型成本。對于大模型落地來說,效率是很個關(guān)鍵的問題,需要控制成本來達到更好的效果,這樣才能去擴展大模型的應(yīng)用邊界。

不久前舉辦的鯤鵬昇騰開發(fā)者大會2024上,曾國洋在演講中表示:“面壁智能持續(xù)引領(lǐng)高效大模型路線,推動大模型高效訓(xùn)練、快步應(yīng)用落地,以更快速度,更低成本,提供最優(yōu)智能實現(xiàn)方案。”

首先要解決的就是高效訓(xùn)練。

公開數(shù)據(jù)顯示,OpenAI訓(xùn)練GPT-3的成本約為430萬美元,到了GPT-4已經(jīng)上漲到7800萬美元,谷歌Gemini Ultra在計算上花費了1.91億美元......比大模型能力更早指數(shù)性增長的,居然是大模型的訓(xùn)練成本。

該怎么提升大模型訓(xùn)練效率呢?

面壁智能在2024年初的一篇論文中提出了思路:如果大模型還未訓(xùn)練出來時就能預(yù)測性能大約在什么水平,可以先通過小模型做實驗、調(diào)參數(shù),再按照相同的數(shù)據(jù)配比、數(shù)調(diào)整等方法訓(xùn)練大模型。

其實在2023年,面壁智能就已經(jīng)開始探索高效的Scaling Law,用小十倍參數(shù)模型預(yù)測大十倍參數(shù)模型的性能,并且取得了不錯的成績:

旗艦端側(cè)基座模型MiniCPM用2.4B的參數(shù)量,在性能上越級超越Mistral-7B、Llama2-13B乃至更大的全球知名模型;旗艦端側(cè)多模態(tài)模型MiniCPM-V刷新了開源模型最佳OCR 表現(xiàn),部分能力比肩世界級多模態(tài)模型標(biāo)桿 Gemini-Pro 與 GPT-4V。前兩天發(fā)布的端側(cè)最強多模態(tài)模型MiniCPM-Llama3-V 2.5 ,超越多模態(tài)巨無霸 Gemini Pro 、GPT-4V實現(xiàn)了「以最小參數(shù),撬動最強性能」的最佳平衡點。“大”并非是唯一選項,小模型也可以實現(xiàn)同樣的效果。

面壁智能的“高效”,不單單體現(xiàn)在訓(xùn)練環(huán)節(jié)。

在部署方面,面壁智能是模型廠商中最早提出“端云協(xié)同”的,通過協(xié)同推理的方式降低降低推理部署的成本、時延和能耗,讓大模型可以跑在手機、電腦、汽車、音箱等低功耗的芯片。

以及大模型驅(qū)動的群體智能技術(shù)體系,包含智能體通用平臺AgentVerse、技術(shù)協(xié)同同臺、應(yīng)用層面的多智能體協(xié)作開發(fā)框架ChatDev,幫助開發(fā)者打通大模型落地應(yīng)用的最后一公里。

03 全流程加速大模型應(yīng)用升級

基于豐厚原創(chuàng)技術(shù)底蘊,并匹配大模型這一系統(tǒng)工程的本質(zhì)要求,面壁打造了一條從數(shù)據(jù)原材料、到模型制作過程中精湛訓(xùn)練與調(diào)校工藝環(huán)環(huán)相扣的全高效生產(chǎn)線。

譬如面壁智能獨家的“沙盒實驗”,讓小模型驗證大模型性能成為可能;Ultra對齊技術(shù),可以有效大模型的綜合表現(xiàn);現(xiàn)代化數(shù)據(jù)工廠,形成從數(shù)據(jù)治理到多維評測的閉環(huán);高效的Infra,為面壁智能的大模型訓(xùn)練打好了地基;訓(xùn)練框架BMTrain、推理框架BMINF、壓縮框架BMCook和微調(diào)框架BMTune構(gòu)成工具套件平臺,可在降低90%的訓(xùn)練成本同時,將推理速度提升10倍。

在創(chuàng)立之初,面壁智能就開始將大模型和國產(chǎn)軟硬件基礎(chǔ)設(shè)施做適配,想要從全流程加速大模型應(yīng)用升級。直接的例子就是面壁智能和昇騰AI在軟硬件的深度合作。

比如面壁智能基于昇騰基礎(chǔ)軟硬件完成了CPM-BEE大模型和BMTrain加速框架的遷移,通過兩個關(guān)鍵步驟實現(xiàn)了BMTrain和昇騰的適配,通過親和融合算子替換實現(xiàn)了大模型的性能提升,最終讓CPM、llama等模型的集群訓(xùn)練性能與業(yè)界持平。

再比如基于昇騰底座采用MindSpore框架開展了深入的創(chuàng)新研究。在微調(diào)方面,面壁智能實現(xiàn)了多個下游任務(wù)Sora在使用不超過1%的模型參數(shù)微調(diào)時,仍然能夠超越其他微調(diào)方式;針對推理場景,面壁智能通過量化、蒸餾、剪枝等技術(shù)的靈活組合,在多項任務(wù)上壓縮至1/3時,模型精度仍能保持99%。

國內(nèi)的大模型團隊中,同時從算力、數(shù)據(jù)、算法切入的團隊并不多見,為何面壁智能選擇和昇騰AI一起,全面系統(tǒng)地推進大模型上下游工程?

曾國洋曾在媒體采訪中這樣說道:“我們追求的是,在同樣的時間、同等參數(shù)量的條件下,實現(xiàn)更優(yōu)的Scaling Law。當(dāng)模型的效率優(yōu)化到一定程度的時候,如果要繼續(xù)精進下去,就需要數(shù)據(jù)、算力與算法多者結(jié)合。”

這種不給自己設(shè)限的挑戰(zhàn)精神,所帶來的不單單是效率,還有通往AGI道路時的底氣。

不少大模型團隊為算力卡脖子問題焦慮的時候,曾國洋態(tài)度相當(dāng)鎮(zhèn)定:“對于比較早開展大模型研發(fā)的團隊來說,國產(chǎn)化適配基本上都已經(jīng)完成了,因為做的早嘛。其實國產(chǎn)化算力的差距沒有想象的那么大,特別是像昇騰這些設(shè)備,目前已經(jīng)達到了大規(guī)模商用的水平。”

和面壁智能一樣,昇騰AI也在全流程使能大模型創(chuàng)新落地,從大模型的開發(fā)訓(xùn)練到推理部署。正是這些同道人的相向而行,讓大模型開發(fā)不再是復(fù)雜的超級工程,每個開發(fā)者都能參與其中。

04 寫在最后

大模型市場競爭激烈,技術(shù)迭代日新月異,但曾國洋連續(xù)幾個月工作都不覺疲憊,用他自己的話說“因為我很相信 AGI 會實現(xiàn)。”

這正是年輕人的“可愛之處”,他們有挑戰(zhàn)新事物的勇氣,也有躬身入局的行動力,更重要的是,他們還是一群有理想的開發(fā)者。就像曾國洋在創(chuàng)辦OpenBMB開源社區(qū)的初心:幫助千千萬萬的開發(fā)者降低門檻,讓大模型飛入千家萬戶。面壁智能無疑是理想和初心的延續(xù)。

申請創(chuàng)業(yè)報道,分享創(chuàng)業(yè)好點子。點擊此處,共同探討創(chuàng)業(yè)新機遇!

相關(guān)標(biāo)簽
大模型

相關(guān)文章

熱門排行

信息推薦