123,123

文 | 智能相對(duì)論

作者 | 葉遠(yuǎn)風(fēng)

18.8萬(wàn)億美元，這是市場(chǎng)預(yù)計(jì)2030年AI推動(dòng)智能經(jīng)濟(jì)可產(chǎn)生的價(jià)值總和，其中大模型帶來(lái)的AI能力質(zhì)變無(wú)疑成為重要的推動(dòng)力量。

大模型浪潮下，業(yè)界對(duì)AI發(fā)展的三駕馬車(chē)——算力、算法、數(shù)據(jù)任何一個(gè)維度的關(guān)注都到了全新的高度，避免“木桶效應(yīng)”成為大模型發(fā)展首要考慮的問(wèn)題。

而在這個(gè)過(guò)程中，業(yè)界對(duì)“數(shù)據(jù)”的關(guān)注，往往集中在“量”+“質(zhì)”上，更龐大的數(shù)據(jù)量與更高的數(shù)據(jù)質(zhì)量能推動(dòng)大模型有更好的訓(xùn)練與應(yīng)用效果，已經(jīng)成為共識(shí)。

但是，隨著大模型創(chuàng)新對(duì)數(shù)據(jù)需求越來(lái)越復(fù)雜，單單關(guān)注數(shù)據(jù)的“量”+“質(zhì)”已經(jīng)不夠，能夠承載數(shù)據(jù)、滿(mǎn)足大模型需要的存儲(chǔ)，同樣值得大模型領(lǐng)域從業(yè)者關(guān)注。

在剛剛舉辦的華為全聯(lián)接大會(huì)2023（HC 2023）上，華為方面系統(tǒng)介紹了其存儲(chǔ)解決方案如何解決大模型訓(xùn)練與應(yīng)用痛點(diǎn)、支撐大模型創(chuàng)新進(jìn)程。

華為的動(dòng)作，從數(shù)據(jù)維度全景展示了大模型發(fā)展的本質(zhì)——“數(shù)據(jù)要素”大開(kāi)發(fā)，以及存儲(chǔ)創(chuàng)新如何為這種本質(zhì)提供力量，幫助大模型從業(yè)者更好地掘金智能經(jīng)濟(jì)時(shí)代。

大模型時(shí)代即是數(shù)據(jù)要素時(shí)代，存儲(chǔ)作為載體的價(jià)值彰顯

毫無(wú)疑問(wèn)，大模型對(duì)算力、算法、數(shù)據(jù)的需求都在急速提高。

市場(chǎng)研究統(tǒng)計(jì)，過(guò)去五年，大模型參數(shù)增加2000倍，所需計(jì)算能力增加5萬(wàn)倍，對(duì)數(shù)據(jù)存儲(chǔ)需求增加10萬(wàn)倍，連帶網(wǎng)絡(luò)帶寬需求增加8000倍。

大開(kāi)大合大需求，需要大設(shè)施、大投入。

但是，如果從創(chuàng)新的視角來(lái)看，實(shí)際上無(wú)論是算法還是算力的提供，其難度都在下降或者說(shuō)收斂。

在很多企業(yè)都頭疼的算力上，雖然需要的量很大，但無(wú)非都來(lái)自于英偉達(dá)、昇騰等GPU硬件資源，是一件主要依賴(lài)成本投入的事。換句話(huà)說(shuō)，只要有足夠多的預(yù)算，算力資源就能供給上來(lái)。

在算法端，雖然各大廠(chǎng)商不斷調(diào)優(yōu)迭代，但總體上都在采用Transformer模型基礎(chǔ)架構(gòu)，基于Pytorch、TensorFlow、MindSpore等主流開(kāi)發(fā)框架開(kāi)發(fā)，是逐漸收斂的。

這時(shí)候，壓力來(lái)到了數(shù)據(jù)這里。

隨著大模型深入發(fā)展，在總量上，數(shù)據(jù)需求早已從TB級(jí)躍升到PB級(jí)，需要的“池子”越來(lái)越大；而同時(shí)，對(duì)數(shù)據(jù)類(lèi)型的需求又極大豐富，單一文本的模態(tài)之外，圖片、視頻、語(yǔ)音等多模態(tài)數(shù)據(jù)爆發(fā)，數(shù)據(jù)需求越來(lái)越復(fù)雜，這些都考驗(yàn)著存儲(chǔ)的承載力，以及如何在訓(xùn)練、應(yīng)用過(guò)程中更好地與算力、算法協(xié)同工作。

這期間，諸多難題出現(xiàn)，等待存儲(chǔ)攻克，主要包括：

小文件讀取性能。大模型在數(shù)據(jù)需求上以圖片文本等海量小文件為主，單臺(tái)AI服務(wù)器每秒能夠讀取2萬(wàn)多張圖片，這往往會(huì)導(dǎo)致數(shù)據(jù)加載效率低（類(lèi)似于個(gè)人PC上的復(fù)制動(dòng)作，同等空間下，內(nèi)含大量小文件文件夾會(huì)比單一大文件要慢很多），影響大模型的訓(xùn)練效率。此時(shí)，海量小文件性能就成為瓶頸，萬(wàn)億參數(shù)大模型的基礎(chǔ)要求已經(jīng)達(dá)到1000萬(wàn)IOPS。

CheckPoint斷點(diǎn)續(xù)訓(xùn)。大模型訓(xùn)練過(guò)程中出于參數(shù)調(diào)優(yōu)等各種需求，會(huì)在不特定時(shí)間點(diǎn)中斷形成CheckPoint，后續(xù)再啟動(dòng)繼續(xù)訓(xùn)練（需要時(shí)間，形成GPU資源利用的空檔）。這是一種對(duì)長(zhǎng)時(shí)間訓(xùn)練的模型非常友好的能力，但企業(yè)頻繁參數(shù)調(diào)優(yōu)往往會(huì)造成GPU利用率降低（目前業(yè)界通常平均每二天就會(huì)中斷一次，GPU利用率只有40%），需要存儲(chǔ)具備很強(qiáng)的大文件讀寫(xiě)性能，才能減少GPU等待時(shí)間、提升昂貴資源利用效率。

“AI幻覺(jué)”問(wèn)題。大模型輸出結(jié)果“胡編亂造”，與事實(shí)明顯沖突的現(xiàn)象是業(yè)界十分頭疼的問(wèn)題，這種大模型自以為是的現(xiàn)象稱(chēng)作“AI幻覺(jué)”。看起來(lái)這是算法上的問(wèn)題，但實(shí)際上，業(yè)界在探索中逐漸發(fā)現(xiàn)，它的解決需要的是在數(shù)據(jù)層面不斷“求證”（主要是參考上下文信息），本質(zhì)上要求存儲(chǔ)能夠提供一個(gè)類(lèi)似于“百科詞典”的知識(shí)體系，來(lái)作為大模型的“海馬體”提供準(zhǔn)確的行業(yè)知識(shí)。

可以看到，在創(chuàng)新層面，解決大模型在存儲(chǔ)上面臨的挑戰(zhàn)，可能要優(yōu)先于算力和算法。

這一點(diǎn)，其實(shí)也讓大模型進(jìn)一步回歸到本質(zhì)上，即以參數(shù)量更大的AI模型進(jìn)一步挖掘數(shù)據(jù)要素的價(jià)值，推動(dòng)千行百業(yè)實(shí)現(xiàn)轉(zhuǎn)型升級(jí)。

現(xiàn)在，數(shù)據(jù)要素已經(jīng)作為數(shù)字經(jīng)濟(jì)和信息社會(huì)的核心資源，被認(rèn)為是繼土地、勞動(dòng)力、資本、技術(shù)之后的又一重要生產(chǎn)要素，包括大模型在內(nèi)的無(wú)數(shù)創(chuàng)新，都是在圍繞數(shù)據(jù)要素進(jìn)行價(jià)值深度開(kāi)發(fā)。

大模型的發(fā)展過(guò)程，可以看作是數(shù)據(jù)要素不斷從原始走向價(jià)值輸出的過(guò)程。

這一過(guò)程中，算法在前方引導(dǎo)方向、走向通用或具體行業(yè)，澎湃的算力帶來(lái)強(qiáng)勁的推動(dòng)力，而存儲(chǔ)則提供支撐與協(xié)同能力。當(dāng)算力主要依賴(lài)成本投入、算法逐步收斂，存儲(chǔ)作為數(shù)據(jù)要素載體的創(chuàng)新價(jià)值就越來(lái)越凸顯。

讓數(shù)據(jù)要素價(jià)值落地，華為存儲(chǔ)多維度出擊解決痛點(diǎn)問(wèn)題

如何解決存儲(chǔ)面臨的挑戰(zhàn)，華為高性能知識(shí)庫(kù)存儲(chǔ)OceanStor A800產(chǎn)品與對(duì)應(yīng)解決方案在面向行業(yè)模型訓(xùn)推場(chǎng)景擁有全面領(lǐng)先的訓(xùn)推效率，總體而言有四大特點(diǎn)：

1、極高的整體性能，匹配大模型訓(xùn)練需要

華為存儲(chǔ)首要解決的是在整體性能上滿(mǎn)足大模型對(duì)訓(xùn)練數(shù)據(jù)的龐大需求，尤其是對(duì)小文件讀取性能的需求。

OceanStor A800基于創(chuàng)新數(shù)控分離架構(gòu)，單框IOPS能夠達(dá)到2400萬(wàn)，訓(xùn)練集加載效率是業(yè)界的4倍，而且可以根據(jù)客戶(hù)需求實(shí)現(xiàn)性能線(xiàn)性擴(kuò)展。此外，OceanFS分布式文件系統(tǒng)實(shí)現(xiàn)全局均衡打散，消除了CPU瓶頸，能帶來(lái)海量小文件性能的極致提升體驗(yàn)，滿(mǎn)足大量小文件讀取需求。

只要有性能需要，盡管“往上加”，華為存儲(chǔ)都“扛得住”。

2、特殊能力優(yōu)化，滿(mǎn)足斷點(diǎn)續(xù)訓(xùn)等特定需要

斷點(diǎn)續(xù)訓(xùn)等特殊情況下如何更好地提供支撐，是華為存儲(chǔ)在大模型訓(xùn)練階段要同步應(yīng)對(duì)的挑戰(zhàn)。

通過(guò)盤(pán)控協(xié)同、NFS+并行文件系統(tǒng)，華為存儲(chǔ)實(shí)現(xiàn)了單框500GB/s超高帶寬，能夠做到CheckPoint的超快恢復(fù)，斷點(diǎn)續(xù)訓(xùn)恢復(fù)速度是業(yè)界3倍，TB級(jí)CheckPoint讀寫(xiě)實(shí)現(xiàn)從小時(shí)級(jí)到分鐘級(jí)的跨越（即萬(wàn)億參數(shù)大模型平均恢復(fù)時(shí)間小時(shí)級(jí)提速到分鐘級(jí)），減少昂貴的GPU等待。

只要是優(yōu)化大模型需要的，客戶(hù)都能夠更加大膽地進(jìn)行參數(shù)調(diào)優(yōu)等操作。

除此之外，其管控面擁有資源分區(qū)+統(tǒng)一調(diào)度能力，還能夠讓存儲(chǔ)適合不同的業(yè)務(wù)模型。

不管客戶(hù)面向什么業(yè)務(wù)模型進(jìn)行開(kāi)發(fā)，不管客戶(hù)在過(guò)程中選擇在什么時(shí)候暫停，華為存儲(chǔ)都能更好地應(yīng)對(duì)。

3、響應(yīng)能力強(qiáng)化，滿(mǎn)足大模型應(yīng)用的實(shí)時(shí)需求

訓(xùn)練階段完成后，華為存儲(chǔ)要做的，是在應(yīng)用階段滿(mǎn)足嚴(yán)苛的數(shù)據(jù)響應(yīng)需要。

目前，在大模型應(yīng)用階段，得益于內(nèi)置了向量知識(shí)庫(kù)（以向量的形式儲(chǔ)存行業(yè)知識(shí)），華為存儲(chǔ)的QPS達(dá)到了25萬(wàn)+，已經(jīng)能夠?qū)崿F(xiàn)毫秒級(jí)響應(yīng)，一方面能夠加速推理，使得應(yīng)用過(guò)程中的GPU資源消耗大大減少，有效節(jié)約了落地成本——當(dāng)前很多大模型在開(kāi)放應(yīng)用階段的資源消耗十分巨大，有些企業(yè)已經(jīng)不堪重負(fù)；另一方面“百科詞典”使得大模型更具準(zhǔn)確的行業(yè)知識(shí)，對(duì)減少AI幻覺(jué)產(chǎn)生起到重要的支撐作用，能大大提升推理的精度。

4、架構(gòu)創(chuàng)新，保障整體系統(tǒng)的穩(wěn)定可靠

對(duì)存儲(chǔ)最后一個(gè)也是最基本的要求是，無(wú)論具備什么樣的特性，都要保證穩(wěn)定可靠的整體結(jié)構(gòu)，不發(fā)生安全問(wèn)題、不“掉鏈子”。

華為存儲(chǔ)解決一系列大模型數(shù)據(jù)痛點(diǎn)需求的過(guò)程，某種程度上也增加了存儲(chǔ)方案與體系的復(fù)雜性，但與此同時(shí)，華為并沒(méi)有犧牲系統(tǒng)的可靠性，其創(chuàng)新的全互聯(lián)AA架構(gòu)，能夠?qū)崿F(xiàn)5層全方位保護(hù)與6個(gè)9的超高可靠。

由此，大模型的數(shù)據(jù)可靠性及訓(xùn)練穩(wěn)定性實(shí)現(xiàn)了端到端的保障。

造輪者，先行久遠(yuǎn)路途

華為存儲(chǔ)能夠解決大模型數(shù)據(jù)痛點(diǎn)問(wèn)題，根源在于其長(zhǎng)期以來(lái)在存儲(chǔ)上的創(chuàng)新探索。

OceanStor A800的數(shù)控分離架構(gòu)，就利用了業(yè)界前沿的數(shù)據(jù)讀寫(xiě)直通到盤(pán)的技術(shù)創(chuàng)新，讓數(shù)據(jù)面直通到盤(pán)，與控制面分離，實(shí)現(xiàn)IO直通，從而減少數(shù)據(jù)讀寫(xiě)時(shí)CPU的運(yùn)算，大大提升存儲(chǔ)性能。

實(shí)際上，華為長(zhǎng)期以來(lái)在存儲(chǔ)上進(jìn)行技術(shù)耕耘，已經(jīng)取得了頗多類(lèi)似的前沿創(chuàng)新成果。

目前，華為OceanStor存儲(chǔ)在全球擁有12個(gè)研發(fā)中心、4000+研發(fā)人員、3000+專(zhuān)利，產(chǎn)品涉足高性能NAS存儲(chǔ)解決方案、存儲(chǔ)防勒索解決方案、容器存儲(chǔ)解決方案、數(shù)據(jù)中心虛擬化等多個(gè)領(lǐng)域，獲得了廣泛好評(píng)。

在全球150多個(gè)國(guó)家，華為存儲(chǔ)已經(jīng)服務(wù)了包括運(yùn)營(yíng)商、金融、政府、能源、醫(yī)療、制造、交通等行業(yè)在內(nèi)的25000+客戶(hù)。

可以說(shuō)，為數(shù)據(jù)要素價(jià)值開(kāi)發(fā)、為大模型創(chuàng)新需求量身定制的存儲(chǔ)能力，是華為長(zhǎng)期以來(lái)在存儲(chǔ)賽道上深耕的必然結(jié)果——華為存儲(chǔ)早已做好了為眾多領(lǐng)域數(shù)據(jù)需求（不只有大模型）提供強(qiáng)大承載力與協(xié)同力的準(zhǔn)備。

*本文圖片均來(lái)源于網(wǎng)絡(luò)

#智能相對(duì)論 Focusing on智能新產(chǎn)業(yè)新服務(wù)，這是智能的服務(wù)NO.240深度解讀

此內(nèi)容為【智能相對(duì)論】原創(chuàng)，

僅代表個(gè)人觀點(diǎn)，未經(jīng)授權(quán)，任何人不得以任何方式使用，包括轉(zhuǎn)載、摘編、復(fù)制或建立鏡像。

部分圖片來(lái)自網(wǎng)絡(luò)，且未核實(shí)版權(quán)歸屬，不作為商業(yè)用途，如有侵犯，請(qǐng)作者與我們聯(lián)系。

•AI產(chǎn)業(yè)新媒體;

•澎湃新聞科技榜單月度top5;

•文章長(zhǎng)期“霸占”鈦媒體熱門(mén)文章排行榜TOP10;

•著有《人工智能十萬(wàn)個(gè)為什么》

•【重點(diǎn)關(guān)注領(lǐng)域】智能家電（含白電、黑電、智能手機(jī)、無(wú)人機(jī)等AIoT設(shè)備）、智能駕駛、AI+醫(yī)療、機(jī)器人、物聯(lián)網(wǎng)、AI+金融、AI+教育、AR/VR、云計(jì)算、開(kāi)發(fā)者以及背后的芯片、算法等。

申請(qǐng)創(chuàng)業(yè)報(bào)道，分享創(chuàng)業(yè)好點(diǎn)子。點(diǎn)擊此處，共同探討創(chuàng)業(yè)新機(jī)遇！

當(dāng)前位置：首頁(yè) > 科技 > 互聯(lián)網(wǎng) > 正文

大模型深挖數(shù)據(jù)要素價(jià)值：算法、算力之后，存儲(chǔ)載體價(jià)值凸顯

相關(guān)文章

大模型是下一代操作系統(tǒng)的未來(lái)，在這屆云棲大會(huì)上已經(jīng)到來(lái)

大模型搶灘高考志愿填報(bào)，能否頂替「張雪峰」們？

崔大寶：大模型降溫背后的難點(diǎn)、卡點(diǎn)、節(jié)點(diǎn)

兩分鐘“熟讀”《國(guó)史大綱》，大模型的下一個(gè)爆點(diǎn)是“書(shū)童”？

除了燒錢(qián)，互聯(lián)網(wǎng)留給大模型揮霍的“家底”不多了

熱門(mén)排行

信息推薦

熱門(mén)標(biāo)簽

當(dāng)前位置：首頁(yè) > 科技 > 互聯(lián)網(wǎng) > 正文

大模型深挖數(shù)據(jù)要素價(jià)值：算法、算力之后，存儲(chǔ)載體價(jià)值凸顯

相關(guān)文章

大模型是下一代操作系統(tǒng)的未來(lái)，在這屆云棲大會(huì)上已經(jīng)到來(lái)

大模型搶灘高考志愿填報(bào)，能否頂替「張雪峰」們？

崔大寶：大模型降溫背后的難點(diǎn)、卡點(diǎn)、節(jié)點(diǎn)

兩分鐘“熟讀”《國(guó)史大綱》，大模型的下一個(gè)爆點(diǎn)是“書(shū)童”？

除了燒錢(qián)，互聯(lián)網(wǎng)留給大模型揮霍的“家底”不多了