恭喜百度滄海?存儲團隊與中國科學技術(shù)大學、清華大學合作的論文《Mantle: Efficient Hierarchical Metadata Management for Cloud Object Storage Services》已正式被計算機系統(tǒng)領域頂級學術(shù)會議 SOSP'25(Symposium on Operating Systems Principles)錄用!
SOSP 與 OSDI 并稱為操作系統(tǒng)與系統(tǒng)軟件領域最具影響力的兩大學術(shù)會議,是全球計算機領域公認的最高榮譽殿堂。本屆 SOSP 共收到 368 篇投稿,最終僅錄用 65 篇,錄取率低至 17.7%,代表了該領域當前最前沿、最具影響力的研究成果。
該論文詳細介紹了百度智能云對象存儲 BOS 的分布式層級 Namespace 系統(tǒng) Mantle 的核心設計。Mantle 成功攻克了困擾業(yè)界多年的難題,使得對象存儲 BOS 的層級 Namespace 能夠同時具備可擴展性與高性能,為 AI 時代的大數(shù)據(jù)上云徹底掃清了障礙。
注:標 * 為共同一作,其中 Biao Cao 為百度智能云高級架構(gòu)師
傳統(tǒng)對象存儲的困境:層級 Namespace 難逃單機瓶頸
多年以來,HDFS 一直是大數(shù)據(jù)存儲的代名詞。然而,隨著數(shù)據(jù)規(guī)模的日益增大,其固有缺陷愈發(fā)凸顯:其一,三副本機制導致存儲成本高昂;其二,單 Namenode 的設計將文件規(guī)模限制在數(shù)億級別,難以滿足 AI 時代單桶百億甚至千億文件的擴展性需求;其三,復雜的運維工作對技術(shù)團隊提出了極高要求。
在此背景下,具備「低成本、無限擴展、云原生免運維」等優(yōu)勢的對象存儲,迅速成為構(gòu)建新一代數(shù)據(jù)湖存儲底座的共識,以支撐更大數(shù)據(jù)規(guī)模的大數(shù)據(jù)計算業(yè)務。但一個關(guān)鍵瓶頸橫亙眼前:傳統(tǒng)對象存儲采用的「平坦 Namespace」難以高效支持依賴文件系統(tǒng)語義的大數(shù)據(jù)計算任務(如目錄遍歷、遞歸刪除、路徑重命名等),導致其在特定場景下的性能遠不如 HDFS。
為了彌合這一鴻溝,業(yè)界普遍認為,為對象存儲增加「層級 Namespace」能力是必然趨勢。但遺憾的是,主流云廠商的現(xiàn)有方案始終未能擺脫單機性能瓶頸,其擴展性與 HDFS 相比并無本質(zhì)飛躍。
兩大核心挑戰(zhàn):為何高性能的分布式層級 Namespace 如此難解?
構(gòu)建一套面向大規(guī)模對象存儲服務、真正分布式的層級 Namespace,面臨著兩個長期未被攻克的嚴峻性能挑戰(zhàn):
長路徑解析開銷巨大:解析一個深層文件路徑,如 /A/B/C/D/file.txt,需要多次網(wǎng)絡通信,累積延遲極高,嚴重拖慢計算效率。傳統(tǒng)的客戶端緩存,在對象存儲基于 Restful API、無狀態(tài) Proxy 的架構(gòu)下難以實施。而簡單的并行路徑解析方案,在高并發(fā)場景下又因線程過度調(diào)度而引發(fā)資源爭搶,適得其反。
分布式事務沖突頻發(fā):當數(shù)千乃至上萬個計算任務并發(fā)地對同一目錄進行創(chuàng)建、刪除或重命名操作時,傳統(tǒng)分布式事務機制會產(chǎn)生海量的讀寫沖突與重試,導致系統(tǒng)吞吐量斷崖式下跌。即便放寬隔離級別等緩解手段,也難以根治跨目錄重命名等復雜操作帶來的根本性沖突問題。
正因為如此,業(yè)界一直缺乏一種既能發(fā)揮對象存儲成本與擴展性優(yōu)勢,同時又能媲美 HDFS 性能的真正可擴展、高性能的層級命名空間解決方案,導致「對象存儲成為數(shù)據(jù)湖存儲底座」的愿景,在實際落地中屢屢受阻。
Mantle:全球首個破局者 —— 融合文件和對象存儲的優(yōu)勢,構(gòu)建數(shù)據(jù)湖堅實底座
百度滄海?存儲研發(fā)的 Mantle,正是全球范圍內(nèi)第一個公開的、完整解決上述兩大難題,并成功經(jīng)受了超大規(guī)模生產(chǎn)環(huán)境長期檢驗的「分布式層級 Namespace 系統(tǒng)」。
Mantle 創(chuàng)新性地將傳統(tǒng)文件系統(tǒng)的強大語義優(yōu)勢,與新型對象存儲的低成本、可擴展、云原生易運維特性完美融合,實現(xiàn)了革命性的突破,為 EB 級別的新一代數(shù)據(jù)湖打開了前所未有的想象空間。
此次入選 SOSP'25 的論文,所闡述的正是這套兼具擴展性與卓越性能的方案,它標志著對象存儲真正成為云原生數(shù)據(jù)湖的堅實底座。
卓越性能:延遲降低最高 99.1%,吞吐提升最高 115 倍
分布式層級 Namespace 系統(tǒng) Mantle 不僅解決了理論難題,更在實踐中創(chuàng)造了令人驚嘆的性能表現(xiàn):
極致性能:與 Tectonic、InfiniFS 和 LocoFS 等業(yè)界最新進展相比,Mantle 將元數(shù)據(jù)訪問延遲降低了 6.6% 至 99.1%,吞吐量提高了 0.07 倍至 115.00 倍。
業(yè)務加速:在交互式 Spark 分析場景,作業(yè)完成時間縮短了 63.3% 至 93.3%。在 AI 驅(qū)動的音頻預處理任務中,作業(yè)完成時間縮短了 38.5% 至 47.7%。
目前,Mantle 已在百度智能云對象存儲 BOS 的生產(chǎn)環(huán)境中大規(guī)模上線超過兩年,提供了成熟可靠的服務。它為云上眾多客戶的大數(shù)據(jù)分析、人工智能、自動駕駛等關(guān)鍵業(yè)務提供了堅實、高效的存儲底座。
不止于論文:百度滄海·存儲元數(shù)據(jù)面架構(gòu)的創(chuàng)新故事
關(guān)于 Mantle 論文技術(shù)解讀,以及百度滄海·存儲元數(shù)據(jù)面架構(gòu)的創(chuàng)新故事,后續(xù)將在微信公眾號百度智能云技術(shù)站首發(fā),敬請期待!
申請創(chuàng)業(yè)報道,分享創(chuàng)業(yè)好點子。點擊此處,共同探討創(chuàng)業(yè)新機遇!