123,123,123

在傳統(tǒng)的Apache Hadoop集群系統(tǒng)中，計算和存儲資源是緊密耦合的，HDFS為大數(shù)據(jù)存儲帶來便利的同時，也面臨著一些挑戰(zhàn)：

當(dāng)存儲空間或計算資源不足時，只能同時對兩者進(jìn)行擴(kuò)容。假設(shè)用戶對存儲資源的需求遠(yuǎn)大于對計算資源的需求，那么同時擴(kuò)容計算和存儲后，新擴(kuò)容的計算資源就被浪費(fèi)了，反之，存儲資源被浪費(fèi)。

這導(dǎo)致擴(kuò)容的經(jīng)濟(jì)效率較低，額外增加成本。而獨(dú)立擴(kuò)展的計算和存儲則更加靈活，同時可顯著降低成本。

現(xiàn)在Hadoop采用存算分離的架構(gòu)的趨勢越來越明顯。

XSKY HDFS Client是為XEOS存儲集群和Hadoop計算集群量身打造的連接器。通過XSKY HDFS Client，Hadoop應(yīng)用可以訪問存儲在XEOS中的所有數(shù)據(jù)。

但是，在引入XEOS存儲后，會出現(xiàn)原有HDFS與XEOS共存的情況，如何將兩套存儲集群都利用起來是需要解決的問題。

01數(shù)據(jù)跨集群拷貝

一般情況下，計算應(yīng)用需要訪問的數(shù)據(jù)，如果保存在不同的集群中，那么應(yīng)該將其中一個集群的數(shù)據(jù)拷貝到另一個集群上。一般情況下使用Hadoop自帶的DistCp工具，對數(shù)據(jù)進(jìn)行跨集群的拷貝。

這種方式雖然在一定程度上可以解決數(shù)據(jù)合并的問題，但如果數(shù)據(jù)量比較大，并且機(jī)房帶寬有限制的情況下，可能拷貝數(shù)據(jù)的時間會非常長。還有一個就是在拷貝過程中原始數(shù)據(jù)發(fā)生改動，就還需要考慮增量同步的問題。

02聯(lián)邦HDFS和ViewFS

在Hadoop 2.x發(fā)行版中引入了聯(lián)邦HDFS功能，期望可以解決NameNode的內(nèi)存問題。聯(lián)邦HDFS允許系統(tǒng)通過添加多個NameNode來實現(xiàn)擴(kuò)展，其中每個NameNode管理文件系統(tǒng)命名空間中的一部分。

但是，在實際應(yīng)用中，系統(tǒng)管理員需要維護(hù)多個NameNodes(所有NameNode都需要高可用)和負(fù)載均衡服務(wù)，這又增加了管理成本。所以HDFS的聯(lián)邦方案并沒有被生產(chǎn)環(huán)境所采用。

在提供聯(lián)邦HDFS方案同時，Hadoop 2.x還提供了ViewFS，用來管理所有多個命名空間視圖。

雖然聯(lián)邦HDFS方案并沒有被大規(guī)模應(yīng)用，但ViewFS卻可以用來解決XEOS與HDFS共存問題。

03ViewFS的實現(xiàn)

ViewFS全稱是ViewFileSystem，它不是一個新的文件系統(tǒng)，只是邏輯上的一個視圖文件系統(tǒng)，它實現(xiàn)了標(biāo)準(zhǔn)的Hadoop FileSystem接口。但是，真實的請求處理還是在各自真實的存儲集群上。

ViewFS會維護(hù)一個mount-table，主要是viewfs的邏輯目錄與實際底層存儲的映射關(guān)系。在接收到應(yīng)用的調(diào)用時，ViewFS會解析用戶的訪問請求，并通過mount-table找到對應(yīng)的底層存儲目錄，轉(zhuǎn)發(fā)相應(yīng)的請求到底層存儲。

ViewFS會把所有應(yīng)用層的FileSystem調(diào)用透傳到底層真實文件系統(tǒng)中。由于ViewFs實現(xiàn)了Hadoop文件系統(tǒng)接口，因此使用它透明地運(yùn)行Hadoop工具。例如，所有shell命令都可以與HDFS和本地文件系統(tǒng)一起使用ViewFS。

在集群的core-site配置中，fs.defaultFS被設(shè)置為ViewFS的root目錄，也就是指定的mount-table。

掛載表的掛載點在標(biāo)準(zhǔn)Hadoop配置文件中指定。ViewFS的所有mount-table配置條目均以“fs.viewfs.mounttable”為前綴，使用“link“標(biāo)記指定鏈接其他文件系統(tǒng)的mount點。建議使用與“link”文件系統(tǒng)目標(biāo)位置相同的mount點名稱。對于未在安裝表中配置的所有名稱空間，我們可以通過linkFallback將它們回退到默認(rèn)文件系統(tǒng)。

在集群的配置中增加ViewFS的mount-table配置，示例如下：

Hadoop系統(tǒng)將在Hadoop配置文件中查找名稱為 “ClusterX” 的mount-table。將所有g(shù)ateway和server配置包含“ClusterX”，如上示例。

04ViewFS的應(yīng)用場景

ViewFS可以在如下場景中使用：

非結(jié)構(gòu)化的原始數(shù)據(jù)可以通過DistCp等工具直接存儲在XEOS上，業(yè)務(wù)數(shù)據(jù)庫結(jié)構(gòu)化數(shù)據(jù)和應(yīng)用買點數(shù)據(jù)可以通過ETL以Hive的外部表方式存儲到XEOS中。HBase和Hive繼續(xù)在原有的HDFS上面運(yùn)行，也就是HBase表數(shù)據(jù)和Hive內(nèi)部表數(shù)據(jù)仍然通過HDFS來存儲。

這樣的好處是海量非結(jié)構(gòu)化數(shù)據(jù)，甚至是海量小文件都可以用XEOS來承載，減輕HBase的壓力，同時Hive新增數(shù)據(jù)全部通過XEOS來存儲，后續(xù)擴(kuò)容容量僅擴(kuò)展XEOS存儲集群即可。

05XEOS配置ViewFS

大數(shù)據(jù)平臺基于CDH 6.3.2。HDFS core-site.xml 增加如下配置：

Hadoop FS命令行：

執(zhí)行wordcount測試結(jié)果如下：

06小結(jié)

XSKY通過ViewFS的方式，在不改變用戶使用習(xí)慣的前提下，將原有HDFS數(shù)據(jù)與新增XEOS數(shù)據(jù)打通，解決了原有HDFS集群與新XEOS集群的共存問題。原有的HDFS數(shù)據(jù)可以繼續(xù)使用，而XEOS可以用于承載新生成的數(shù)據(jù)。

這種方式不僅可以充分利用舊有設(shè)備，達(dá)到節(jié)約成本的目的。同時，能夠借助XEOS橫向擴(kuò)展能力，實現(xiàn)存儲單獨(dú)擴(kuò)容。

申請創(chuàng)業(yè)報道，分享創(chuàng)業(yè)好點子。點擊此處，共同探討創(chuàng)業(yè)新機(jī)遇！

相關(guān)文章

云存儲服務(wù)器租用的好處有哪些？

隨著企業(yè)數(shù)字化轉(zhuǎn)型加速，云存儲服務(wù)器租用成為越來越多企業(yè)的首選方案。云存儲服務(wù)器租用的好處在于彈性靈活、成本可控、安全可靠，同時避免了傳統(tǒng)服務(wù)器的硬件維護(hù)負(fù)擔(dān)。以下是云存儲服務(wù)器租用的核心價值與適用場景分析：

標(biāo)簽：

云存儲服務(wù)器租用的好處

云存儲服務(wù)器租用

云存儲服務(wù)器

云存儲
企業(yè)云存儲如何收費(fèi)？企業(yè)云存儲收費(fèi)標(biāo)準(zhǔn)

企業(yè)云存儲的收費(fèi)方式因不同的服務(wù)提供商和具體的服務(wù)選項而異，通常從用戶數(shù)量、存儲容量、功能、混合收費(fèi)、按需定價、定制化、功能模塊等多個方面進(jìn)行考量。以下是對其多方面收費(fèi)方式的詳細(xì)介紹：

標(biāo)簽：

云存儲
分布式存儲費(fèi)用高嗎？大概需要多少錢

分布式存儲的費(fèi)用是否高，取決于多個因素，包括存儲容量、性能要求、服務(wù)提供商、計費(fèi)模式等。因此，無法簡單地給出一個“高”或“不高”的答案。通常分布式存儲費(fèi)用通常包含存儲費(fèi)用、網(wǎng)絡(luò)費(fèi)用、增值服務(wù)費(fèi)、數(shù)據(jù)遷移、API調(diào)用、管理維護(hù)等費(fèi)用。

標(biāo)簽：

數(shù)據(jù)存儲

云存儲
當(dāng)直播“頂流”遇上存儲“頂流”，羅永浩和Lexar雷克沙的初次會面

又是一年雙十一熱銷大促,今年各大平臺的直播間可謂是熱鬧非凡,我們熟悉的羅永浩“交個朋友”直播間也如約帶來了很多優(yōu)惠好貨。11月1日,羅永浩“交個朋友”直播間攜手眾多品牌再度歸來,帶貨實力依然抗打。作為數(shù)碼3C類目的帶貨“扛把子”,我們發(fā)現(xiàn)此次羅永浩直播間中除了有大家熟知的各大科技數(shù)碼品牌外,還有一些

標(biāo)簽：

數(shù)據(jù)存儲
青云QingCloud 非結(jié)構(gòu)化數(shù)據(jù)存儲 U10000 在海量小文件場景的應(yīng)用

青云科技（qingcloud.com）QingStorU10000作為一款分布式存儲，在支持線性擴(kuò)展上表現(xiàn)不俗。U10000最低3節(jié)點起步，隨著節(jié)點數(shù)量的增長，存儲容量和存儲集群的性能都會線性增長。U10000的存儲效率比較高。通過可靈活配置的EC糾刪碼，能讓整個集群的物理磁盤可用空間達(dá)到90%以上

標(biāo)簽：

數(shù)據(jù)存儲

當(dāng)前位置：首頁 > 站長 > 編程技術(shù) > 正文

Hadoop大數(shù)據(jù)存算分離下，XSKY星辰天合如何解決新舊存儲共存

相關(guān)文章

云存儲服務(wù)器租用的好處有哪些？

企業(yè)云存儲如何收費(fèi)？企業(yè)云存儲收費(fèi)標(biāo)準(zhǔn)

分布式存儲費(fèi)用高嗎？大概需要多少錢

當(dāng)直播“頂流”遇上存儲“頂流”，羅永浩和Lexar雷克沙的初次會面

青云QingCloud 非結(jié)構(gòu)化數(shù)據(jù)存儲 U10000 在海量小文件場景的應(yīng)用

熱門排行

信息推薦

編輯推薦

VS2019屬性管理器沒有Microsoft.Cpp.x64.user的解決辦法

JS頁面動態(tài)繪圖工具SVG，Canvas，VML介簡介

熱門標(biāo)簽

當(dāng)前位置：首頁 > 站長 > 編程技術(shù) > 正文

Hadoop大數(shù)據(jù)存算分離下，XSKY星辰天合如何解決新舊存儲共存

相關(guān)文章

云存儲服務(wù)器租用的好處有哪些？

企業(yè)云存儲如何收費(fèi)？企業(yè)云存儲收費(fèi)標(biāo)準(zhǔn)

分布式存儲費(fèi)用高嗎？大概需要多少錢

當(dāng)直播“頂流”遇上存儲“頂流”，羅永浩和Lexar雷克沙的初次會面

青云QingCloud 非結(jié)構(gòu)化數(shù)據(jù)存儲 U10000 在海量小文件場景的應(yīng)用

熱門排行

信息推薦

編輯推薦

VS2019屬性管理器沒有Microsoft.Cpp.x64.user的解決辦法

JS頁面動態(tài)繪圖工具SVG，Canvas，VML介簡介

熱門標(biāo)簽

Hadoop大數(shù)據(jù)存算分離下，XSKY星辰天合如何解決新舊存儲共存

云存儲服務(wù)器租用的好處有哪些？

企業(yè)云存儲如何收費(fèi)？企業(yè)云存儲收費(fèi)標(biāo)準(zhǔn)

分布式存儲費(fèi)用高嗎？大概需要多少錢

JS頁面動態(tài)繪圖工具SVG，Canvas，VML介簡介