利用信息系統(tǒng)處理業(yè)務,如何保證在計劃和意外停機期間確保業(yè)務運行不間斷?各種自然災害和事件突發(fā),如何避免企業(yè)信息系統(tǒng)受到災害影響?網(wǎng)絡災難發(fā)生,如何減少數(shù)據(jù)的負面影響?本文邀請了Coremail論客運維高可用方案解決專家,從方案設計到部署等方面,結(jié)合某企業(yè)郵件系統(tǒng)部署案例,介紹運維高可用解決方案。
郵件系統(tǒng)作為基礎信息系統(tǒng),是企業(yè)員工進行工作與交流溝通的重要渠道,企業(yè)依賴郵件系統(tǒng)作為通訊平臺以支持業(yè)務運行。系統(tǒng)在運行中不可避免會出現(xiàn)計算機硬件故障或網(wǎng)絡等原因,導致不可以訪問郵件系統(tǒng),一旦出現(xiàn)這種情況,就需要管理員或郵件系統(tǒng)服務提供商去緊急處理。在處理過程中,員工是不能使用郵件系統(tǒng)。對于所有的企業(yè)來說,郵件系統(tǒng)服務的中斷,不僅影響到企業(yè)員工的正常工作與交流,還可能為企業(yè)帶來營業(yè)損失,甚至影響到服務品質(zhì)和客戶的滿意度。
而Coremail運維高可用解決方案則能很好的解決這一問題。在介紹搭建運維高可用方案之前,先來科普一個最常用的衡量指標:
RTO:是指恢復時間點目標(Recovery Time Object),即災難發(fā)生后,從IT系統(tǒng)宕機導致業(yè)務停頓之刻開始,到IT系統(tǒng)恢復至可以支持各部門運作,業(yè)務恢復運營之時,此兩點之間的時間段。
RPO:是指恢復點目標(Recovery Point Object),即災難發(fā)生后,容災系統(tǒng)能把數(shù)據(jù)恢復到災難發(fā)生前時間點的數(shù)據(jù)。
而用戶的高可用要求越高,需要投入的硬件和軟件成本就會越高,如何選擇一個適合企業(yè)又經(jīng)濟實惠的高可用解決方案,則需要用戶在方案設計之初,提出具體的高可用要求。
本文選取了高可用目標RTO為1小時,RPO為15分鐘,并且實現(xiàn)同城兩個機房高可用的方案為例,從方案設計到部署執(zhí)行兩個方面闡述運維高可用解決方案。
運維高可用解決方案的設計是以郵件系統(tǒng)的架構為基礎,初步可分為五層,針對不同的分層,相對應的設計了不同的解決方案:
1.接入層
該層主要包括DNS智能和負載均衡調(diào)優(yōu)等。同城雙活分為對稱雙活與非對稱雙活,區(qū)別在于兩側(cè)機房是否同等配置規(guī)模與投入生產(chǎn)。該方式影響接入層的設計與負載均衡。
如果非對稱雙活設計,一般不考慮備機房數(shù)據(jù)中心的DNS的映射,直接將備機房業(yè)務SERVER與端口納入主機房F5 server_pool即可。
對稱雙活設計,即兩側(cè)生產(chǎn)規(guī)模高度一致,要完全負載業(yè)務峰值壓力。該設計可以采用與生產(chǎn)機房一致的F5負載均衡設備與DNS映射。
2.網(wǎng)絡層
該層主要包括兩機房間業(yè)務網(wǎng)絡打通和數(shù)據(jù)庫層網(wǎng)絡打通等。為更高更充分地利用與發(fā)揮同城高可用的架構優(yōu)勢,保障生產(chǎn)環(huán)境故障時的順利切換與承載,同城備機房采用與生產(chǎn)機房同等架構的網(wǎng)絡架構與 SAN 網(wǎng)絡架構。
網(wǎng)絡交換機與SAN 交換機雙節(jié)點互做冗余。硬件要求網(wǎng)絡設備特別是數(shù)據(jù)庫心跳設備、SAN 交換機設備盡量同廠家同型號,微碼版本保持一致。
3.應用層
該層主要包括應用服務器軟硬件部署等。由于應用業(yè)務數(shù)據(jù)傳遞的復雜性與關聯(lián)性,為保障應用高可用的順利實現(xiàn),在應用雙活改造過程中,優(yōu)先保障基本業(yè)務的高可用。可按生產(chǎn)環(huán)境的應用系統(tǒng)架構配置在備機房進行部署。
后續(xù)根據(jù)業(yè)務應用的需求擴展,可以在備機房進行單邊部署配置,降低主生產(chǎn)環(huán)境的業(yè)務壓力與負載。其它單機部署服務器參仿生產(chǎn)規(guī)模配置進行部署設計。
使用負載均衡+智能DNS 技術實現(xiàn)應用層在數(shù)據(jù)中心之間的并行運行,可以提高當前系統(tǒng)的高可用性。
4.存儲層
該層主要包括存儲層集成部署等。郵件,用戶數(shù)據(jù)均使用分布式存儲,通過Coremail多活實時將數(shù)據(jù)同步到兩側(cè)。
5.數(shù)據(jù)庫層
該層主要包括數(shù)據(jù)庫部署等。采用數(shù)據(jù)庫雙主架構。正常情況下,各后端服務器會根據(jù)配置,分別訪問對應的中心數(shù)據(jù)庫服務器。
當數(shù)據(jù)庫中的其中一個點宕機時,存儲層訪問策略或者數(shù)據(jù)庫雙主配置的故障轉(zhuǎn)移策略,會自動將正常訪問轉(zhuǎn)移至正常數(shù)據(jù)庫節(jié)點上。
在方案設計完成后,接下來的重點就是部署,如何以經(jīng)濟高效的方式完成部署是本次案例的關鍵。圖1則是本次案例的同城雙活部署架構圖。
從圖1可以看出,兩個機房的數(shù)據(jù)庫使用物理數(shù)據(jù)庫復制軟件實現(xiàn)了數(shù)據(jù)的同步,兩中心數(shù)據(jù)庫形成雙主,機房之間通過綜合數(shù)據(jù)網(wǎng)提供基礎鏈路承載和互聯(lián)互通。
并且兩個機房應用服務器利用F5負載均衡技術實現(xiàn)了雙活,存儲服務器使用分布式存儲數(shù)據(jù),每臺存儲服務器既是計算節(jié)點也是存儲節(jié)點。
兩個機房之間的SAN交換機,利用廣域I/O加速技術和ISL技術實現(xiàn)兩個機房交換機之間的各自互聯(lián)。
當然,每一個企業(yè)都存在不同的設計需求,Coremail論客運維高可用方案解決專家建議,在方案進行部署時用戶需要依據(jù)用戶自身的具體情況進行執(zhí)行,才可達到最佳執(zhí)行效果。
申請創(chuàng)業(yè)報道,分享創(chuàng)業(yè)好點子。點擊此處,共同探討創(chuàng)業(yè)新機遇!