7月13日23時許,B站客戶端和網(wǎng)頁端均出現(xiàn)訪問故障,無法打開,頁面提示“正在玩命加載數(shù)據(jù)”。不久后,“B站崩了”話題也迅速登上微博熱搜。
約在23時45分,B站網(wǎng)頁端和APP才恢復(fù)正常。14日凌晨,B站微博發(fā)布致歉聲明,稱部分服務(wù)器機房發(fā)生故障,造成無法訪問。外界猜測,本次事故可能是由于服務(wù)器宕機所致。
什么是服務(wù)器宕機?
服務(wù)器宕機指的是由于某些原因?qū)е路?wù)器無法正常運轉(zhuǎn),造成網(wǎng)絡(luò)無法使用。對于網(wǎng)站來說,服務(wù)器宕機帶來的影響很大,不但影響用戶對網(wǎng)站的正常訪問,還會影響網(wǎng)站在搜索引擎上的排名以及對外的品牌形象。
服務(wù)器發(fā)生宕機的原因
1.服務(wù)器環(huán)境的客觀原因
如機房突然斷電,或者是溫度過高,服務(wù)器就會出現(xiàn)死機、關(guān)機的情況,不過這種情況發(fā)生的概率較小,正規(guī)的IDC廠商都會做好預(yù)防措施,備用電路和發(fā)電機以及智能恒溫系統(tǒng)都可有效預(yù)防這種情況的發(fā)生。
2.服務(wù)器不堪負(fù)重
這是一種比較常見的情況,由于網(wǎng)站的流量突然大量增加,或者是受攻擊、程序中毒等,導(dǎo)致服務(wù)器壓力驟增,資源耗盡,造成死機的情況。
3.不合理的應(yīng)用
如公司為了減少成本的投入,租用一些配置和性能較低的服務(wù)器,若在這種服務(wù)器上安裝一些大型軟件,很容易造成服務(wù)器超負(fù)荷運轉(zhuǎn),發(fā)生宕機情況。
除此之外,還有很多的細(xì)節(jié)也能導(dǎo)致服務(wù)器宕機,比如環(huán)境配置、錯誤程序、數(shù)據(jù)庫丟失等也是常見原因。
服務(wù)器宕機解決方案
1.共享存儲集群
在單機單柜的基礎(chǔ)上,增加1臺備用主機,即可構(gòu)建基于共享存儲的熱備集群。增加1臺物理服務(wù)器作為服務(wù)器的備機,并在備機部署業(yè)務(wù)系統(tǒng),通過共享存儲熱備集群產(chǎn)品,實現(xiàn)對應(yīng)用的高可用保護。如主機上運行的系統(tǒng)出現(xiàn)異常故障導(dǎo)致宕機,比如應(yīng)用服務(wù)異常、硬件設(shè)備故障,可將系統(tǒng)切換至備用主機,以保證網(wǎng)站連續(xù)運營和可訪問性。
2.數(shù)據(jù)鏡像集群
部署兩臺服務(wù)器,將其中1臺服務(wù)器作為主機,通過活動IP對外提供服務(wù),主機產(chǎn)生的數(shù)據(jù)會直接寫入主機的本地磁盤,通過網(wǎng)絡(luò)實時傳輸?shù)絺錂C,從而保證兩臺服務(wù)器數(shù)據(jù)的一致性。在此基礎(chǔ)上,如果主機出現(xiàn)故障(服務(wù)器宕機,應(yīng)用系統(tǒng)故障,網(wǎng)絡(luò)故障等情況),主機會在保證數(shù)據(jù)一致性前提下,將數(shù)據(jù)庫切換到備機運行,繼續(xù)對外提供服務(wù),確保生產(chǎn)管理系統(tǒng)持續(xù)運營工作。
3. 解析宕機切換
將解析指向多個IP,實現(xiàn)宕機切換,保障網(wǎng)站可繼續(xù)訪問。中科三方智能云解析系統(tǒng)具備宕機監(jiān)測與切換功能當(dāng)發(fā)現(xiàn)其中的目標(biāo)服務(wù)器宕機時,可以將解析快速切換到預(yù)先配置的備用服務(wù)器上,以維持網(wǎng)站的可用性,保證用戶可以繼續(xù)通過原域名訪問到正常工作的備用服務(wù)器。
4.遠(yuǎn)程容災(zāi)
根據(jù)系統(tǒng)環(huán)境、網(wǎng)絡(luò)環(huán)境,結(jié)合容災(zāi)需求等情況,構(gòu)建遠(yuǎn)程容災(zāi)方案。將管理系統(tǒng)生產(chǎn)服務(wù)器的數(shù)據(jù)實時復(fù)制到容災(zāi)服務(wù)器上,確保兩臺機器數(shù)據(jù)一致性。當(dāng)主服務(wù)器出現(xiàn)故障時,可通過備用服務(wù)器快速恢復(fù)業(yè)務(wù)系統(tǒng);當(dāng)本地機房完全癱瘓時,可通過容災(zāi)機房公網(wǎng)IP將服務(wù)映射出去,對外提供服務(wù)。
5.云容災(zāi)
將生產(chǎn)中心的數(shù)據(jù)和業(yè)務(wù)實時災(zāi)備至云端,如生產(chǎn)中心出現(xiàn)事故,可迅速利用云端的容災(zāi)系統(tǒng)及時接管業(yè)務(wù)。不同區(qū)域的云之間,構(gòu)建數(shù)據(jù)和業(yè)務(wù)災(zāi)備,最大化保障業(yè)務(wù)系統(tǒng)和數(shù)據(jù)的安全。
6.雙機雙柜
采用多機雙柜解決方案,為用戶構(gòu)建高容錯、高安全、高性能的集群容災(zāi)平臺,以實現(xiàn)多個功能模塊之間相互協(xié)作和服務(wù)器、磁盤陣列、存儲通道等軟硬件的完全容錯,可有效解決了傳統(tǒng)高可用方案的單點故障,為用戶構(gòu)建零數(shù)據(jù)丟失和應(yīng)用高可用保護的高級集群容災(zāi)方案。
雖然B站在較短時間內(nèi)解決了故障,恢復(fù)了網(wǎng)站的正常訪問,然而此次事故還是對B站造成了嚴(yán)重影響,不但影響了用戶正常訪問,還導(dǎo)致B站股價短線走低。因此,做好服務(wù)器宕機防范預(yù)案,對于政企單位維護網(wǎng)絡(luò)安全,保障業(yè)務(wù)系統(tǒng)持續(xù)性、可訪問性至關(guān)重要。
申請創(chuàng)業(yè)報道,分享創(chuàng)業(yè)好點子。點擊此處,共同探討創(chuàng)業(yè)新機遇!