Azure遭雷擊后業(yè)務(wù)停擺
本月初,Azure因遭遇雷擊,造成長時間的業(yè)務(wù)停頓。隨后又因?yàn)榉?wù)器宕機(jī),而再次暫停2小時服務(wù)。是否因?yàn)锳zure“流年不利”?其實(shí)業(yè)內(nèi)人士都了解,這只是意外,而我們無法預(yù)測意外什么時候會發(fā)生,就跟無法預(yù)測會因?yàn)槭裁炊l(fā)生意外一樣。
對于事故勇于承擔(dān)并予以解決無疑是令人欣慰的。
Azure的工程部主管說“首先,我想對受影響地區(qū)的托管客戶為長時間的VSTS故障及其對全球客戶帶來的影響深表歉意。這起事件對我們來說前所未有。在我們七年的歷史中,這次故障是VSTS客戶遇到持續(xù)時間最長的。我通過Twitter、電子郵件和電話與客戶溝通,客戶的團(tuán)隊(duì)至少有一天無法正常辦公。我們讓客戶失望了。這是一次痛苦的經(jīng)歷,為此我道歉。”(譯文來源于“云頭條”)
隨后,Azure對自身的服務(wù)設(shè)置、備份方案、硬件設(shè)施、人員維護(hù)等進(jìn)行了一系列的調(diào)整。雖然這些調(diào)整也許在未來并不能避免所有意外的發(fā)生,但至少能夠減輕事故帶來的不良影響,減少造成的損失。
我們從中能學(xué)到什么?
人類有喜歡成功、畏懼失敗的天性,還因此而絞盡腦汁地設(shè)計(jì)了許多“完美模型”想避免失敗。事實(shí)上,因?yàn)槊孕?ldquo;完美模型”而吃的大虧很多,比如:“泰坦尼克號”曾被認(rèn)為是“不可沉沒”的;馬奇諾防線也被稱作是“不可逾越”的;在發(fā)生核泄漏之前,每個核電站都聲稱自己的安全系統(tǒng)是“萬無一失”的……
意外的發(fā)生,最大的好處就是讓我們更加進(jìn)步。因?yàn)橛屋啽ㄎ廴竞C娑鴮κ瓦\(yùn)輸?shù)陌踩O(shè)施重加考慮,因?yàn)楹朔磻?yīng)堆發(fā)生意外而改善核反應(yīng)過程和安全設(shè)施,因?yàn)榘l(fā)現(xiàn)上萬種不適合做燈絲的材料后而找到鎢絲……
于是,我開始思考,從Azure的事故中我們能學(xué)到什么?
我首先想到的是:“有備無患”的態(tài)度。在容災(zāi)備份這個行業(yè),每年都會發(fā)生若干或大或小的IT事故,比如:某公司員工誤刪數(shù)據(jù)了、某醫(yī)院服務(wù)器宕機(jī)業(yè)務(wù)停頓了、某學(xué)校被勒索病毒攻擊了、某單位丟失數(shù)據(jù)了,等等。在遭遇意外之后,結(jié)果如何就跟“有備無患”的態(tài)度大大相關(guān)了。
這里舉個不久前的例子,今年7月中旬,重慶市南岸區(qū)人民醫(yī)院因意外斷電2次,導(dǎo)致醫(yī)院His系統(tǒng)數(shù)據(jù)庫發(fā)生邏輯故障,無法正常啟動。
數(shù)據(jù)庫邏輯錯誤故障截圖
作為二甲醫(yī)院,重慶市南岸區(qū)人民醫(yī)院早就為His系統(tǒng)部署了容災(zāi)備份軟件,來以防萬一。因此,在故障發(fā)生后,在容災(zāi)備份軟件廠家北京和力記易科技有限公司西部大區(qū)技術(shù)工程師的協(xié)助下,利用備特佳軟件的“任意時間點(diǎn)回退”功能,一次性成功恢復(fù)數(shù)據(jù),解決了數(shù)據(jù)邏輯故障問題,經(jīng)校驗(yàn),數(shù)據(jù)完全一致,His系統(tǒng)恢復(fù)正常使用。
有了“有備無患”的態(tài)度,之后,自然是想要“魚”與“熊掌”能夠兼得。
大多遭遇IT故障的客戶,在面對故障會持續(xù)多久沒有明確結(jié)論的時候,都面臨著一道“魚”與“熊掌”的選擇題,是要馬上恢復(fù)業(yè)務(wù),還是要保證數(shù)據(jù)不丟?其中一些客戶,他們不想丟失任何數(shù)據(jù),只要能恢復(fù)數(shù)據(jù),不管這個過程有多長。而另外一些客戶,需要讓龐大的團(tuán)隊(duì)迅速開始工作,哪怕丟失部分?jǐn)?shù)據(jù)也認(rèn)了。
這個選擇在構(gòu)建容災(zāi)備份方案的時候也會遇到。一方面是數(shù)據(jù)的100%備份與恢復(fù),一方面是業(yè)務(wù)的連續(xù)性,“魚”與“熊掌”如何兼得?
作為國產(chǎn)容災(zāi)備份軟件廠商,北京和力記易科技有限公司早就已經(jīng)開始思考并解決了這一問題。和力記易自主研發(fā)的備特佳容災(zāi)備份系統(tǒng),以CDP持續(xù)數(shù)據(jù)保護(hù)技術(shù)為核心,實(shí)時監(jiān)測數(shù)據(jù)變化并備份,數(shù)據(jù)變化傳到備份機(jī)以后,一份與以前的數(shù)據(jù)實(shí)時覆蓋,形成一份最新的及時可用數(shù)據(jù),另外一份以自有格式存儲。備份機(jī)上這份及時可用的數(shù)據(jù)與生產(chǎn)機(jī)上的業(yè)務(wù)數(shù)據(jù)完全一致,如果生產(chǎn)機(jī)意外宕機(jī),備份機(jī)完全可以代替生產(chǎn)機(jī)繼續(xù)對外服務(wù)。而以自有格式存儲的數(shù)據(jù),可以在遭遇IT故障后,用于數(shù)據(jù)的任意回退,就像前面舉例說明的那樣。既能保證數(shù)據(jù)安全,又能保障業(yè)務(wù)連續(xù),“魚”與“熊掌”也可得兼。
編者語:
遭遇故障并不可怕,從中學(xué)習(xí),好的保留,不好的就改變,我們會一直走在進(jìn)步的路上。
申請創(chuàng)業(yè)報(bào)道,分享創(chuàng)業(yè)好點(diǎn)子。點(diǎn)擊此處,共同探討創(chuàng)業(yè)新機(jī)遇!