新聞中心
本文介紹的這幾種隨機性事件讓數(shù)據中心運營者夜不能寐。貴公司的災難恢復計劃是否準備好處理這些突如其來的奇怪事件呢?

創(chuàng)新互聯(lián)公司自2013年創(chuàng)立以來,先為涵江等服務建站,涵江等地企業(yè),進行企業(yè)商務咨詢服務。為涵江企業(yè)網站制作PC+手機+微官網三網同步一站式服務解決您的所有建站問題。
1. 衣荷華州火災
2014年2月18日下午,那也是衣荷華州平時制作全州工資單的工作日,主數(shù)據中心發(fā)生了一場電氣火災。衣阿華州CIO Robert von Wolffradt在GovTech.com上發(fā)布的一篇博客中回憶道,IT工作人員事先根本普沒有料到會發(fā)生這種事,他們之前一直在為預報當天晚上會來襲的那場暴風雪準備應急計劃。
火警在下午3點拉響后,數(shù)據中心斷了電,整幢大樓里面煙霧彌漫,工作人員只好疏散?;鹁|發(fā)了數(shù)據中心以天然氣為燃料的FM-200滅火系統(tǒng),大火被控制在壁掛式瞬態(tài)電壓抑制盒(如上圖)里面。該裝置控制著進入數(shù)據中心的電流,因過熱而熔化。該州的總務管理團隊拉了一條旁路,幾小時電又恢復了。
電力恢復正常后,大門可以打開,風扇可以開啟,大樓可以通風,不過警察和消防人員不愿意允許IT工作人員回到大樓?;馂陌l(fā)生后過了三個半小時,州政府官員確定可以重新進入數(shù)據中心
Wolffradt不得不決定是否可以繼續(xù)處理該州付給公民和供應商的1.62億美元連同員工工資。全體工作人員馬上展開工作,清理掉了數(shù)據中心的殘留物,IT工作人員在晚上9點之前恢復了存儲連接網絡、防火墻和網絡核心系統(tǒng)。如果不更換瞬態(tài)電涌抑制盒,重新開啟這些系統(tǒng)會讓設備處于險境。Wolffradt于是決定無論如何要更換抑制盒,不過他為備用數(shù)據中心配備了人手,作為一項防范措施。
到了晚上11點,另外的系統(tǒng)恢復上線,包括服務臺和交通運輸部在即將到來的暴風雪中監(jiān)測橋梁和公路所需的攝像頭。
另外恢復的還有財務系統(tǒng)和虛擬化應用軟件。到了晚上,額外的系統(tǒng)投入運行,到了早上備用數(shù)據中心不需要接過處理全州工資的工作。Wolffradt回憶道:“我們在那次事件當中充分利用了國土安全部的語音通知系統(tǒng),兩次向政府部門主管和重要的工作人員通報最新情報。”他特別指出,數(shù)據中心火災過后,傳聞四起;因此,CIO必須與其他責任方經常溝通。隨著事態(tài)的進一步發(fā)展,他本人隨時向州長和重要政府官員匯報情況。
Wolffradt在博文中透露的一個教訓是,讓主要的企業(yè)系統(tǒng)放在彼此不同的地方,比如將電子郵件放在與工資單不同的設施(數(shù)據中心)。另一個教訓就是:一旦發(fā)生火災,總務管理和人力資源部門“是你最好的朋友”,會幫助你順利渡過難關。他寫道,想恢復數(shù)據中心運營,最棘手的障礙之一就是,說服警察和消防人員:IT工作人員可以重新進入數(shù)據中心。數(shù)據中心所在的大樓里面共有1000名州雇員,大多數(shù)人等待的時間比IT工作人員還長,等警報解除后,才重新進入大樓。#p#
2. 三星大火
不,這里說的不是什么新智能手機的名稱,而是三星遭遇的大火。
2014年4月20日,韓國果川市一幢辦公樓的中間層燃起了大火。大火是從三星在這幢大樓的SDS數(shù)據中心開始冒出來的。ZDNet韓國特約撰稿人Jaehwan Cho在其推特帳號(@hohocho)上發(fā)布了來自韓國聯(lián)合通訊社的圖片,圖片顯示煙霧和火焰從大樓側面冒出來,熱浪導致碎片從外面不斷墜落下來。
據Data Center Knowledge報道,三星的IT工作人員和大樓住戶迅速被疏散,只有一名工作人員因墜落的碎片而受到割傷、擦傷及其他輕傷。
那場大火導致三星設備(包括智能手機,平板電腦和智能電視)的用戶們無法訪問他們一直試圖獲取的數(shù)據。在果川市第二個數(shù)據中心的恢復系統(tǒng)恢復服務之前,廣大設備用戶一度數(shù)小時無法訪問內容,最后三星工作人員只好開博客致歉。#p#
3. 電纜管道著火
2009年7月3日,西雅圖費舍爾廣場一個配電室的火災導致Authorize.net支付門戶網站、微軟必應旅游服務、Geocaching.com服務、Dotster域名注冊服務、主機托管服務提供商AdHost以及另外幾十個網站癱瘓。第二天早上才恢復供電。
《普吉特海灣商業(yè)雜志》報道,Geocaching和AdHost到第二天上午10點才恢復運行,而其他服務網站花了更長時間才恢復如初。據《普吉特海灣商業(yè)雜志》報道,那場大火顯然是從燒壞的電纜管道(見上圖)開始冒出來的,害得費舍爾通信公司(Fisher Communications)估計花費了1000萬美元的維修和設備更換費用。
4. 桑迪颶風:發(fā)電機故障
2012年10月下旬,桑迪颶風一路席卷弗吉尼亞州、特拉華州、馬里蘭州和新澤西州時,曼哈頓與美國東沿岸大部分地區(qū)一樣失去了電力。海水風暴潮隨之而來,沖上了街道,導致曼??哈頓下城區(qū)和三州鄰接地區(qū)的另外許多地方頓時陷入一片汪洋。
在曼哈頓下城區(qū)布羅德大街75號即Peer 1主機托管公司的所在地,這無疑是災難恢復規(guī)劃人員的噩夢。雖然備用發(fā)電機可以隨時搬到遠高于水位線的大樓18層,但是涌入大樓大堂、灌滿地下室的那場風暴潮毀掉了放在那里的應急發(fā)電機燃油泵送系統(tǒng)。一旦浸泡在水下,系統(tǒng)電路不再工作。(紐約在9?11事件后實施的一項規(guī)定是,限制貯存在辦公樓的燃油量)。因此,發(fā)電機開始用完供應有限的燃油后,這家公司無法獲得新補充的燃油。就在幾名員工設法趕到數(shù)據中心、幫助防止任何數(shù)據丟失的同時,Peer 1建議客戶在數(shù)小時內有計劃地關閉系統(tǒng)。
Peer 1不是關閉設施,而是成立了一支救援隊,運送發(fā)電機所需的燃油。燃油擺放在街上(見上圖),一路手遞手送到17樓,也就是發(fā)電機的儲油罐所在地方。儲油罐及油泵可以將燃油輸送到這層樓上方的發(fā)電機。Peer 1的客戶(包括SquareSpace這家網站開發(fā)公司和Fog Creek Software這家在線項目管理軟件供應商)為這支25個成員的救援隊提供了人力,在10月30日晚直至10月31日,將燃油送到了樓上的發(fā)電機。
到10月31日午飯時間,他們終于灌滿了儲油罐,總算有機會休息一下,吃的午飯是靠步行經過布魯克林大樓送過來的(由于曼哈頓街道堵塞)。Peer 1的災難恢復方案當中既沒有包括需要成立救援隊,也沒有包括步行送午飯。但這場颶風沒有導致服務停運。#p#
5. SUV導致的停運
2007年11月13日,Rackspace的主機托管業(yè)務和在達拉斯同一個數(shù)據中心運行的成立才不久的Mosso Cloud公司因一輛失控的SUV而停運了數(shù)小時。
這輛大型四輪驅動汽車的司機是名糖尿病患者,他當時昏倒在方向盤前。這輛車不是突然轉向街道邊沿,而是完全加速直行,在丁字路口沒有轉彎,越過路緣徑直開到遠處的草徑上。草徑起到了斜面的作用,讓這輛SUV得以在空中越過一排泊著的汽車。它沖下來后又撞上了一幢大樓,這幢大樓里面正好放著Rackspace數(shù)據中心的電力變壓器,結果一下了斷了電。
就在切換過程連接電力公司的備用市電的時候,大樓的冷卻系統(tǒng)停了下來。計算處理過程沒有受到干擾,因為計算設備靠正是為這類突發(fā)事件而部署的應急電池繼續(xù)運行。電力公司接到急救人員正從一輛一頭撞到變壓器設備的汽車中搶救司機這個消息后,關閉了通向該數(shù)據中心的所有電力,結果擾亂了Rackspace的備用市電,于是數(shù)據中心的工作人員為大樓的冷卻器啟動了重啟過程。
電池電力再次啟動,應急發(fā)電機立馬開始運轉起來,而災難恢復方案要求這樣。盡管這次事件以及電網兩次停電,數(shù)據中心的處理到目前為止沒有受到中斷。然而,冷卻系統(tǒng)的大型冷卻器的多步驟啟動過程在重啟進行到一半受到了干擾,事實證明要不是進一步排查故障,不可能讓一些系統(tǒng)重啟。
Rackspace總裁Lew Moorman在事件后不久發(fā)布的博文中告訴客戶:“兩臺冷卻器沒有重啟,導致數(shù)據中心過熱。”計算設備散發(fā)的熱量足以讓溫度直線上升,于是Rackspace的管理人員實施了“分階段關閉設備的方法,以免設備損壞”,客戶數(shù)據因而丟失。
停電一直持續(xù)到晚上10點50分,此時事件已過去了5小時。軟件即服務提供商37signals(Rackspace為這家公司提供主機托管服務)告知自己的客戶:“這一連串的糟糕事件不僅擊跨了我們的系統(tǒng),還擊跨了我們數(shù)據中心先進的備用系統(tǒng)。我們會竭盡全力進一步分散我們的系統(tǒng),以便讓將來諸如此類的任何停運事件更少發(fā)生?!背思哟笫タ蛻舻娘L險外,這起事件據稱還讓Rackspace退款350萬美元,損失慘重。
6. 焊工引起的癱瘓
2015年1月9日,由于一名焊工的吹管不小心引燃了旁邊的建筑材料,原準備作為亞馬遜網站未來數(shù)據中心的一幢大樓發(fā)生了火災。這場大火很快變成了維吉尼亞州阿什本一處地方的三級大火。幾英里開外的地方也能見到滾滾濃煙。亞馬遜發(fā)言人告訴美國廣播公司新聞網駐地方辦事處:這場大火造成約10萬美元的損害,不過補充說“沒有影響亞馬遜運營的風險”,因為該數(shù)據中心還沒有投入使用。#p#
7. 太陽風暴
萬一嫌火災、洪水和四輪驅動車事故還不夠鬧心,總是會出現(xiàn)這種小概率事件:太陽風暴襲擊地球大氣層。太陽耀斑過后有時會出現(xiàn)所謂的太陽風暴,來自太陽表面的日冕物質噴射會沿著與之前的太陽耀斑同樣的軌跡,遠離太陽表面。
這一連串事不常發(fā)生,但是一旦發(fā)生,太陽耀斑似乎會為噴射清理出一條路線,以便高速噴射到太空。隨著帶電粒子接近地球大氣層,它們會因高速而形成強磁性。磁場會誘導長長的導電材料,比如導電電纜。管道和電話系統(tǒng)提供了另外的長長導電體,能夠捕捉到電荷。
這種威脅對倫敦勞埃德保險公司(Lloyds of London)來說足夠嚴重,于是發(fā)布了一份風險評估報告:《北美電網面臨的太陽風暴風險》。
據這份報道聲稱:“電力可靠性面臨的一個嚴重威脅就是磁暴――太陽風暴在地球大氣層的上層引起的嚴重干擾……它們誘導的電流會讓電網系統(tǒng)出現(xiàn)過載,從而引發(fā)電壓崩潰,或者更糟糕的是,損壞數(shù)量眾多的價格不菲的特高壓變壓器?!?/p>
1989年,加拿大就遭遇了這樣一起太陽風暴,電涌導致變壓器損壞,結果魁北克水力發(fā)電公司的電網陷入癱瘓。據估計,1859年美國發(fā)生的一起規(guī)模較小的太陽風暴(名為卡林頓事件)讓幾名正在作業(yè)的報務員觸電,并且導致幾個電報局著火。1989年的那起事件導致東北電力協(xié)調委員會和中大西洋地區(qū)委員會的斷路器和防護裝備失效,幾乎讓成員電網出現(xiàn)連鎖反應式崩潰。電涌損壞發(fā)電機的升壓變壓器后,新澤西州的一家核電廠不得不停止運行。
較晚些時候,2012年也發(fā)生過一場太陽風暴。
結束語
雖然所有這些場景讓最身經百戰(zhàn)的數(shù)據中心運營者也嚇出一身冷汗,不過好消息是,本文中提到的所有企業(yè)組織都設法從任何災難恢復方案根本預料不到的一連串事件后迅速恢復了過來。
你有沒有任何僥幸脫險的經歷?災難發(fā)生后迅速恢復方面有何忠告或建議?你最擔心的數(shù)據中心災難噩夢又是什么?歡迎留言交流!
英文:7 data center disasters youll never see coming
當前名稱:七大數(shù)據中心災難:小概率事件也要提防
文章來源:http://www.dlmjj.cn/article/djdsdso.html


咨詢
建站咨詢
