如今的數(shù)據(jù)中心已經(jīng)承載著太多的重要業(yè)務,人們的生活早已經(jīng)離不開數(shù)據(jù)中心,它已經(jīng)成為了人們生活的一部分,一旦數(shù)據(jù)中心發(fā)生故障將給人們帶來很多不便和經(jīng)濟損失。因為每當數(shù)據(jù)中心發(fā)生故障后,既然可以通過一些歷史記錄去還原故障的發(fā)生原貌,對數(shù)據(jù)中心的未來發(fā)展建設都會很有借鑒意義。
絕大多數(shù)的數(shù)據(jù)中心都是運行在固定的建筑當中,不過也有一些可以移動的數(shù)據(jù)中心,這些移動的數(shù)據(jù)中心在工作時也基本是在固定的位置,這就和飛機有最大的不同。飛機發(fā)生墜毀一切設備都無法再繼續(xù)工作,現(xiàn)場也會被破壞,而數(shù)據(jù)中心是在固定的位置,故障現(xiàn)場依然可以被很好地保留著,這就為故障分析提供了很好的參考依據(jù)。從以往數(shù)據(jù)中心發(fā)生的故障來看,主要有三類:自然災害;人為故障;設備故障,這三個方面。90%以上的故障都來自于這三個方面。
對于地震、火災、雷擊等天然災害,從故障現(xiàn)場的受損情況就可以分析出來。比如雷擊,會產(chǎn)生強大的沖擊電流,打到設備上,就會引起設備器件短路,產(chǎn)生瞬間的高壓,使電路急劇生溫,輕微的可引起設備短路故障,嚴重的還能引起火災。對于這些自然災害,數(shù)據(jù)中心也有很多的技術手段可以最大程度上避免災害的發(fā)生,針對每一種自然災害數(shù)據(jù)中心都需要加以重視,才能躲避開這些自然災害。比如增加機柜和機房地面的固定螺絲,安裝避雷針,增加放火報警系統(tǒng)和防火器材。當出現(xiàn)這些自然災害時,減少對數(shù)據(jù)中心的沖擊。
人為故障占到了數(shù)據(jù)中心的故障中的70%,其中也可以分為有意的和無意的。有意的是指明知道一些操作會造成數(shù)據(jù)中心故障,仍執(zhí)意去做的,這些人往往希望通過造成數(shù)據(jù)中心運行癱瘓,而達到不可告人的目的。常見的有黑客、情報人員、商業(yè)機密小偷等等,他們攻擊的對象往往是數(shù)據(jù)中心里的數(shù)據(jù),通過造成數(shù)據(jù)中心故障來達到竊取或損壞數(shù)據(jù)的目的。無意的是指本意并不想破壞數(shù)據(jù)中心,但是由于自己的技術積累經(jīng)驗不夠或者疏忽,自己的操作引發(fā)了數(shù)據(jù)中心故障,這種故障占到了人為故障的80%以上。數(shù)據(jù)中心是一個復雜龐大的系統(tǒng),不可能一個人面面俱到都精通,當接觸到自己不熟悉或不了解的地方,操作往往引發(fā)意想不到的結果,因此加強對人的管理尤為重要。在對數(shù)據(jù)中心做任何調整時,都要從全局考慮,集中最優(yōu)秀的技術人員,將人為操作風險降低。這類事故往往也很容易留下證據(jù)記錄,給事故分析帶來方便。幾乎所有的數(shù)據(jù)中心都有門禁系統(tǒng)、視頻監(jiān)控系統(tǒng),任何人的出入都有記錄,很容易查到。有不少的數(shù)據(jù)中心提供遠程的訪問,那么所有的訪問操作在數(shù)據(jù)中心后臺數(shù)據(jù)中心都有記錄,訪問者對數(shù)據(jù)中心業(yè)務調整、修改配置、甚至重起設備等任何操作都會記錄在案,只要數(shù)據(jù)中心不是全面的毀滅,這些記錄都會在后臺的數(shù)據(jù)庫中查到,通過記錄的時間和訪問的人就可以查明人為事故的原因。
設備運行故障也是數(shù)據(jù)中心故障的一類,大型的數(shù)據(jù)中心擁有數(shù)千臺設備很普遍,這些電子設備難免運行中出現(xiàn)故障。一旦出現(xiàn)故障,就需要對設備進行分析,很多現(xiàn)場操作人員并不具備分析問題的能力,為了恢復業(yè)務,只能重起設備,或者將業(yè)務切割到別的備份設備上。當故障設備上沒有業(yè)務或者已經(jīng)重起了,其上很多時時記錄都會沖掉,這樣給故障分析帶來難度。很多時候故障的表現(xiàn)也并非集中在某一臺設備上,心急的操作人員可能將所有設備全部重啟或將業(yè)務全部割離,如果設備能提供詳細的歷史記錄,那么對于故障分析非常有幫助。數(shù)據(jù)中心不怕出故障,怕的是出了故障后找不到原因,這相當于給數(shù)據(jù)中心埋了一個定時炸彈。其實在很多高端設備上已經(jīng)增加了一些可以記錄歷史信息的模塊,比如采用NVRAM、EEPROM等非憶失性器件時時記錄設備運行的各種參數(shù),當設備發(fā)生故障后,哪怕是設備發(fā)生了斷電,這些器件依然可以正常運行,記錄下來設備運行的各種參數(shù),這些數(shù)據(jù)往往是故障后分析參考的最重要數(shù)據(jù)來源。當數(shù)據(jù)中心出現(xiàn)故障后,有的設備可以提供故障時設備運行的各種數(shù)據(jù)參數(shù),非常具有說服力,有時也是證明自己設備沒有問題的重要信息,而一旦在故障后,一些設備沒有可分析的數(shù)據(jù)記錄,根本分不清是不是自己的問題,這樣的設備很快就會被數(shù)據(jù)中心所棄用。如果通過數(shù)據(jù)分析是自己設備的問題,那么設備商依然可以根據(jù)這些數(shù)據(jù)去優(yōu)化設備設計,從而避免這類故障的再次發(fā)生,讓設備運行更加穩(wěn)定。
數(shù)據(jù)中心也有各種各樣的監(jiān)控手段和歷史信息記錄,這些技術為數(shù)據(jù)中心的穩(wěn)定運行提供了保障,也是不斷推動數(shù)據(jù)中心完善的重要舉措。如同飛機上的黑匣子,數(shù)據(jù)中心也有自己的一套故障定位信息獲取方案,這些信息可以在一定程度上有效還原故障時數(shù)據(jù)中心的完貌,通過對這些數(shù)據(jù)分析,不僅可以找到故障原因,還可以根據(jù)這些故障對數(shù)據(jù)中心進行優(yōu)化,避免發(fā)生二次故障。