簡析中石油郵件系統(tǒng)管理實踐
羅玲 2009/09/23
中石油擁有龐大的企業(yè)級電子郵件平臺,應(yīng)用業(yè)務(wù)服務(wù)管理之后,整合了IT信息,可迅速定位故障的根源。
業(yè)務(wù)服務(wù)管理(Business Service Management,BSM)已逐漸成為IT管理領(lǐng)域的一個新的熱點。業(yè)務(wù)服務(wù)管理彌補(bǔ)了傳統(tǒng)IT管理理念缺乏對業(yè)務(wù)和IT關(guān)聯(lián)關(guān)系問題的思考,明確提出了保持業(yè)務(wù)目標(biāo)和IT目標(biāo)相統(tǒng)一,構(gòu)建業(yè)務(wù)和IT的溝通平臺,通過業(yè)務(wù)視角傳遞IT價值的觀點。
下面以中國石油郵件運(yùn)維平臺為例,介紹其業(yè)務(wù)服務(wù)管理的實踐過程。
五大著眼點
業(yè)務(wù)服務(wù)管理致力于為企業(yè)解決以下五個方面的問題。
第一,管理信息共享。
出于對IT資源專業(yè)化、精細(xì)化管理的要求,企業(yè)部署了諸多的監(jiān)控管理工具,用于監(jiān)控企業(yè)內(nèi)部IT環(huán)境的各個方面。一般來說,這些監(jiān)控工具往往來自于不同的廠商,彼此之間缺乏信息共享的手段。而管理信息無法共享,直接帶來許多問題。首先,IT管理人員在發(fā)現(xiàn)和解決IT故障的時候,不得不同時使用多個管理操作臺(Console); 其次,加大了IT故障的分析難度,降低了解決問題的效率。業(yè)務(wù)服務(wù)管理可以有效整合企業(yè)已經(jīng)構(gòu)建的眾多IT監(jiān)控系統(tǒng),將分散的IT管理信息集中到一個單點的管理平臺中,從而信息得以充分共享。
第二,定位問題的根源。
目前,IT環(huán)境越來越復(fù)雜。當(dāng)一個IT組件出現(xiàn)問題時,往往會影響到很多關(guān)聯(lián)的組件,因此管理員會收到大量的衍生或者重復(fù)的告警信息。如何在最短的時間內(nèi),從大量的告警信息中,準(zhǔn)確定位出故障的根本原因,成為IT管理的關(guān)鍵。缺乏有效的根源問題定位能力,不僅會降低企業(yè)對IT部門的服務(wù)滿意度,也是IT部門內(nèi)部各子系統(tǒng)(如網(wǎng)絡(luò)、主機(jī)、數(shù)據(jù)庫)相互推委責(zé)任的根源。
業(yè)務(wù)服務(wù)管理能夠提供有效的根源問題定位能力,它著眼于企業(yè)的核心業(yè)務(wù)系統(tǒng),通過集中與業(yè)務(wù)相關(guān)的IT信息,根據(jù)業(yè)務(wù)邏輯和IT組件之間的關(guān)聯(lián)關(guān)系進(jìn)行建模,企業(yè)可以在業(yè)務(wù)模型中的任何一點進(jìn)行快速的根源問題分析和定位,大大提高了解決問題的速度和準(zhǔn)確度。
第三,評估故障影響范圍。
當(dāng)發(fā)現(xiàn)IT故障時,管理員不僅應(yīng)該關(guān)注故障本身,更應(yīng)該考慮該故障對業(yè)務(wù)系統(tǒng)的影響。比如同時收到了兩條告警信息,一條描述某個郵件服務(wù)器宕機(jī),另一條描述某個交換機(jī)的CPU利用率過高,此時應(yīng)該首先處理哪個故障?從技術(shù)角度來講二者都是非常嚴(yán)重的問題,但從對業(yè)務(wù)的影響范圍和程度看,顯然要優(yōu)先處理服務(wù)器宕機(jī)的告警,因為這條告警對業(yè)務(wù)的影響范圍更大; 但是如果該宕掉的郵件服務(wù)器只是某個服務(wù)器集群中的一個呢?顯然更應(yīng)該優(yōu)先處理CPU利用率高的交換機(jī)。業(yè)務(wù)服務(wù)管理通過幫助IT管理者構(gòu)建業(yè)務(wù)場景,將具體的IT故障放入相關(guān)的業(yè)務(wù)場景中進(jìn)行評估,讓管理員了解到IT故障的影響范圍和程度。
第四,評價業(yè)務(wù)服務(wù)水平。
業(yè)務(wù)服務(wù)管理將服務(wù)水平評價從IT層面提升到業(yè)務(wù)層面,基于構(gòu)建的業(yè)務(wù)模型,可以按照關(guān)鍵業(yè)務(wù)指標(biāo)(KPI)建立一套全面的業(yè)務(wù)服務(wù)評價體系,該體系更為準(zhǔn)確和全面地反映IT的運(yùn)行效果。
第五,基于角色的信息呈現(xiàn)。
IT信息已經(jīng)成為企業(yè)內(nèi)部一項重要的信息內(nèi)容。因此如何展現(xiàn)IT信息和IT運(yùn)維的結(jié)果,使之能夠被管理層這些非IT專業(yè)人士正確解讀,建立IT和業(yè)務(wù)部門的溝通平臺,成為IT部門的一項挑戰(zhàn)。此外,IT運(yùn)維團(tuán)隊也是由多個層次、多個專業(yè)領(lǐng)域、多種角色的人員構(gòu)成的,因此需要能夠基于角色來更為直觀地、簡練地展現(xiàn)信息。業(yè)務(wù)服務(wù)管理提供的可定制化的極具特色的業(yè)務(wù)服務(wù)視圖,可以幫助實現(xiàn)上述目的。
三步逐級實施
為了解決業(yè)務(wù)服務(wù)管理的問題,中國石油按照以下的過程進(jìn)行了基于業(yè)務(wù)服務(wù)管理的郵件系統(tǒng)運(yùn)維平臺的建設(shè)。
第一步,對郵件系統(tǒng)相關(guān)的IT信息進(jìn)行整合。
采用Novell提供的數(shù)據(jù)集成技術(shù),從已經(jīng)部署的眾多IT監(jiān)控工具中捕獲IT信息,并集中到業(yè)務(wù)服務(wù)管理平臺。被集成的系統(tǒng)包括: 上市和未上市的兩套郵件監(jiān)控系統(tǒng)、網(wǎng)管系統(tǒng)、協(xié)議監(jiān)控系統(tǒng)。被集中的數(shù)據(jù)包括: 郵件服務(wù)器、應(yīng)用進(jìn)程的實時狀態(tài)信息和實時告警信息; 網(wǎng)絡(luò)設(shè)備的實時狀態(tài)和實時告警信息; 關(guān)鍵協(xié)議的實時狀態(tài); 網(wǎng)絡(luò)鏈路、郵件服務(wù)器、應(yīng)用進(jìn)程的性能數(shù)據(jù)。
第二步,在數(shù)據(jù)集中的基礎(chǔ)上,進(jìn)行業(yè)務(wù)建模。
首先,從郵件系統(tǒng)入手,理清了郵件系統(tǒng)本身各個組件的結(jié)構(gòu)、作用,以及各組件間的關(guān)聯(lián)關(guān)系; 從網(wǎng)絡(luò)入手,理清了郵件服務(wù)器與網(wǎng)絡(luò)設(shè)備之間的連接情況,關(guān)鍵網(wǎng)絡(luò)設(shè)備的作用; 從管理入手,理清了郵件系統(tǒng)的組織結(jié)構(gòu)和管理區(qū)域及權(quán)限。
其次根據(jù)掌握的信息進(jìn)行建模。建模包括兩個方面,一是形成組件間的關(guān)聯(lián); 二是在關(guān)鍵組件上部署邏輯算法。邏輯算法也是根據(jù)業(yè)務(wù)邏輯和IT管理規(guī)則制定的。邏輯算法的應(yīng)用,極大地提高了根源問題定位的效率和準(zhǔn)確性。以西南區(qū)域郵件系統(tǒng)為例,影響西南郵件的因素有三類: 服務(wù)器、郵件應(yīng)用協(xié)議和關(guān)鍵鏈路。通常,當(dāng)連接某臺服務(wù)器的關(guān)鍵鏈路中斷時,相應(yīng)的服務(wù)器及其上的協(xié)議也會顯示異常狀態(tài)。我們會看到大量告警節(jié)點和信息,無法判斷故障的根本原因。通過在關(guān)鍵點上設(shè)置邏輯算法,當(dāng)發(fā)生上述異常時,只讓發(fā)生故障的關(guān)鍵鏈路節(jié)點變紅,而讓受之影響的服務(wù)器和協(xié)議節(jié)點處于靜默狀態(tài)(灰色顯示),從而使IT管理人員能夠直觀快速地判斷出故障的根源所在(如圖所示)。
第三步,在模型的基礎(chǔ)上,根據(jù)用戶的角色,定義直觀清晰的業(yè)務(wù)視圖。
基于業(yè)務(wù)服務(wù)管理的郵件系統(tǒng)運(yùn)維平臺的成功構(gòu)建,帶來了如下的好處: 首先,將原來分散在四套IT監(jiān)控管理系統(tǒng)中的信息集中在一起,提高了信息分析能力,降低了IT人員的工作負(fù)荷; 其次,在郵件業(yè)務(wù)模型中的任何節(jié)點,均可進(jìn)行根源問題分析和定位,提高了故障解決速度,也避免各系統(tǒng)之間的推委; 第三,將具體的IT問題放到業(yè)務(wù)場景中進(jìn)行評價,使IT人員能夠更為準(zhǔn)確地在第一時間解決對企業(yè)業(yè)務(wù)最重要、最緊迫的IT問題; 第四,通過建立多種業(yè)務(wù)監(jiān)控視圖,使監(jiān)控更為清晰和直觀,同時企業(yè)內(nèi)的非IT人員也能夠了解IT信息。
中石油郵件系統(tǒng)介紹
中國石油郵件系統(tǒng)現(xiàn)已成為中國石油應(yīng)用最普遍、覆蓋面最廣、最為重要的應(yīng)用系統(tǒng),同時也是世界上最大的企業(yè)級的電子郵件平臺之一。除基本郵件收發(fā)功能外,它還肩負(fù)著為各應(yīng)用系統(tǒng)提供統(tǒng)一身份認(rèn)證的重任。目前,郵件系統(tǒng)的PC主機(jī)共有200個,注冊用戶50萬個,年收發(fā)郵件3000多萬封。
為了保證郵件系統(tǒng)的持續(xù)穩(wěn)定高效,中國石油部署了郵件監(jiān)控系統(tǒng),實現(xiàn)了對郵件服務(wù)器、郵件應(yīng)用進(jìn)程等的監(jiān)控; 部署了專業(yè)的網(wǎng)管系統(tǒng),實現(xiàn)了對企業(yè)網(wǎng)絡(luò)的監(jiān)控; 部署了應(yīng)用協(xié)議監(jiān)控系統(tǒng),實現(xiàn)了對關(guān)鍵應(yīng)用協(xié)議,如SMTP、POP3、HTTP等的監(jiān)控。眾多IT監(jiān)控系統(tǒng)的部署,實現(xiàn)了對郵件系統(tǒng)的專業(yè)化、精細(xì)化管理。
圖:設(shè)置邏輯算法之后的業(yè)務(wù)模型
計算機(jī)世界報
相關(guān)鏈接: