2018年第四屆數(shù)據(jù)中心基礎(chǔ)設(shè)施峰會,華為智能DC管理系統(tǒng)產(chǎn)品規(guī)劃經(jīng)理魯楠分享了題為《華為DCIM+智能運(yùn)維管理技術(shù)和實(shí)踐》
以下為精彩演講實(shí)錄(有刪減)
今天我要分享的是基于華為實(shí)際運(yùn)營經(jīng)驗(yàn)的數(shù)據(jù)中心運(yùn)維管理平臺,我們把管理平臺定義為DCIM+,是遠(yuǎn)遠(yuǎn)高于業(yè)內(nèi)DCIM的定義的,所以我們希望通過這么一個+,把我們數(shù)據(jù)中心的管理理念或者管理的方面使用到一個新的程度。
數(shù)據(jù)中心營維的挑戰(zhàn)
數(shù)據(jù)中心在新的產(chǎn)業(yè)階段面臨著如何運(yùn)營好大型化和集群化數(shù)據(jù)中心的問題,以華為以及金融的兩地三中心的數(shù)據(jù)中心為代表,數(shù)據(jù)中心已經(jīng)到了非常大規(guī)模的程度,單個數(shù)據(jù)中心基本上也都會達(dá)到上萬的規(guī)模,同時互聯(lián)網(wǎng)數(shù)據(jù)中心IDC發(fā)展更迅速,一些運(yùn)營商在規(guī)劃數(shù)據(jù)中心的時候一次就能規(guī)劃16、17棟樓。所以在這么大的數(shù)據(jù)中心產(chǎn)業(yè)發(fā)展基礎(chǔ)上,我們?nèi)绾胃媒?jīng)營這個數(shù)據(jù)中心是現(xiàn)在大家面臨的一個最新的挑戰(zhàn)。具體來講有以下四點(diǎn):
第一,運(yùn)維的挑戰(zhàn)。目前智能化逐漸融入各行各業(yè),但是落到咱們數(shù)據(jù)中心的運(yùn)維過程中仍然是一個非常原始的方式,大量的數(shù)據(jù)中心仍然靠人工每天6次、12次的巡檢,人工現(xiàn)場去檢查各種故障和隱患,這樣是非常低效的。而且由于人工操作帶來的事故變相增多。根據(jù)相關(guān)研究報告顯示,包括我們自身的實(shí)踐也可以看到,大多數(shù)的事故并不是起源于設(shè)備本身,而起源于人為的失誤,人參與越多產(chǎn)生的問題越多,所以下一步我們所希望的也是客戶所希望的是,通過智能化的、系統(tǒng)的方式降低運(yùn)維的難度和對人工運(yùn)維的依賴,提升運(yùn)維效率。
第二,管理的問題。數(shù)據(jù)中心規(guī)模的不斷擴(kuò)大,如何面對管理的壓力?首先專業(yè)運(yùn)維人員短缺的問題,其次是面臨分散的、大規(guī)模的數(shù)據(jù)中心,如何保障管理水平的一致性。例如華為在全球有170多個數(shù)據(jù)中心,如何保障分散化的數(shù)據(jù)中心管理的一致性,如何保障每一個數(shù)據(jù)中心執(zhí)行不同的等級管理標(biāo)準(zhǔn),這是非常嚴(yán)峻的問題。
第三,成本的問題。因?yàn)楦呔硬幌碌碾娰M(fèi),現(xiàn)在越來越多的數(shù)據(jù)中心高層已經(jīng)把能耗變成運(yùn)維部門的一個KPI,因此大家對這個都非常重視。
最后,運(yùn)營的挑戰(zhàn),F(xiàn)在行業(yè)上大部分?jǐn)?shù)據(jù)中心是缺乏運(yùn)營的,具體表現(xiàn)在3個說不清楚上。第一錢花在哪里說不清楚,比如具體電費(fèi)花在哪里、運(yùn)維人員的人力和費(fèi)用說不清楚。第二有些錢該不該花說不清楚,比如說我們要上一套運(yùn)維的管理平臺,具體它的價值在哪里,它能給我的數(shù)據(jù)中心帶來多少收益?這個說不清楚。第三個要不要再花說不清楚,什么時候我們的數(shù)據(jù)中心開始要擴(kuò)容了,什么時候我們要去外面再租一個數(shù)據(jù)中心,我們現(xiàn)有的資源有沒有得到充分利用,這一點(diǎn)是很多數(shù)據(jù)中心的管理者非常頭痛的一個問題。
基于以上這幾個問題,下面介紹一下華為在數(shù)據(jù)中心智能的運(yùn)維管理平臺DCIM+產(chǎn)品化方面的一些實(shí)踐經(jīng)驗(yàn)。
首先監(jiān)控底層數(shù)字化的問題,華為基于在通信方面豐富的經(jīng)驗(yàn)優(yōu)勢,把所有自己的設(shè)備做了智能化,我們現(xiàn)在不僅僅做到IO化,希望未來做到IOT化,希望通過5G的方式,這樣就可以更好保障數(shù)據(jù)的準(zhǔn)確性,保障我們更多獲取到基礎(chǔ)設(shè)施數(shù)字化的數(shù)據(jù)。
第二是網(wǎng)絡(luò)化的內(nèi)容,現(xiàn)在絕大多數(shù)的DCIM中間這一層主要是采集器,而我們現(xiàn)在希望把它打造成一個邊緣的計算中心,這個計算中心的作用在于數(shù)據(jù)的處理,我們監(jiān)控的一些數(shù)據(jù)通過這個采集去傳的話,比如不同品牌、不同廠家設(shè)備的協(xié)議統(tǒng)一,就是數(shù)據(jù)模型的統(tǒng)一都會在這個上面進(jìn)行出路,同時加入AI的特性,比如圖像識別的特性。前一段時間在上海華為已經(jīng)發(fā)布了AI芯片,將來也會內(nèi)置在邊緣計算當(dāng)中,保證數(shù)據(jù)中心基礎(chǔ)設(shè)施的數(shù)字化得到完整的呈現(xiàn)。再往上一層是我們的云平臺,就是DCIM的軟件,主要做一些數(shù)據(jù)的處理和分析,包括我們對于資源的管理,對于運(yùn)維的管理以及輔助決策的能力。
華為DCIM+的實(shí)踐
- 第一個是全流程的電子運(yùn)維,包括巡檢的操作、維保的操作、應(yīng)急演練的操作,把所有的流程以及操作指導(dǎo)全部做到線上,實(shí)現(xiàn)了運(yùn)維質(zhì)量從原來靠人,靠人的責(zé)任心,到現(xiàn)在靠流程管理的升級。華為通過后續(xù)的量化指標(biāo),通過全流程電子化的運(yùn)維跟蹤,量化原來沒有辦法量化的,比如維護(hù)保養(yǎng)巡檢的執(zhí)行力、運(yùn)維活動的質(zhì)量。此外,通過流程去跟蹤風(fēng)險遠(yuǎn)遠(yuǎn)比依靠個人的責(zé)任心去跟蹤風(fēng)險有效可靠得多,目前我們在短短幾個月時間發(fā)現(xiàn)風(fēng)險的條目就已經(jīng)增加了十幾倍,這意味著你平時發(fā)現(xiàn)的隱患或者發(fā)現(xiàn)的風(fēng)險越多,越容易避免非常大的重大事故。
- 第二個是運(yùn)營可視化的實(shí)踐。這與第一點(diǎn)是相互關(guān)聯(lián)的,因?yàn)榱炕羞\(yùn)維活動的數(shù)字,也是某種意義上的可視化。通過可視化,傳統(tǒng)的監(jiān)控數(shù)據(jù)信息可以更直觀的呈現(xiàn)出來。華為全部采用3D的模式,在DCIM+管理系統(tǒng)里面,客戶想看和想查找的的信息一目了然,操作也十分便捷,和現(xiàn)場的實(shí)際情況是一樣的;根據(jù)可視化的數(shù)據(jù)信息,我們運(yùn)營分析因此也可以做到可視化,比如機(jī)柜的使用率,資源的出資情況、剩余情況等等,都可以進(jìn)行可視化管理,為客戶提供更好的體驗(yàn)。
- 第三個實(shí)踐是數(shù)字化的管理,更確切的說是數(shù)字化的決策。在做數(shù)據(jù)中心容量規(guī)劃過程中,比如我們服務(wù)器具體上架的最佳位置,現(xiàn)在更多是靠人的主觀性判斷,沒有數(shù)據(jù)做決策支撐。因此在華為DCIM+里面,我們疊加了上架的算法,不僅僅是上架,包括空間的規(guī)劃、電力的規(guī)劃等等,全都放到系統(tǒng)里面。所以我們在業(yè)務(wù)運(yùn)行的過程中需要做決策的時候,系統(tǒng)會基于能效更優(yōu)還是利用率更平衡等幾種模式做出推薦,同時還會針對不同的業(yè)務(wù)使用方的使用率進(jìn)行一個動態(tài)的評估,這樣可以讓你更好調(diào)度這些資源,充分挖掘現(xiàn)有數(shù)據(jù)中心的潛力。
最后一個實(shí)踐就是我們在AI方面的進(jìn)一步探索,將被動式運(yùn)維變成預(yù)測性和主動式維護(hù),改變傳統(tǒng)的人工運(yùn)維模式。例如我們需要現(xiàn)場更換一些易損的部件,以電池為例(因?yàn)楝F(xiàn)在的監(jiān)控系統(tǒng)是覆蓋不到的),可以引入AI和大數(shù)據(jù)的方式,把圖像識別、聲音識別等類似的傳感器放在一起做AI方面的判斷,減少大家現(xiàn)場的工作。另外就是指導(dǎo)人,為決策做支撐,讓大家的價值發(fā)揮到最大,比如專家的經(jīng)驗(yàn)覆蓋到更多的數(shù)據(jù)中心,讓大家的決策更加準(zhǔn)確和正確。
關(guān)于網(wǎng)絡(luò)安全的話題。眾所周知,數(shù)據(jù)中心的網(wǎng)絡(luò)安全非常重要,但是基礎(chǔ)設(shè)施的網(wǎng)絡(luò)安全可能大家關(guān)注的非常少,其實(shí)隨著設(shè)備的智能化程度越來越高,包括更多的端口的出現(xiàn),我們面臨的風(fēng)險也會越來越高,包括身份的篡改等等都會出現(xiàn),只有全面的掌握可能的威脅才有可能進(jìn)行系統(tǒng)的防御。
華為做了非常多的信息安全工作,當(dāng)然不僅僅是公司級的,包括我們自己的產(chǎn)品-華為數(shù)據(jù)中心DCIM+的產(chǎn)品,我們的軟件產(chǎn)品,全部通過國家公安部最高等級的信息安全認(rèn)證,可以充分保證基礎(chǔ)設(shè)施的網(wǎng)絡(luò)安全。
華為基于云的DCIM+,是一站式的多DC管理系統(tǒng),你只需要一個手機(jī)APP,一鍵就可以看到DC狀態(tài);通過云化的DCIM+可實(shí)現(xiàn)后續(xù)數(shù)字化、可視化的運(yùn)維和管理,提升DC營維效率。