Facebook再次顛覆了數(shù)據(jù)中心基礎(chǔ)設(shè)施管理的傳統(tǒng)理念,將過去相對獨(dú)立的機(jī)房設(shè)施和服務(wù)器硬件數(shù)據(jù)納入統(tǒng)一的管理軟件。
還記得2012年6月底的“閏秒事件”嗎?當(dāng)時網(wǎng)絡(luò)上關(guān)于Java、Hadoop和Apache Cassandra數(shù)據(jù)庫等技術(shù)的閏秒問題吐槽聲不斷。包括Reddit、Foursquare等大型網(wǎng)站紛紛中招,F(xiàn)acebook服務(wù)器CPU使用率瞬間升至100%,耗電量瞬間飆升,導(dǎo)致Facebook位于弗吉尼亞數(shù)據(jù)中心的斷路器發(fā)生故障,結(jié)果300個機(jī)架宕機(jī)。
一個不起眼的閏秒問題給互聯(lián)網(wǎng)帶來的實(shí)質(zhì)性沖擊遠(yuǎn)遠(yuǎn)超過Y2K問題!
而對于Facebook的工程師來說,從閏秒問題能吸取的最大教訓(xùn)就是考慮開發(fā)出能整合第三方建筑管理軟件和Facebook自主開發(fā)的服務(wù)器性能監(jiān)測工具的新型管理軟件。
Facebook網(wǎng)站運(yùn)營副總裁Tom Furlong最近在接受媒體采訪的時候透露,F(xiàn)acebook最新的數(shù)據(jù)中心管理軟件能夠?qū)囟、濕度等戶外信息與整棟建筑的能耗,以及CPU存儲和內(nèi)存方面的數(shù)據(jù)進(jìn)行綜合分析和管理。
過去幾個月中,F(xiàn)acebook推出了新版本的數(shù)據(jù)中心基礎(chǔ)設(shè)施管理(DCIM)項(xiàng)目,以及一個全新的集群規(guī)劃系統(tǒng)用于將所有數(shù)據(jù)都可視化。Facebook計劃今年內(nèi)更大范圍地推廣其DCIM項(xiàng)目。
Facebook新推的數(shù)據(jù)中心管理軟件可以減少工程師設(shè)計數(shù)據(jù)中心性能優(yōu)化方案的時間。“從過去的12小時縮短到半個小時”Furlong說道。
與此同時,一體化的數(shù)據(jù)中心管理軟件還能幫助Facebook進(jìn)一步提高其數(shù)據(jù)中心的能耗效率,同時減少了新建數(shù)據(jù)中心的需求。
Furlong預(yù)計Facebook將在明年1月的開放計算峰會上討論一體化數(shù)據(jù)中心管理軟件,但還不確定是否會像Open Compute Project的數(shù)據(jù)中心硬件設(shè)計一樣向公眾公開。目前的一體化管理軟件中集成了很多Facebook自有的監(jiān)控工具,而這些是Facebook所不愿意公開的。