Google的數(shù)據(jù)中心以高能效著稱。但是他們還不滿足,在今天的Data Centers Europe 2014上,Google數(shù)據(jù)中心副總裁Joe kava介紹了自己的公司是如何利用機(jī)器學(xué)習(xí)和人工智能來進(jìn)一步改進(jìn)數(shù)據(jù)中心能效的。
業(yè)界一般用PUE(電能使用效率)來衡量數(shù)據(jù)中心的能效,PUE=數(shù)據(jù)中心總設(shè)備能耗/IT設(shè)備能耗,其基準(zhǔn)值為2,越接近1表明能效越高。Google之前的PUE已經(jīng)達(dá)到了驚人的1.12,這說明其用于制冷與配電等的消耗已經(jīng)很少。
但是Google決定利用神經(jīng)網(wǎng)絡(luò)讓其數(shù)據(jù)中心能效更上一層樓。據(jù)Kava介紹,該項(xiàng)目屬于Google的20%項(xiàng)目。他們每30秒就計(jì)算一次PUE,還不斷跟蹤IT設(shè)備能耗、機(jī)外氣溫以及制冷和機(jī)械設(shè)備的設(shè)置情況等。而Google數(shù)據(jù)中心團(tuán)隊(duì)成員Jim Gao對這些數(shù)據(jù)非常熟悉,他意識到這些數(shù)據(jù)還可以進(jìn)一步利用。于是Gao通過機(jī)器學(xué)習(xí)對這些數(shù)據(jù)進(jìn)行研究,并建立起模型來預(yù)測并進(jìn)一步改進(jìn)數(shù)據(jù)中心能效。
結(jié)果表明,該模型的預(yù)測準(zhǔn)確率達(dá)到了99.6%(參見下圖)。如果高的準(zhǔn)確率意味著Google對數(shù)據(jù)中心下一步的能量需求情況了如指掌,從而可以通過設(shè)置調(diào)整進(jìn)一步提升能效。Kava舉了一個例子。幾個月前,他們有幾臺服務(wù)器要下線幾天,其結(jié)果是數(shù)據(jù)中心能效會有所降低。但利用Gao的模型他們臨時調(diào)整了制冷設(shè)置,從而降低了那段時間對PUE的影響。
上述情況下Google進(jìn)行電力基礎(chǔ)設(shè)施升級要重新調(diào)整40%的服務(wù)器流量,但是通過PUE仿真與專家知識的結(jié)合,團(tuán)隊(duì)選定了一套新的運(yùn)營參數(shù),從而將PUE再降了0.02。不要小看這個值,考慮到Google有成千上萬臺服務(wù)器,乘上巨大的能耗就是可觀的節(jié)能效果。
Gao在今天發(fā)布的白皮書上解釋了自己的做法。他說神經(jīng)網(wǎng)絡(luò)對復(fù)雜系統(tǒng)建模具有優(yōu)勢,因?yàn)樯窠?jīng)網(wǎng)絡(luò)不需要用戶預(yù)設(shè)模型的交互特征,而是在特征中尋找模式和交互,然后自動生成最佳匹配模型。
該神經(jīng)網(wǎng)絡(luò)研究的因素包括了服務(wù)器總負(fù)載,水泵、冷卻塔、冷水機(jī)組、干式冷卻器、運(yùn)行中的冷水注水泵數(shù)量;冷卻塔水溫、濕球溫度、戶外濕度、風(fēng)速、風(fēng)向等。Google利用傳感器部署了億萬個數(shù)據(jù)點(diǎn)來收集這些基礎(chǔ)設(shè)施和電能使用信息。不過令人略為驚訝的是,Google只用一臺服務(wù)器就能跑這個神經(jīng)網(wǎng)絡(luò)了。
Gao在白皮書中寫道,Google數(shù)據(jù)中心的實(shí)際測試表明,機(jī)器學(xué)習(xí)是利用傳感器數(shù)據(jù)對數(shù)據(jù)中心能效建模的一種有效方法,可帶來顯著的成本節(jié)省。不過國內(nèi)較為粗放式管理的數(shù)據(jù)中心恐怕短時間內(nèi)難以效仿。