6月6日消息,在首次云端平臺使用者大會(Google Cloud Platform Global User Conference)上,谷歌的兩位領(lǐng)導(dǎo)者——數(shù)據(jù)中心的運營副總裁Joe Kava和安全隱私方面的優(yōu)秀工程師Niels Provos向與會者分享了谷歌在全球范圍內(nèi)設(shè)計、構(gòu)建、運行和保護(hù)數(shù)據(jù)中心的實踐方式,其中包含一些令谷歌的數(shù)據(jù)中心獨一無二的秘訣,及其對于谷歌云端平臺用戶的意義。
安全性和數(shù)據(jù)保護(hù)
谷歌一直以來將重心放在數(shù)據(jù)的安全和保護(hù)上,這也是我們的關(guān)鍵設(shè)計準(zhǔn)則之一。在物理安全方面,我們以分層安全模型為特色,使用了如定制的電子訪問卡、警報器、車輛進(jìn)出限制、圍欄架設(shè)、金屬探測器及生物識別技術(shù)等保障措施。數(shù)據(jù)中心的地板配備了激光束入侵探測器,并安裝了高清晰度的內(nèi)外監(jiān)視器,全天候檢測追蹤入侵行為。此外為以防萬一,可隨時調(diào)用訪問日志、活動記錄以及監(jiān)控錄像。
同時數(shù)據(jù)中心還安排了經(jīng)驗豐富的保安人員每日例行巡邏,他們已接受過背景調(diào)查與嚴(yán)格的培訓(xùn)(可以點擊查看數(shù)據(jù)中心的360度視頻)。越靠近數(shù)據(jù)中心,安全措施系數(shù)就越高,只有一條安全通道能進(jìn)入數(shù)據(jù)中心,通過安全徽章和生物識別技術(shù)來實現(xiàn)多重訪問控制,只有特定職位的員工才有權(quán)進(jìn)入。在整個谷歌公司,只有不到1%的員工曾踏足此區(qū)域。
我們還采用了非常嚴(yán)格的點對點監(jiān)管鏈,用于儲存、追蹤全過程——從第一次HD輸入機(jī)器直至證實其已被銷毀或清除。同時,我們采用了信息安全和物理安全雙管齊下的方式,由于數(shù)據(jù)通過網(wǎng)絡(luò)傳輸?shù)奶匦,若未?jīng)授權(quán)可隨意訪問的話就會非常危險。有鑒于此,谷歌將數(shù)據(jù)傳輸過程中的信息保護(hù)擺在優(yōu)先位置上,用戶設(shè)備與谷歌間的數(shù)據(jù)傳輸通常都是利用HTTPS/TLS(安全傳輸層協(xié)議)來進(jìn)行加密輸送。谷歌是第一個默認(rèn)啟用HTTPS/TLS的主要云服務(wù)提供商。
谷歌自建硬件和監(jiān)測系統(tǒng)
谷歌的服務(wù)器不包括那些不必要且會產(chǎn)生漏洞的組件,比如顯卡、芯片組、外圍連接器。谷歌的生產(chǎn)服務(wù)器運行著基于Linux精簡版和硬化版定制的操作系統(tǒng),且這些服務(wù)器和操作系統(tǒng)只為谷歌一家提供服務(wù)。服務(wù)器的資源是動態(tài)分配的,允許靈活增長與快速高效地適應(yīng),同時還能根據(jù)客戶的需求來添加或重新分配資源。
團(tuán)隊還必須在谷歌的基礎(chǔ)架構(gòu)狀態(tài)與功能上增加先進(jìn)的實時可視性功能。眾所周知,谷歌在數(shù)據(jù)方面極度用心。為了協(xié)助團(tuán)隊,谷歌已為所有的功能區(qū)域配備了監(jiān)測與控制系統(tǒng),包括服務(wù)器、存儲、網(wǎng)絡(luò)系統(tǒng)、配電房、機(jī)械冷卻系統(tǒng)以及安全系統(tǒng)——我們?nèi)轿坏貙?ldquo;從芯片到冷卻裝置”的性能和操作進(jìn)行監(jiān)測。
利用機(jī)器學(xué)習(xí)來優(yōu)化數(shù)據(jù)中心操作系統(tǒng)為了努力實現(xiàn)這一目標(biāo),我們利用機(jī)器學(xué)習(xí)和深度學(xué)習(xí)算法來優(yōu)化數(shù)據(jù)中心的操作系統(tǒng)。正如想象的那樣,我們的數(shù)據(jù)中心內(nèi)部大而復(fù)雜,所有電氣、機(jī)械和控制系統(tǒng)協(xié)力只為提供最優(yōu)性能。對常人而言,由于系統(tǒng)之間的交互信息與可能的設(shè)置十分復(fù)雜,很難想象怎樣實時優(yōu)化數(shù)據(jù)中心;但對于電腦來講,運算這些可能的情境并找到最佳設(shè)置簡直小菜一碟。
過去幾年內(nèi),我們開發(fā)出了這套算法,并使用全世界谷歌網(wǎng)站數(shù)以億計的數(shù)據(jù)點對其進(jìn)行了訓(xùn)練。我們現(xiàn)在利用這個機(jī)器學(xué)習(xí)模型幫助數(shù)據(jù)可視化,以便運營團(tuán)隊為數(shù)據(jù)中心配置電力與冷卻裝置,以確保指定時間的性能達(dá)到最優(yōu)最高效(考慮到影響性能的自變量多達(dá)19個),幫助團(tuán)隊找出難以一眼發(fā)覺的不連續(xù)或者效率不高的數(shù)據(jù)點。
以可再生能源為動力
在能源方面,我們致力于利用可再生能源來為基礎(chǔ)設(shè)施提供動力,谷歌在可再生能源方面是全世界最大的私人投資者。截至目前,谷歌已經(jīng)在可再生能源的“能源采購標(biāo)準(zhǔn)協(xié)議”上投入了超過20億美元,這些協(xié)議重要的原因在于:谷歌計劃在未來10-20年間繼續(xù)投資購買風(fēng)能和太陽能;這些風(fēng)電場和谷歌數(shù)據(jù)中心有著相同的電網(wǎng)系統(tǒng);風(fēng)電場和數(shù)據(jù)中心共享電網(wǎng)系統(tǒng),為項目開發(fā)人員提供建立項目所需的財務(wù)保證,因此我們明白:除了可再生能源之外,不會再通過其他方式來發(fā)電。
冷卻方面,平均每12-18個月我們會對基本的冷卻技術(shù)進(jìn)行重新設(shè)計。通過這種方式,我們所開發(fā)的水冷系統(tǒng)在創(chuàng)新上占據(jù)領(lǐng)先地位,使用水源包括海水、工業(yè)大壩水、回收水及灰水(污染較輕的生活用水)、收集重用的雨水,并涉及了熱能儲存。此外我們還設(shè)計了不使用水冷系統(tǒng)的數(shù)據(jù)中心,這種系統(tǒng)100%依靠室外空氣自然冷卻。關(guān)鍵是:并沒有“一體適用”的解決方案,每個數(shù)據(jù)中心會根據(jù)特定的位置設(shè)計出適合自己的冷卻方案,以求能達(dá)到最高性能和最高效率。
數(shù)據(jù)中心由谷歌自行運營,不通過第三方
設(shè)計與建立方面的行業(yè)規(guī)范削減了對用戶手冊和圖紙的需求,直通正確的解決方案,運營者無需憑借僥幸。一般來講,運營團(tuán)隊受雇于低價攬活的外包商,而不是業(yè)主本身,但在谷歌并非如此,我們有自己的雇員來管理、運營數(shù)據(jù)中心。在運營時有這樣的慣例:問題和錯誤常在午夜出現(xiàn)——通常是周日的午夜,因為那時沒人隨時待命處理問題。
工程師+運營團(tuán)隊的組合
對于所雇的員工和他們運營數(shù)據(jù)中心的方式,我們采取了不同的態(tài)度:工程師和運營專家的背景各不相同,但卻有個共同點——他們都是系統(tǒng)思考者。團(tuán)隊的很多成員有關(guān)鍵業(yè)務(wù)方面的背景,比如美國海軍核潛艇項目,在這些項目中,任何錯誤都會釀成災(zāi)難性后果,因此他們很懂系統(tǒng)的交互方式。此外,谷歌在所有數(shù)據(jù)中心園區(qū)還成立了區(qū)域站點團(tuán)隊,由負(fù)責(zé)設(shè)計和施工的工程師及運營團(tuán)隊共同組建而成,這些綜合團(tuán)隊共同負(fù)責(zé)構(gòu)建、調(diào)試系統(tǒng)以及提供全天候運營服務(wù),從而賦予了我們對基礎(chǔ)架構(gòu)無與倫比的自治權(quán)。