數(shù)據(jù)中心正在對閃存“狼吞虎咽”,但也有些“消化不良”的感覺──以上是中國云計算服務(wù)業(yè)者阿里巴巴(Alibaba)的數(shù)據(jù)中心部門首席技術(shù)專家Wu Peng,在近日于美國加州舉行的閃存高峰會(Flash Memory Summit)上發(fā)表演說時分享的實際經(jīng)驗。
Wu Peng表示,閃存供貨商最需要關(guān)注的是降低每GB成本,以及降低閃存的功耗與延遲,并提升可靠性;他指出,大多數(shù)閃存產(chǎn)品都會提供許多小時的故障間隔時間(mean time between failures,MTBF),以及多年保固:“但實際上我們遭遇不少性能規(guī)格表現(xiàn)低落的情況,因此我們正在尋找更穩(wěn)定、生命周期性能表現(xiàn)確實的產(chǎn)品。”
盡管面臨以上問題,閃存正在大舉進軍數(shù)據(jù)中心;阿里巴巴在去年所采購的閃存量,就占據(jù)全球企業(yè)用閃存消耗量的至少1%,而且其使用量仍在成長中。阿里巴巴自五年前就開始研究閃存儲存方案,該公司現(xiàn)在除了采用全閃存數(shù)據(jù)中心,也在內(nèi)容傳遞網(wǎng)絡(luò)(content distribution network)以及應用程序服務(wù)器中大量使用閃存。
去年阿里巴巴這家電子商務(wù)公司,創(chuàng)下了在24小時內(nèi)完成1.88億筆交易量,以及每秒1.5萬次交易的新高紀錄;為了穩(wěn)定跟上需求速度,應用程序需要更多所仰賴的、關(guān)于閃存運作情況的信息。Wu Peng表示:“故障是無法避免的,但最好是要讓系統(tǒng)在硬件將發(fā)生故障時預先得知,以判斷何時發(fā)出警告以及何時必須將數(shù)據(jù)備份。”
阿里巴巴想通過簡化硬件與軟件,以方便讓應用程序得知底層閃存的狀態(tài);這家大型數(shù)據(jù)中心營運商希望自己處理服務(wù)開通(provisioning)以及冗余(redundancy)問題,Wu Peng表示:“如果應用程序能知道很多信息,就能做很多事。”
在阿里巴巴近期遭遇的問題中,RAID控制器在與閃存共同使用時,糾錯(error correction)與電池備援會產(chǎn)生問題;同時Wu Peng表示,閃存供貨商太專注于提供更高速度的數(shù)據(jù)傳遞速率,卻太少關(guān)注降低延遲。
Wu Peng認為閃存有五大問題需要改善
長期來看,Wu Peng認為需要建立一個新的軟件編程模型,以應對不斷變化的儲存層次結(jié)構(gòu)以及閃存的出現(xiàn);此外,供貨商導向(vendor-driven)的軟件定義儲存(software-defined storage)概念仍在“非常粗略的方向”,能讓數(shù)據(jù)中心滿足不同應用的儲存需求。
而眾多新一代內(nèi)存如STT-MRAM與相變化內(nèi)存(phase-change memory)的崛起,也為數(shù)據(jù)中心帶來新的問題;Wu Peng表示:“有許多專利的事情被推給我們,但我們有困難去了解那些技術(shù)會失敗,以及何時是著手布署的正確時機。”
Wu Peng并邀請所有的供貨商擁有多樣化應用程序的阿里巴巴實驗室測試新產(chǎn)品:“我們有一個程序,測試可能最終會應用在我們基礎(chǔ)建設(shè)上的新東西;測試過程確實會很漫長,但我們一直歡迎新產(chǎn)品。”