模塊化數(shù)據(jù)中心已經(jīng)成為解決當今企業(yè)所面臨的不斷增長的數(shù)據(jù)處理需求的一種普遍的解決方案,越來越多的政府單位、企業(yè)正在考慮借助模塊化數(shù)據(jù)中心的諸多優(yōu)勢和其獨特的能力,以滿足各方面的數(shù)據(jù)處理需求。
PB級大數(shù)據(jù)帶來的挑戰(zhàn)
互聯(lián)網(wǎng)時代,尤其是社交網(wǎng)絡、電子商務、移動通信等把人類帶入一個以“PB”為單位的結(jié)構(gòu)與非結(jié)構(gòu)數(shù)據(jù)信息的新時代。那么PB級數(shù)據(jù)是什么概念?一提到數(shù)據(jù)量級,人們通常會聯(lián)想到美國國會圖書館。麥肯錫首席分析師Michael Chui指出,美國國會圖書館“在2011年4月前已經(jīng)收集了235TB的數(shù)據(jù),而一個PB相當于它的4倍。”
未來10年之內(nèi)人均,實時消費數(shù)據(jù)將達到PB級,是目前數(shù)據(jù)消費TB級的1000倍,如此大的數(shù)據(jù)處理需求將給現(xiàn)有的以計算為中心的傳統(tǒng)數(shù)據(jù)中心帶來一系列巨大挑戰(zhàn),包括實時數(shù)據(jù)處理、按需動態(tài)資源分配及調(diào)整、大規(guī)模系統(tǒng)運行的能效等諸多方面。從業(yè)務層面來看,亟需解決軟硬件資源統(tǒng)一管理、按需分配、合理調(diào)度,信息資源的共享交換、池化管理,形成一套“合規(guī)”的資源服務池,并從該池中按需獲取所需資源或服務。
“以數(shù)據(jù)為中心”的新型數(shù)據(jù)中心
在這種情況下,傳統(tǒng)的數(shù)據(jù)中心必然需要轉(zhuǎn)型,向以數(shù)據(jù)為中心的方向發(fā)展,能夠靈活地將任務調(diào)度到數(shù)據(jù)位置較近的處理單元。傳統(tǒng)數(shù)據(jù)中心的設計目標是能夠持續(xù)工作,設計者們要求所設計的產(chǎn)品能夠用幾百年不損壞、保持正常工作。設計者心目中的數(shù)據(jù)中心是一大堆物理設備孤立的堆砌;事實上,建立傳統(tǒng)數(shù)據(jù)中心最初的動機,就是管理好日益增多的物理設備,保持良好的環(huán)境,不要損壞和丟失,出了故障有人維修。并且傳統(tǒng)的數(shù)據(jù)中心資源孤立、且不能實現(xiàn)在整個數(shù)據(jù)中心的實時、動態(tài)調(diào)度,這也是傳統(tǒng)數(shù)據(jù)中心資源利用效率低下的根本原因。
隨著數(shù)據(jù)中心的發(fā)展,傳統(tǒng)數(shù)據(jù)中心的問題逐漸顯露。達夢數(shù)據(jù)中心在充分吸收傳統(tǒng)數(shù)據(jù)中心的問題基礎上,推出了“以數(shù)據(jù)為中心”的新型數(shù)據(jù)中心理念。從邏輯上看,達夢的新型數(shù)據(jù)中心提供一個全局的資源目錄,包含了各種應用系統(tǒng)的所有數(shù)據(jù),構(gòu)成了一個全局統(tǒng)一的邏輯數(shù)據(jù)庫。當用戶向這個虛擬的邏輯數(shù)據(jù)庫發(fā)起數(shù)據(jù)訪問請求時,它首先通過檢索全局資源目錄,回答該數(shù)據(jù)是否存在,然后從資源目錄信息中獲取其位置信息,如果該數(shù)據(jù)從物理位置上是存放在本地,則從本地物理庫中獲取,否則根據(jù)資源目錄信息中獲取的遠程位置信息,通過統(tǒng)一的遠程數(shù)據(jù)訪問接口來獲取實際數(shù)據(jù)。
由此可見,達夢的新型數(shù)據(jù)中心相當于是一個龐大的全局化邏輯庫,可以根據(jù)業(yè)務的需要,采用某種算法。而實際的物理庫中只會存放那些使用頻率相對較多的數(shù)據(jù),這樣既可以節(jié)約存儲資源,也能減少數(shù)據(jù)集中后所帶來的數(shù)據(jù)更新的代價。同時根據(jù)數(shù)據(jù)的訪問熱度,可實現(xiàn)對物理庫中數(shù)據(jù)的動態(tài)存儲管理,將最常使用的數(shù)據(jù)放到速度最快的內(nèi)存當中,次之的數(shù)據(jù)放到固態(tài)盤,一般的數(shù)據(jù)放到磁盤,較長時間不用的數(shù)據(jù)則移到外部磁盤磁帶中,而長期無人使用的數(shù)據(jù)會被清除以騰出空間。
模塊化實現(xiàn)高效部署
物聯(lián)網(wǎng)、互聯(lián)網(wǎng)等信息技術(shù)的快速發(fā)展帶來了數(shù)據(jù)爆炸式增長,為了適應大數(shù)據(jù)的發(fā)展趨勢,數(shù)據(jù)中心不斷擴大規(guī)模、提升性能,以支持越來越復雜的海量數(shù)據(jù)管理需求。
出于性能的考慮,一般對于經(jīng)常要使用的數(shù)據(jù)、以及分析應用所需要的數(shù)據(jù),要從遠程數(shù)據(jù)源中將數(shù)據(jù)抽取、交換到數(shù)據(jù)中心的目標數(shù)據(jù)庫進行集中處理。數(shù)據(jù)集中帶來處理方便、性能提升等好處的同時,也帶來了數(shù)據(jù)一致性的問題。如何以較小的代價、最快的速度將數(shù)據(jù)源中發(fā)生變化的數(shù)據(jù)傳遞到數(shù)據(jù)中心目標數(shù)據(jù)庫中進行更新,以保持兩邊數(shù)據(jù)的一致,已成為數(shù)據(jù)中心建設必須要考慮的問題。而達夢突破傳統(tǒng)解決之道,采取“模塊化”的數(shù)據(jù)中心建設思想,不僅實現(xiàn)數(shù)據(jù)同步、還實現(xiàn)了顯著的性能優(yōu)化。
首先,在數(shù)據(jù)交換層面,傳統(tǒng)的數(shù)據(jù)交換采用時間戳、觸發(fā)器、MD5等方式來捕獲增量數(shù)據(jù),使數(shù)據(jù)源的數(shù)據(jù)庫產(chǎn)生較大負載,延時也比較大。當數(shù)據(jù)量很大,同步時間要求很短的時候,傳統(tǒng)方案難以同時滿足處理性能和數(shù)據(jù)一致性的要求。達夢的模塊化數(shù)據(jù)中心則采用讀取數(shù)據(jù)源的數(shù)據(jù)庫運行日志文件的方法,從中分析出數(shù)據(jù)變化的情況,通過監(jiān)控日志文件的變化,能近乎實時地捕獲到數(shù)據(jù)變化,值得一提的是,這只占用的非常少量的操作系統(tǒng)監(jiān)控和讀取文件資源,對被監(jiān)控的數(shù)據(jù)庫實例的運行基本沒有影響。
其次,在數(shù)據(jù)中心建設方面,傳統(tǒng)的數(shù)據(jù)中心建設周期非常長,而達夢模塊化數(shù)據(jù)中心在現(xiàn)場部署的速度非常高效,主要是因為模塊化的數(shù)據(jù)分類預制,從數(shù)據(jù)處理的全生命周期這個角度來說,它主要分為數(shù)據(jù)采集抽取、數(shù)據(jù)整合管理、面向業(yè)務的數(shù)據(jù)服務、多樣化數(shù)據(jù)應用等四個方面,各自擁有統(tǒng)一接口、統(tǒng)一標準、統(tǒng)一頂層設計的模塊化產(chǎn)品,這些以達夢數(shù)據(jù)庫產(chǎn)品為核心的產(chǎn)品集合,為模塊化數(shù)據(jù)中心的快速部署奠定了堅實基礎。我們沿著數(shù)據(jù)管理生命周期的順序,通過了解模塊化數(shù)據(jù)中心內(nèi)部的管理機制,可發(fā)現(xiàn)達夢新型數(shù)據(jù)中心優(yōu)于傳統(tǒng)數(shù)據(jù)中心的特色亮點:
數(shù)據(jù)交換:從其他業(yè)務系統(tǒng)采集數(shù)據(jù)、訪問數(shù)據(jù)時,數(shù)據(jù)交換平臺可針對交換頻繁、數(shù)據(jù)量極大的自動采集需求,使用達夢異構(gòu)數(shù)據(jù)實時同步工具處理“海量密集,實時異構(gòu)”的采集需求。而針對交換頻度較低,但有一定清洗轉(zhuǎn)換要求的自動采集需求,使用ETL工具定時處理“定期采集,清洗轉(zhuǎn)換”的采集需求。針對涉密敏感、不允許直接交換的數(shù)據(jù),使用請求服務引擎實現(xiàn)“按需訪問,數(shù)據(jù)自治”的查詢比對需求。
數(shù)據(jù)管理:在數(shù)據(jù)交換、采集完成后,需要對數(shù)據(jù)進行整合和梳理,數(shù)據(jù)管理平臺可實現(xiàn)該類需求。對于整合來的各類項目數(shù)據(jù)資源,針對多種采集渠道、承載方式,數(shù)據(jù)資源管理平臺均采用一致的方式進行可視化管理和維護,將碎片離散的信息整體呈現(xiàn)。同時,針對各類信息資源的業(yè)務屬性描述、來源信息等內(nèi)容,通過元數(shù)據(jù)管理進行統(tǒng)一描述、統(tǒng)一歸集、統(tǒng)一管理,使信息資源的重用成為可能。針對數(shù)據(jù)歸集過程中,數(shù)據(jù)不一致、不準確的情況,主要基于質(zhì)量管理平臺進行質(zhì)量管理和提升,基于質(zhì)量規(guī)則,發(fā)現(xiàn)各類數(shù)據(jù)質(zhì)量問題,給出質(zhì)量整改門戶,推進數(shù)據(jù)整合的質(zhì)量提升。針對數(shù)據(jù)整合后的梳理和編目需求,主要依靠數(shù)據(jù)資源目錄系統(tǒng),按照業(yè)務屬性、提供單位、系統(tǒng)類型等因素進行編目梳理,使數(shù)據(jù)能夠被成功訪問和重用。針對所涉及的大量原始非結(jié)構(gòu)數(shù)據(jù),則是通過文檔管理系統(tǒng)進行統(tǒng)一管理,可以有效節(jié)約存儲空間,提供全文檢索等增值能力。
數(shù)據(jù)分析:數(shù)據(jù)整合后進行服務發(fā)布運用的過程,主要基于數(shù)據(jù)分析服務平臺來實現(xiàn)。針對數(shù)據(jù)整合建立數(shù)據(jù)倉庫、聯(lián)機分析的需求,主要采用BI分析平臺來實現(xiàn)數(shù)據(jù)倉庫建設、聯(lián)機分析設計、聯(lián)機分析呈現(xiàn)等功能。
數(shù)據(jù)呈現(xiàn):針對數(shù)據(jù)選擇性呈現(xiàn)需求,基于數(shù)據(jù)門戶可實現(xiàn)數(shù)據(jù)的組合及篩選處理,完成數(shù)據(jù)面向不同人員、不同環(huán)節(jié)、不同方式的選擇性呈現(xiàn)能力。
而數(shù)據(jù)服務平臺,則提供基于已整合數(shù)據(jù)的非可視化(API,REST,WEBSERVICE)數(shù)據(jù)服務接口,來滿足數(shù)據(jù)的橫向比對、縱向比對、跨業(yè)務系統(tǒng)的對接需求。針對數(shù)據(jù)中心及業(yè)務系統(tǒng)運轉(zhuǎn)的情況的可視化需求(如系統(tǒng)承載能力、訪問狀況、異常信息等),主要使用運維監(jiān)控系統(tǒng),通過監(jiān)控門戶、儀表盤、駕駛艙進行多角度可視化呈現(xiàn)。針對管數(shù)據(jù)的可視化呈現(xiàn)需求,基于數(shù)據(jù)展現(xiàn)應用提供基于已整合數(shù)據(jù)的可視化組件設計及呈現(xiàn)。
結(jié)語
在大數(shù)據(jù)時代,達夢數(shù)據(jù)庫堅持創(chuàng)新發(fā)展的技術(shù)路線,業(yè)界率先推行新型模塊化數(shù)據(jù)中心建設理念,以數(shù)據(jù)流為主線,實現(xiàn)從大數(shù)據(jù)存儲、數(shù)據(jù)交換、數(shù)據(jù)管理、數(shù)據(jù)分析到數(shù)據(jù)應用的全生命周期管理,并結(jié)合多年的項目建設與實踐經(jīng)驗,致力于為更多政府機關(guān)、各行業(yè)領域單位提供大數(shù)據(jù)平臺咨詢與技術(shù)服務,作為國產(chǎn)數(shù)據(jù)庫品牌的中堅力量、領軍企業(yè),為國產(chǎn)信息化建設貢獻力量!