欧美,精品,综合,亚洲,好吊妞视频免新费观看,免费观看三级吃奶,一级a片女人自慰免费看

 首頁 > 新聞 > 專家觀點 >

新一代數(shù)據(jù)中心的分布式計算架構(gòu)

2014-06-11 11:02:20   作者:   來源:中關(guān)村在線   評論:0  點擊:


  2.分布式架構(gòu)應用現(xiàn)狀

  當前主流的分布式應用有兩種:分布式數(shù)據(jù)庫和Hadoop分布式系統(tǒng)。兩種解決方案對比如表1所示。

  表1. 分布式數(shù)據(jù)庫和Hadoop分布式系統(tǒng)的對比

  MPP分布式數(shù)據(jù)庫較Hadoop分布式系統(tǒng),在復雜邏輯的結(jié)構(gòu)化數(shù)據(jù)處理上具有一定的優(yōu)勢,且可基于SQL開發(fā),對于有較豐富SQL經(jīng)驗的系統(tǒng)開發(fā)者,開發(fā)與運維更容易。當然,業(yè)界MPP分布式數(shù)據(jù)庫產(chǎn)品價格也要高于Hadoop這個源于開源社區(qū)的產(chǎn)品。

  這是否意味著MPP分布式數(shù)據(jù)庫就是大數(shù)據(jù)處理的最佳解決方案呢?我們以銀行系統(tǒng)數(shù)據(jù)的價值密度和數(shù)據(jù)特征為例來考慮這個問題。對于銀行系統(tǒng)數(shù)據(jù),我們基本可以達成這樣一個共識:銀行系統(tǒng)數(shù)據(jù)中,結(jié)構(gòu)化數(shù)據(jù)價值密度通常高于非結(jié)構(gòu)化或半結(jié)構(gòu)化數(shù)據(jù),而在銀行數(shù)據(jù)中非結(jié)構(gòu)化數(shù)據(jù)占用了大量的存儲資源。這是因為銀行系統(tǒng)中結(jié)構(gòu)化數(shù)據(jù)以賬務數(shù)據(jù)為主,而非結(jié)構(gòu)化數(shù)據(jù)則主要集中在憑證影像等數(shù)據(jù)。當然結(jié)構(gòu)化數(shù)據(jù)中也包括部分日志信息等價值密度不高的數(shù)據(jù)。

  數(shù)據(jù)存儲與處理技術(shù)在由"一種架構(gòu)支持所有應用"向"多種架構(gòu)支持多類應用"轉(zhuǎn)變。同樣對于數(shù)據(jù)消費層數(shù)據(jù)處理技術(shù),也應根據(jù)數(shù)據(jù)價值密度及數(shù)據(jù)特征等因素采用與之相匹配的架構(gòu)來支持。對于數(shù)據(jù)消費層數(shù)據(jù)中那些價值密度高的交易及賬務數(shù)據(jù)可采用MPP分布式數(shù)據(jù)庫構(gòu)建數(shù)據(jù)處理平臺,而對于那些價值密度不高的結(jié)構(gòu)化數(shù)據(jù)和非(半)結(jié)構(gòu)化數(shù)據(jù)則可以采用Hadoop分布式系統(tǒng)作為處理平臺。

  3.分布式局限性:CAP理論

  如圖2所示,CAP原理中有三個要素:一致性(Consistency),可用性(Availability)和分區(qū)容忍性(Partition tolerance)

  圖2.CAP原理示意圖

  CAP原理指的是在分布式系統(tǒng)中這三個要素最多只能同時實現(xiàn)兩點,不可能三者兼顧。因此在進行分布式架構(gòu)設計時,必須做出取舍。而對于分布式數(shù)據(jù)系統(tǒng),分區(qū)容忍性是基本要求,否則就失去了價值。因此設計分布式數(shù)據(jù)系統(tǒng),就是在一致性和可用性之間取一個平衡。對于大多數(shù)Web應用,其實并不需要強一致性, 因此犧牲一致性而換取高可用性,是目前多數(shù)分布式數(shù)據(jù)庫產(chǎn)品的方向。

  從客戶端角度,多進程并發(fā)訪問時,更新過的數(shù)據(jù)在不同進程如何獲取的不同策略,決定了不同的一致性。對于關(guān)系型數(shù)據(jù)庫,要求更新過的數(shù)據(jù)能被后續(xù)的訪問都能看到,這是強一致性。如果能容忍后續(xù)的部分或者全部訪問不到,則是弱一致性。如果經(jīng)過一段時間后要求能訪問到更新后的數(shù)據(jù),則是最終一致性。

  但Web應用也有例外,比如支付寶系統(tǒng),就要求數(shù)據(jù)(銀行賬戶)的強一致性,而且面對大量淘寶用戶,可用性要求很高,因此只能犧牲數(shù)據(jù)的分區(qū)冗余。

  對于MPP DB而言,雖說是宣稱Scale out(橫向擴展),但是這種out一般到100,而Hadoop一般可以到1000+。在我們的測試中,也發(fā)現(xiàn)線性擴展性一項即使是在較小的節(jié)點數(shù)方面,也并未達到絕對的直線的性能。

  這是為什么呢?我們大致可以從CAP理論上來找到一些理由。因為MPP DB始終還是DB,一定要考慮C(Consistency),其次考慮A(Availability),最后才在可能的情況下盡量做好P(Partition-tolerance)。而Hadoop就是為了并行處理和存儲設計的,所以優(yōu)先考慮的是P,然后是A,最后再考慮C。所以后者的可擴展性當然好于前者。

分享到: 收藏

專題