人人都在談?wù)摯髷?shù)據(jù),但是究竟什么是大數(shù)據(jù)呢?大數(shù)據(jù)主要來(lái)源于互聯(lián)網(wǎng)領(lǐng)域和一些垂直行業(yè),數(shù)據(jù)量達(dá)到PB級(jí),甚至10PB以上;它需要更高性能、更大吞吐量、更大擴(kuò)展能力.據(jù)統(tǒng)計(jì),全球80%的數(shù)據(jù)在近兩年生成,平均年增長(zhǎng)率超過(guò)50%。數(shù)據(jù)正從四面八方、各個(gè)領(lǐng)域中產(chǎn)生,變得更繁雜、更龐大、更加多樣性,如果將這些海量數(shù)據(jù)簡(jiǎn)單堆加、存儲(chǔ)歸檔,是不能為企業(yè)帶來(lái)價(jià)值的,反而會(huì)增加企業(yè)投資成本。只有完成對(duì)大數(shù)據(jù)的分析、價(jià)值數(shù)據(jù)提取,才能發(fā)揮大數(shù)據(jù)最大的威力,進(jìn)一步提高企業(yè)決策水平、改善業(yè)務(wù)模式,從而成為企業(yè)成功的關(guān)鍵。
Hadoop是一個(gè)分布式計(jì)算框架,來(lái)源于Apache軟件基金會(huì)的開(kāi)源項(xiàng)目,具有良好的并行處理能力、可擴(kuò)展性和可伸縮性的特點(diǎn),更適合處理半結(jié)構(gòu)化、非結(jié)構(gòu)化類(lèi)數(shù)據(jù),是重要的大數(shù)據(jù)計(jì)算和分析平臺(tái)。Hadoop因此獲得大多數(shù)數(shù)據(jù)分析廠商的關(guān)注和支持,成為當(dāng)下大數(shù)據(jù)領(lǐng)域的熱點(diǎn)技術(shù)。根據(jù)上述大數(shù)據(jù)的四個(gè)特點(diǎn),系統(tǒng)不僅需要具備超高的性能和超大的存儲(chǔ)空間,還必須將數(shù)據(jù)存儲(chǔ)與數(shù)據(jù)分析相結(jié)合,由此華為N8000-Hadoop大數(shù)據(jù)解決方案應(yīng)運(yùn)而生。該方案借助華為N8000系統(tǒng)先進(jìn)的集群架構(gòu)和企業(yè)級(jí)存儲(chǔ)功能,集成Hadoop計(jì)算框架,提供從密集型數(shù)值計(jì)算和數(shù)據(jù)存儲(chǔ)中實(shí)時(shí)獲取的分析處理結(jié)果,幫助客戶(hù)提高決策和運(yùn)營(yíng)效率,簡(jiǎn)化管理并降低組網(wǎng)成本。華為N8000-Hadoop大數(shù)據(jù)解決方案有以下特性和優(yōu)勢(shì):
1. 數(shù)據(jù)互通,承載多業(yè)務(wù)
首先,我們先分析一下當(dāng)前集群NAS應(yīng)用Hadoop的典型數(shù)據(jù)處理流程。數(shù)據(jù)通過(guò)集群NAS的NFS/CIFS等NAS協(xié)議完成數(shù)據(jù)存取操作,而Hadoop是架構(gòu)在HDFS協(xié)議之上,這意味著集群NAS的數(shù)據(jù)不能被Hadoop計(jì)算框架直接使用,必須通過(guò)異構(gòu)數(shù)據(jù)源之間進(jìn)行數(shù)據(jù)交換的工具,將異構(gòu)數(shù)據(jù)源的數(shù)據(jù)抽取到中間層進(jìn)行轉(zhuǎn)換,最后加載到數(shù)據(jù)倉(cāng)庫(kù)中,成為Hadoop計(jì)算框架能夠分析處理的數(shù)據(jù)。而華為N8000-Hadoop方案提出一種創(chuàng)新的思路,消除了這個(gè)桎梏,實(shí)現(xiàn)在不同的數(shù)據(jù)處理系統(tǒng)之間進(jìn)行數(shù)據(jù)交換,在同一個(gè)存儲(chǔ)空間中,數(shù)據(jù)可以自由流通,所見(jiàn)即所得,并且不需要改變傳統(tǒng)NAS用戶(hù)使用習(xí)慣和組網(wǎng)方式,無(wú)縫對(duì)接Hadoop計(jì)算框架,實(shí)現(xiàn)數(shù)值計(jì)算、數(shù)據(jù)存儲(chǔ)以及即時(shí)的數(shù)據(jù)分析和事務(wù)處理等多業(yè)務(wù)的承載。
2. 提高存儲(chǔ)利用率,降低TCO
使用開(kāi)源Hadoop的默認(rèn)配置,一種典型的犧牲存儲(chǔ)空間換取數(shù)據(jù)可靠性和讀寫(xiě)效率的方式,其最大存儲(chǔ)空間利用率是33%。而華為N8000-Hadoop大數(shù)據(jù)解決方案充分利用了N8000產(chǎn)品企業(yè)級(jí)存儲(chǔ)功能特性的優(yōu)勢(shì),通過(guò)選擇各種RAID級(jí)別技術(shù)來(lái)實(shí)現(xiàn)不同級(jí)別的冗余、錯(cuò)誤恢復(fù)和數(shù)據(jù)保護(hù)功能,存儲(chǔ)空間利用率可達(dá)80%,從而降低系統(tǒng)總體擁有成本TCO。
3. 企業(yè)級(jí)Hadoop整體解決方案
在使用開(kāi)源Hadoop時(shí)的第一個(gè)問(wèn)題是如何為Hadoop集群選擇合適的硬件,這需要考慮各種影響因素,往往根據(jù)使用經(jīng)驗(yàn)來(lái)決定配置,這使得構(gòu)建系統(tǒng)存在很大不確定性。華為N8000-Hadoop大數(shù)據(jù)解決方案可為一個(gè)給定的工作負(fù)載選擇合理的硬件配置來(lái)實(shí)現(xiàn)性能和經(jīng)濟(jì)的最佳平衡。華為N8000集群系統(tǒng)作為企業(yè)級(jí)存儲(chǔ)產(chǎn)品,采用多節(jié)點(diǎn)全Active集群技術(shù),所有部件均為冗余設(shè)計(jì),無(wú)單點(diǎn)故障,系統(tǒng)提供數(shù)據(jù)保險(xiǎn)箱技術(shù)和文件系統(tǒng)鏡像等軟件技術(shù)進(jìn)一步提高系統(tǒng)可靠性。
4. 海量小文件處理性能
目前,很多用戶(hù)開(kāi)始利用Hadoop處理海量數(shù)據(jù),并取得很好的效果,但隨著數(shù)據(jù)量增加,尤其是小文件數(shù)目的增多,逐漸發(fā)現(xiàn)Hadoop能夠高效自如地處理大文件,卻在處理海量小文件時(shí)由于Name Node占有率高而導(dǎo)致訪問(wèn)效率低的問(wèn)題。而華為N8000-Hadoop方案是基于共享集群文件系統(tǒng),消除了Name Node的限制,具有多任務(wù)處理的功能,元數(shù)據(jù)可被分段管理,不會(huì)出現(xiàn)性能瓶頸,從而提高了對(duì)海量小文件處理的效率。
大數(shù)據(jù)的出現(xiàn),我們不僅要思考如何解決數(shù)據(jù)量級(jí)劇增帶來(lái)的問(wèn)題,更重要的是如何從大數(shù)據(jù)挖掘出商業(yè)價(jià)值。華為N8000-Hadoop方案以業(yè)界性能和容量雙雙領(lǐng)先的企業(yè)級(jí)集群NAS存儲(chǔ)系統(tǒng)為基石,優(yōu)化Hadoop計(jì)算框架,幫助客戶(hù)從紛繁復(fù)雜的數(shù)據(jù)中獲取信息,以支持更快的決策。