Hadoop不是萬(wàn)能鑰匙
在大數(shù)據(jù)探索的進(jìn)程中,運(yùn)營(yíng)商逐漸擺脫了對(duì)Hadoop技術(shù)的認(rèn)知誤區(qū)。猶記得大數(shù)據(jù)興起之時(shí),Hadoop風(fēng)生水起,它被認(rèn)為是業(yè)界應(yīng)對(duì)大數(shù)據(jù)挑戰(zhàn)的一劑良藥。
然而在實(shí)踐過(guò)程中,人們發(fā)現(xiàn)Hadoop在用作數(shù)據(jù)深度挖掘時(shí)存在效率低下等問(wèn)題,遠(yuǎn)不及傳統(tǒng)的數(shù)據(jù)倉(cāng)庫(kù)好用。但Hadoop成本低,用作數(shù)據(jù)存儲(chǔ)具有數(shù)據(jù)倉(cāng)庫(kù)無(wú)法比擬的優(yōu)勢(shì)。
Teradata解決方案高級(jí)總監(jiān)姜欣用一個(gè)形象的比喻來(lái)說(shuō)明Hadoop在大數(shù)據(jù)發(fā)揮的作用。“大數(shù)據(jù)就是一個(gè)淘金的過(guò)程。淘金過(guò)程中,首先需要把礦石挖掘出,就需要有運(yùn)輸?shù)墓ぞ吆投逊诺奈恢,那么Hadoop就等同于這個(gè)工具和位置,更多的是傳輸和存儲(chǔ)數(shù)據(jù)。之后,需要進(jìn)行礦石的提煉,從而淘出金子。這時(shí)候用Hadoop的話,花費(fèi)的人力和物力會(huì)大大增加,時(shí)間成本也會(huì)增加。”
中國(guó)聯(lián)通的大數(shù)據(jù)應(yīng)用代表“移動(dòng)通信用戶上網(wǎng)記錄集中查詢與分析支撐系統(tǒng)”便是采用Hadoop技術(shù)實(shí)現(xiàn)了實(shí)時(shí)查詢的功能。每天可處理700億條上網(wǎng)記錄,將用戶上網(wǎng)查詢記錄的系統(tǒng)響應(yīng)時(shí)間縮短至一秒,大大提升用戶感知。
從目前情況看,任何單一技術(shù)都不足以高效低成本地支撐大數(shù)據(jù)整個(gè)架構(gòu)。何鴻凌在“2013 Teradata大數(shù)據(jù)峰會(huì)”的演講中指出,大數(shù)據(jù)時(shí)代,運(yùn)營(yíng)商需要分工嚴(yán)密的混搭結(jié)構(gòu),包括傳統(tǒng)數(shù)據(jù)倉(cāng)庫(kù)、新型數(shù)據(jù)關(guān)系庫(kù)和Hadoop,以充分發(fā)揮各個(gè)平臺(tái)的優(yōu)勢(shì)。
而且,他強(qiáng)調(diào),這些技術(shù)要有效的形成“混搭”,而不是“亂搭”,不能變成“豎井”,需要集成為統(tǒng)一的大數(shù)據(jù)架構(gòu)。中國(guó)移動(dòng)目前便初步形成了以傳統(tǒng)數(shù)據(jù)倉(cāng)庫(kù)為基礎(chǔ)的統(tǒng)一大數(shù)據(jù)架構(gòu)。
其中,主數(shù)據(jù)倉(cāng)庫(kù)用來(lái)存儲(chǔ)“熱”數(shù)據(jù),進(jìn)行高效數(shù)據(jù)加工,支撐KPI、月報(bào)的及時(shí)呈現(xiàn),支撐數(shù)據(jù)的高可靠性低時(shí)延訪問(wèn);新型的關(guān)系數(shù)據(jù)庫(kù)作為深度分析平臺(tái),則用戶存儲(chǔ)“溫”數(shù)據(jù),支撐各類高級(jí)分析和數(shù)據(jù)挖掘;Hadoop用來(lái)存儲(chǔ)“冷”數(shù)據(jù)和非結(jié)構(gòu)化原始數(shù)據(jù),實(shí)現(xiàn)自定義、靈活的數(shù)據(jù)加工和挖掘工作,以及大規(guī)模簡(jiǎn)單數(shù)據(jù)查詢工作。
兩大盈利方向
大數(shù)據(jù)作為運(yùn)營(yíng)商待挖掘的金礦,其價(jià)值來(lái)源于兩個(gè)方面,其一是改善用戶體驗(yàn),針對(duì)用戶實(shí)現(xiàn)精準(zhǔn)營(yíng)銷,提升營(yíng)業(yè)利潤(rùn);其二是將數(shù)據(jù)分析結(jié)果作為一種服務(wù)提供給企業(yè)客戶,幫助他們實(shí)現(xiàn)更多的價(jià)值。
葉云告訴記者,DAAS(Data As A Service)帶來(lái)的價(jià)值更多,更值得運(yùn)營(yíng)商重視。“電信運(yùn)營(yíng)商作為大數(shù)據(jù)時(shí)代重要的數(shù)據(jù)聚合者,通過(guò)數(shù)據(jù)開(kāi)放,形成大數(shù)據(jù)價(jià)值生態(tài)圈,更加充分挖掘其潛在價(jià)值。”他說(shuō)。前面提及的西班牙電信的智慧足跡產(chǎn)品便代表了第二個(gè)方向。
值得一提的是,運(yùn)營(yíng)商需要解決好用戶隱私的問(wèn)題。“近年來(lái)客戶隱私被濫用的現(xiàn)象時(shí)有發(fā)生。而大數(shù)據(jù)時(shí)代,這一威脅正在被放大。保護(hù)客戶隱私既是對(duì)法律法規(guī)的遵從,更是企業(yè)的社會(huì)責(zé)任。”何鴻凌表示。
據(jù)了解,Verizon在成立大數(shù)據(jù)部門的前一年就調(diào)整了公司的隱私政策,為合法利用用戶數(shù)據(jù)打下了基礎(chǔ)。2011年10月,在一項(xiàng)有關(guān)隱私政策變化的聲明中,Verizon稱公司將利用其收集到的用戶訪問(wèn)的網(wǎng)站、使用的應(yīng)用程序以及他們的地理位置等信息,來(lái)“撰寫商業(yè)和營(yíng)銷報(bào)告”以及“制作與用戶關(guān)聯(lián)度更大的移動(dòng)廣告”。同時(shí),Verizon還準(zhǔn)備將這些分享給其他公司。
但是,Verizon表示,那些不愿意自己信息被分享的用戶可以選擇退出。如果用戶決定參加,它使用或分享的信息也不會(huì)被認(rèn)出是某個(gè)用戶的信息。
IBM和牛津大學(xué)共同發(fā)表的研究報(bào)告《分析:大數(shù)據(jù)在現(xiàn)實(shí)世界中的應(yīng)用》表明:25%的中國(guó)企業(yè)已經(jīng)開(kāi)始進(jìn)行大數(shù)據(jù)實(shí)踐,56%中國(guó)企業(yè)正在計(jì)劃部署大數(shù)據(jù)。預(yù)計(jì)在未來(lái)的兩到三年內(nèi),其價(jià)值便會(huì)規(guī)模釋放。