近10年來(lái),政府和企業(yè)在世界范圍內(nèi)收集了大量互聯(lián)網(wǎng)用戶的數(shù)據(jù),不僅僅是姓名和數(shù)字,而是一連串?dāng)?shù)據(jù)---大數(shù)據(jù)。國(guó)際數(shù)據(jù)公司(International Data Corporation)最近預(yù)測(cè)大數(shù)據(jù)行業(yè)復(fù)合年增長(zhǎng)率將達(dá)到26.4%,在2018年達(dá)到415億美元。這意味著越來(lái)越多的企業(yè)和組織將花費(fèi)巨資研究分析大數(shù)據(jù)并獲得有價(jià)值的信息。負(fù)責(zé)美國(guó)宇航局在加州帕薩迪納市的噴氣推進(jìn)實(shí)驗(yàn)室大數(shù)據(jù)的Chris Mattmann表示,NASA總共管理著幾百PB容量的數(shù)據(jù),幾乎達(dá)到1EB。
1EB(Exabyte,艾可薩字節(jié)或艾字節(jié))是多少容量?這意味著10億GB,像這樣:1000000000 GB。
這些巨大的數(shù)據(jù)擴(kuò)散的速度如此之快以至于傳統(tǒng)的數(shù)據(jù)技術(shù)跟不上它們的節(jié)奏。TNS市場(chǎng)研究公司(Taylor Nelson Sofres)亞太地區(qū)首席執(zhí)行官 Chris Riquier 告訴我大數(shù)據(jù)對(duì)市場(chǎng)研究有非常大的影響。Riquier 表示,市場(chǎng)研究是建立在調(diào)研和問卷調(diào)查之上的。他講道,在過去,調(diào)研的過程或花費(fèi)數(shù)周的時(shí)間,最終用呈現(xiàn)的數(shù)據(jù)來(lái)分析企業(yè)規(guī)模和相關(guān)信息,通過整合社交媒體數(shù)據(jù)、搜索數(shù)據(jù)以及其他形式的大數(shù)據(jù)來(lái)做成報(bào)告,而現(xiàn)在我們有機(jī)會(huì)來(lái)「重新思考研究是如何完成的!筊iquier 表示,由于大數(shù)據(jù),我們對(duì)「市場(chǎng)和決策力的反應(yīng)已經(jīng)發(fā)生了很大的變化!
在今天的數(shù)字世界里,大數(shù)據(jù)通過跨行業(yè)、政府、科學(xué)、公共健康和學(xué)術(shù)界來(lái)發(fā)現(xiàn)相關(guān)性。在過去,從信息里的海洋里獲得有用的數(shù)據(jù)信息對(duì)大多數(shù)人來(lái)說(shuō)一直是可望而不可即的事情。直到去年,哈佛雜志在2014年刊登的一篇文章,標(biāo)題為「為什么大數(shù)據(jù)是一樁大買賣?」(Why「Big Data」is a Big Deal),文中表示通過改進(jìn)的統(tǒng)計(jì)和計(jì)算方法,包括關(guān)聯(lián)數(shù)據(jù)集、可視化數(shù)據(jù)以及創(chuàng)建「大算法」等這些關(guān)鍵的創(chuàng)新,能使我們快速處理這些數(shù)據(jù)并為我們所用。從物理學(xué)家到文天學(xué)家,他們長(zhǎng)期與大數(shù)據(jù)打交道,數(shù)據(jù)科學(xué)家和社會(huì)學(xué)家通過結(jié)合定量與定性的方法來(lái)從大數(shù)據(jù)中獲得有用的信息。實(shí)際上,大數(shù)據(jù)正在創(chuàng)造一個(gè)新領(lǐng)域,哈佛大學(xué)工程與應(yīng)用科學(xué)學(xué)院為此開設(shè)數(shù)據(jù)科學(xué)碩士學(xué)位。
在《大數(shù)據(jù)-一場(chǎng)改變我們生活、工作和思考的革命》一書中,Viktor Mayer-Schonberger和Kenneth Cukier談到企業(yè)是如何改變方式來(lái)做出決策---基于對(duì)大數(shù)據(jù)的分析。例如,谷歌通過其收集的大數(shù)據(jù)來(lái)預(yù)測(cè)預(yù)測(cè)禽流感的散布,其反應(yīng)速度比美國(guó)疾病控制中心還要迅速。
據(jù)華爾街日?qǐng)?bào)最近的一篇文章,加拿大銀行使用由開源軟件開發(fā)商Apache開發(fā)的Hadoop來(lái)儲(chǔ)存和處理大數(shù)據(jù),并能識(shí)別洗錢和欺詐等犯罪行為。
大數(shù)據(jù)之于普通人
哈佛、NASA、谷歌和Apache利用大數(shù)據(jù)的分析能力在世界范圍內(nèi)帶來(lái)先進(jìn)的技術(shù),但就像我之前提到的,這并不意味著科學(xué)家們能很快從大數(shù)據(jù)中受益。讓我們來(lái)看一看一些企業(yè)和公司在收集和管理大數(shù)據(jù)的幾個(gè)方面。
其中大數(shù)據(jù)最主要的一個(gè)用途就是在市場(chǎng)中的搜索引擎優(yōu)化(SEO)。公司和企業(yè)能利用搜索引擎公司如谷歌和必應(yīng)提供的工具,結(jié)合不同的社交媒體數(shù)據(jù),收集有用的信息來(lái)進(jìn)行網(wǎng)絡(luò)營(yíng)銷。咨詢公司Hall Analysis的研究員Joe Hall主要研究搜索引擎優(yōu)化和大數(shù)據(jù),他表示有兩種方法能使用大數(shù)據(jù)來(lái)處理搜索引擎優(yōu)化。
他說(shuō):「第一種是處理與大數(shù)據(jù)集有關(guān)聯(lián)的業(yè)務(wù)。在大多數(shù)情況下這意昧著大品牌和大企業(yè)能獲得非常多的數(shù)據(jù)!笻all引用一個(gè)例子,一個(gè)客戶有1600萬(wàn)個(gè)反向鏈接,或者從其他網(wǎng)站鏈接指向客戶的網(wǎng)站。這些鏈接對(duì)谷歌和其他搜索引擎來(lái)說(shuō)是一個(gè)非常重要的排名因素。他解釋說(shuō),數(shù)據(jù)集的大小需要像模式分析那樣有強(qiáng)大的處理各種任務(wù)的能力,并在這種水準(zhǔn)下為反向鏈接分析改變規(guī)則。
Hall表示,第二種方法是公司能利用大數(shù)據(jù)使搜索引擎優(yōu)化變得更具態(tài)勢(shì)感知能力。這表明使用相關(guān)性研究能更好了解排名因素以及用戶點(diǎn)擊率、排名結(jié)果頁(yè)面等用戶行為分析。這兩種分析類型都需要大數(shù)據(jù)分析來(lái)達(dá)到最終的目的,并能有效幫助SEO專家開闊一個(gè)「更大的局面」。
另一方面是大數(shù)據(jù)在商業(yè)活動(dòng)中能獲得用戶的忠誠(chéng)度。舉個(gè)例子,比如我是一個(gè)創(chuàng)業(yè)公司的創(chuàng)始人,在我成功運(yùn)作公司的第一年后,公司業(yè)績(jī)蒸蒸日上,于是我給自己放個(gè)大假,去夏威夷度假。但在機(jī)場(chǎng)安檢的時(shí)候,檢票員告知我由于我的箱子超重,我需要付額外的費(fèi)用。但是檢票員可能不知道,作為一個(gè)成功創(chuàng)業(yè)公司的創(chuàng)始人和CEO,我和我的員工將會(huì)在全世界各大城市奔波,為航空公司貢獻(xiàn)更多的里程。如果航空公司使用大數(shù)據(jù)整合來(lái)自信用卡公司、社交媒體源、博客、酒店等相關(guān)信息,他們會(huì)可能取消這樣的額外收費(fèi)還能獲得一個(gè)忠誠(chéng)的客戶。
無(wú)論是大公司的CEO或是研究癌癥的醫(yī)生,或是一個(gè)淘寶店老板,使用大數(shù)據(jù)分析都將會(huì)為他們帶來(lái)有價(jià)值的信息。當(dāng)我們進(jìn)入到這樣一個(gè)時(shí)代:基于大數(shù)據(jù)分析來(lái)作出決策,這將不可避免地改變我們思考世界的方式。
今天這一代人出生在數(shù)字化時(shí)代。而下一代人將進(jìn)入大數(shù)據(jù)時(shí)代。
小編觀點(diǎn)
什么是「大數(shù)據(jù)」(Big data)?研究機(jī)構(gòu) Gartner 給出了這樣的定義。「大數(shù)據(jù)」是需要新處理模式才能具有更強(qiáng)的決策力、洞察發(fā)現(xiàn)力和流程優(yōu)化能力的海量、高增長(zhǎng)率和多樣化的信息資產(chǎn)。大數(shù)據(jù)是數(shù)據(jù)分析的前沿技術(shù)。從各種類型的數(shù)據(jù)中,快速獲得有價(jià)值信息的能力,就是大數(shù)據(jù)技術(shù),這也正是促使大數(shù)據(jù)技術(shù)具備走向眾多企業(yè)的潛力。大數(shù)據(jù)技術(shù)的戰(zhàn)略意義不在于掌握龐大的數(shù)據(jù)信息,而在于對(duì)這些含有意義的數(shù)據(jù)進(jìn)行專業(yè)化處理,通過「加工」實(shí)現(xiàn)數(shù)據(jù)的「增值」。