大數(shù)據(jù)權(quán)威專家麥爾荀伯格:比起問(wèn)「Why」的因果關(guān)系,大數(shù)據(jù)更看重的是問(wèn)「What」的相關(guān)性
近日美國(guó)大數(shù)據(jù)權(quán)威專家麥爾荀伯格分享了大數(shù)據(jù)趨勢(shì)。他認(rèn)為,大數(shù)據(jù)三大特性,是巨量、雜亂和相關(guān)性,而不是一般常見(jiàn)的3V(Volume、Velocity、Variety)定義。如何從這些看似雜亂無(wú)章的巨量資料中,找出最適合的相關(guān)性,并以此來(lái)改變決策,幫助我們更了解世界,正是企業(yè)和政府所面臨的新挑戰(zhàn)。
大數(shù)據(jù)權(quán)威專家麥爾荀伯格
麥爾荀伯格早年曾是名程式設(shè)計(jì)師,年僅20歲就創(chuàng)立一家防毒軟體公司,推出的防毒軟體一度獲選為澳洲年度暢銷軟體之一。他在哈佛大學(xué)攻讀法律,并取得倫敦經(jīng)濟(jì)學(xué)院經(jīng)濟(jì)碩士,而後對(duì)於大數(shù)據(jù)領(lǐng)域有著深入且廣泛的研究,曾發(fā)表過(guò)上百篇專論和書(shū)藉,現(xiàn)為牛津大學(xué)網(wǎng)際網(wǎng)路研究所教授,專攻網(wǎng)路治理與法規(guī),并著有《Big Data》(臺(tái)譯:大數(shù)據(jù))等著作。
麥爾荀伯格認(rèn)為,經(jīng)過(guò)搜集而來(lái)的大數(shù)據(jù),往往具備有三大特性,第一就是擁有非常多的訊息量。
這邊所指的「多」代表的是具有一定規(guī)模的完整資料,可透過(guò)蒐集分析發(fā)現(xiàn)具有相關(guān)性的問(wèn)題或現(xiàn)象。他以過(guò)去相機(jī)對(duì)焦為例,一般只有在對(duì)焦范圍內(nèi)拍出來(lái)的人物輪廓才會(huì)清晰,但范圍以外的人物輪廓往往會(huì)是模糊的,但是改用一臺(tái)可先拍照後對(duì)焦的光場(chǎng)相機(jī),就能先將所有人物資料完整紀(jì)錄下來(lái),之後在決定照片要以誰(shuí)為主角,也不需要花費(fèi)時(shí)間重拍,還可以獲得更多有關(guān)照片的細(xì)節(jié)。麥爾荀伯格認(rèn)為,盡可能蒐集越多的完整資料,也是同樣的道理,蒐集妥了以後再進(jìn)一步?jīng)Q定用途。
麥爾荀伯格提出的大數(shù)據(jù)第二個(gè)特性是雜亂。相較於過(guò)去受限於測(cè)量能力的限制,能取得的資料往往不多,因此會(huì)注重資料的精確性。但是,當(dāng)面對(duì)的是雜亂且復(fù)雜的大數(shù)據(jù)時(shí),就不能再以過(guò)去傳統(tǒng)少量資料的方式去分析,而是要有新的作法。他說(shuō),大數(shù)據(jù)要求的并不是一點(diǎn)錯(cuò)都無(wú)法容忍接受的精確資料,更多時(shí)候反而容許有測(cè)量誤差的資料,只要透過(guò)分析可以得出有用的資料,就不用為了那一兩棵樹(shù)而放棄一整座森林。
比起問(wèn)why,大數(shù)據(jù)更看重的是問(wèn)What相關(guān)性至於大數(shù)據(jù)第三個(gè)特性則是相關(guān)性,麥爾荀伯格解釋,比起問(wèn)「Why」的因果關(guān)系,大數(shù)據(jù)更看重的是問(wèn)「What」的』相關(guān)性!钢匾氖窍攘私,資料要告訴我們『什麼』而不是『為什麼」。他以美國(guó)知名零售商沃爾瑪當(dāng)例子,當(dāng)他們?cè)谶M(jìn)行大數(shù)據(jù)分析時(shí)發(fā)現(xiàn),每當(dāng)颶風(fēng)即將抵達(dá)前,當(dāng)?shù)鼐用癯松铣腥ベI手電筒和電池之外,還會(huì)買了一堆被稱為是Pop-Tarts的草莓甜點(diǎn),這樣的發(fā)現(xiàn)也替沃爾瑪帶來(lái)龐大商機(jī),至於顧客為什麼會(huì)買這些甜點(diǎn)就不是那麼重要了。同樣的道理,當(dāng)亞馬遜和Netflix 在推薦顧客產(chǎn)品時(shí),同樣也不知道為什麼要推薦這些書(shū)或DVD影片,只要知道顧客會(huì)買單就好。
另一個(gè)麥爾荀伯格舉的例子是語(yǔ)言翻譯。1950年代的美國(guó)電腦科學(xué)家,曾試圖透過(guò)文法規(guī)則讓機(jī)器大量翻譯俄語(yǔ)資料,花了12年時(shí)間投入近數(shù)十億美元,最終還是宣告失敗。當(dāng)時(shí),IBM也在個(gè)人電腦加入更多語(yǔ)句和文法規(guī)則,并以此成功翻譯了60個(gè)俄文短句,但因無(wú)法進(jìn)行大量翻譯也告失敗,就算是在1990年時(shí),IBM試圖透過(guò)新開(kāi)發(fā)的統(tǒng)計(jì)機(jī)器來(lái)翻譯10年份的加拿大國(guó)會(huì)文件資料(含英法雙語(yǔ)),盡管的確改善了機(jī)器翻譯的品質(zhì),但最後因投入大筆資金卻無(wú)法得到相應(yīng)成果,只好退出放棄。
反觀當(dāng)時(shí)還是名不見(jiàn)經(jīng)傳的小公司Google,成立僅僅不到10年時(shí)間就完成了這項(xiàng)不可能任務(wù),推出了翻譯服務(wù),而其采用的方式只不過(guò)就蒐集了幾千億筆的網(wǎng)路資料來(lái)分析,其中有包括歐盟語(yǔ)言、網(wǎng)站語(yǔ)言、書(shū)籍和說(shuō)明手冊(cè)等五花八門的資料,盡管這些資料品質(zhì)參差不齊,但透過(guò)匯整分析卻能翻譯出更為精確的語(yǔ)句。
麥爾荀伯格舉的最後一個(gè)例子則是早產(chǎn)兒診斷,Carolyn McGregor博士率領(lǐng)了安大略理工學(xué)院與IBM的研究人員,共同開(kāi)發(fā)一套身體健康追蹤系統(tǒng),可以即時(shí)追縱早產(chǎn)兒的健康資料,包括像是心跳、呼吸、體溫、血壓等身體癥狀,并且每秒鐘會(huì)回傳1,260筆資料給醫(yī)生。醫(yī)生透過(guò)這套系統(tǒng)可經(jīng)觀察細(xì)微媽媽體內(nèi)嬰兒的身體變化,提早24小時(shí)前預(yù)測(cè)出是否為早產(chǎn)兒的可能性,以挽救更多的生命。後來(lái)Carolyn McGregor用大數(shù)據(jù)技術(shù)來(lái)分析這些資料後,還發(fā)現(xiàn)早產(chǎn)兒在嚴(yán)重感染前,反而生命跡象會(huì)有一段時(shí)間維持穩(wěn)定,顛覆了過(guò)去一般認(rèn)為早產(chǎn)而身體先惡化再感染的理論。倘若Carolyn McGregor只專注於研究身體惡化與感染間的因果關(guān)系,就無(wú)法得到這個(gè)發(fā)現(xiàn)。
從巨量機(jī)器假設(shè)找出最佳相關(guān)性
對(duì)統(tǒng)計(jì)學(xué)家來(lái)說(shuō),常見(jiàn)的研究流程是先有理論基礎(chǔ),接著是提出假設(shè),最後再透過(guò)數(shù)據(jù)來(lái)驗(yàn)證,但在大數(shù)據(jù)上,麥爾荀伯格認(rèn)為,原有研究流程變得不一樣了。以Google的作法來(lái)說(shuō),同樣都有一套理論基礎(chǔ),但Google卻是透過(guò)程式自動(dòng)建立了大量的機(jī)器假設(shè)(Machine Hypothesis),將所有可能的假設(shè)通通都放進(jìn)來(lái),再利用云端運(yùn)算技術(shù)一次處理高達(dá)4.5億個(gè)機(jī)械假設(shè),從這些巨量的機(jī)器假設(shè)中找出最合理的相關(guān)性。
大數(shù)據(jù)核心價(jià)值:可重覆使用、重組資料,發(fā)現(xiàn)新價(jià)值
麥爾荀伯格更指出,大數(shù)據(jù)的核心價(jià)值,在於可以重覆地使用資料,而且是不斷地重組可能的使用方式。他說(shuō),過(guò)去人們會(huì)因?yàn)樘囟康亩L集資料,但在大數(shù)據(jù)時(shí)代,很多時(shí)候并不知道這些資料是否還有其他用途,像是「先拍照後對(duì)焦」的光場(chǎng)相機(jī),往往是透過(guò)對(duì)巨量資料交叉分析後,才對(duì)資料運(yùn)用有了新發(fā)現(xiàn)。就像裝在車上的感應(yīng)器,除了可用來(lái)找出目前那一個(gè)地段最容易塞車,日本東京產(chǎn)業(yè)技術(shù)大學(xué)也曾在駕駛座位裝入360顆感應(yīng)器,來(lái)蒐集駕駛坐在駕駛座上的動(dòng)作,只有符合登錄臀部坐姿的駕駛才能發(fā)動(dòng)車子,以此達(dá)到防盜功效。
又好比如說(shuō),Google曾經(jīng)於2009年成功利用搜尋關(guān)鍵字來(lái)預(yù)測(cè)流感趨勢(shì),但後來(lái)預(yù)測(cè)卻失準(zhǔn),麥爾荀伯格表示,最大原因就是沒(méi)有考慮到現(xiàn)實(shí)及人類行為環(huán)節(jié)的改變。而剛推出的Google Glass眼鏡,「其實(shí)Google真正的目的是要了解人們到底在看什麼?關(guān)心什麼?透過(guò)運(yùn)用這些蒐集而來(lái)資料進(jìn)一步去分析預(yù)測(cè)出消費(fèi)者的行為。」他說(shuō)。
荷蘭手機(jī)公司藉由販?zhǔn)厶鞖鈹?shù)據(jù),開(kāi)創(chuàng)新的事業(yè)大數(shù)據(jù)不只可幫助企業(yè)內(nèi)部決策,還可協(xié)助開(kāi)創(chuàng)新事業(yè)。麥爾荀伯格以國(guó)外幾個(gè)大數(shù)據(jù)應(yīng)用成果作為例子,像在荷蘭有一家手機(jī)公司面臨了低價(jià)競(jìng)爭(zhēng)而無(wú)法獲利時(shí),他們發(fā)現(xiàn)了自家所建造的基地臺(tái)訊號(hào),無(wú)形中會(huì)因周遭環(huán)境氣候而改變,這個(gè)發(fā)現(xiàn)讓他們反而可以販?zhǔn)厶鞖鈹?shù)據(jù),轉(zhuǎn)換跑道來(lái)開(kāi)創(chuàng)新的事業(yè)。勞斯萊斯不只是汽車公司也是全球第二大的飛機(jī)引擎制造商,透過(guò)在大型客機(jī)內(nèi)的噴射引擎,載入飛行管理系統(tǒng)來(lái)監(jiān)控大量的引擎運(yùn)轉(zhuǎn)資料,加以分析後能預(yù)測(cè)出引擎的壽命,勞斯萊斯并以此來(lái)提供預(yù)測(cè)性的維修服務(wù)。
美國(guó)零售商Target則是另一個(gè)典型的大數(shù)據(jù)應(yīng)用,Target搜集了大量女性顧客的購(gòu)物行為,運(yùn)用大數(shù)據(jù)分析找出各種相關(guān)性,像是他們分析後發(fā)現(xiàn),女性在懷孕三個(gè)月的時(shí)候,會(huì)開(kāi)始購(gòu)買某一類產(chǎn)品或?qū)μ囟ㄆ放飘a(chǎn)生忠誠(chéng)度,像是無(wú)香味的乳液或各類營(yíng)養(yǎng)補(bǔ)充品。反推回來(lái),當(dāng)女性開(kāi)始出現(xiàn)這個(gè)行為時(shí),也可以用來(lái)預(yù)測(cè)出女性是否已有懷孕跡象,甚至還能因此準(zhǔn)確預(yù)測(cè)出小孩出生的日期。
盡管透過(guò)分析演算,大數(shù)據(jù)可以用來(lái)改變決策的方式,創(chuàng)造出新的商業(yè)或經(jīng)濟(jì)價(jià)值,甚至可作為預(yù)測(cè)人類行為的強(qiáng)大工具,但麥爾荀伯格也提醒,使用這些資料必須很小心,切勿忘記人有自由意志,一旦過(guò)度依賴這些預(yù)測(cè)資料,一方面可能發(fā)生像是在《一九八四》小說(shuō)中無(wú)所不在的老大哥(Big Brother)監(jiān)控,造成對(duì)個(gè)人隱私的侵犯。也可能作出不公平的預(yù)測(cè),發(fā)生了如電影關(guān)鍵報(bào)告中還未犯罪就遭到逮補(bǔ)的情節(jié)。
他說(shuō),如何善加利用大數(shù)據(jù)和使用工具,去幫助人們更了解這個(gè)世界,是政府和企業(yè)所面臨的新挑戰(zhàn)。