大數(shù)據(jù)權(quán)威專家麥爾荀伯格:比起問「Why」的因果關(guān)系,大數(shù)據(jù)更看重的是問「What」的相關(guān)性
近日美國大數(shù)據(jù)權(quán)威專家麥爾荀伯格分享了大數(shù)據(jù)趨勢。他認(rèn)為,大數(shù)據(jù)三大特性,是巨量、雜亂和相關(guān)性,而不是一般常見的3V(Volume、Velocity、Variety)定義。如何從這些看似雜亂無章的巨量資料中,找出最適合的相關(guān)性,并以此來改變決策,幫助我們更了解世界,正是企業(yè)和政府所面臨的新挑戰(zhàn)。
大數(shù)據(jù)權(quán)威專家麥爾荀伯格
麥爾荀伯格早年曾是名程式設(shè)計師,年僅20歲就創(chuàng)立一家防毒軟體公司,推出的防毒軟體一度獲選為澳洲年度暢銷軟體之一。他在哈佛大學(xué)攻讀法律,并取得倫敦經(jīng)濟(jì)學(xué)院經(jīng)濟(jì)碩士,而後對於大數(shù)據(jù)領(lǐng)域有著深入且廣泛的研究,曾發(fā)表過上百篇專論和書藉,現(xiàn)為牛津大學(xué)網(wǎng)際網(wǎng)路研究所教授,專攻網(wǎng)路治理與法規(guī),并著有《Big Data》(臺譯:大數(shù)據(jù))等著作。
麥爾荀伯格認(rèn)為,經(jīng)過搜集而來的大數(shù)據(jù),往往具備有三大特性,第一就是擁有非常多的訊息量。
這邊所指的「多」代表的是具有一定規(guī)模的完整資料,可透過蒐集分析發(fā)現(xiàn)具有相關(guān)性的問題或現(xiàn)象。他以過去相機(jī)對焦為例,一般只有在對焦范圍內(nèi)拍出來的人物輪廓才會清晰,但范圍以外的人物輪廓往往會是模糊的,但是改用一臺可先拍照後對焦的光場相機(jī),就能先將所有人物資料完整紀(jì)錄下來,之後在決定照片要以誰為主角,也不需要花費時間重拍,還可以獲得更多有關(guān)照片的細(xì)節(jié)。麥爾荀伯格認(rèn)為,盡可能蒐集越多的完整資料,也是同樣的道理,蒐集妥了以後再進(jìn)一步?jīng)Q定用途。
麥爾荀伯格提出的大數(shù)據(jù)第二個特性是雜亂。相較於過去受限於測量能力的限制,能取得的資料往往不多,因此會注重資料的精確性。但是,當(dāng)面對的是雜亂且復(fù)雜的大數(shù)據(jù)時,就不能再以過去傳統(tǒng)少量資料的方式去分析,而是要有新的作法。他說,大數(shù)據(jù)要求的并不是一點錯都無法容忍接受的精確資料,更多時候反而容許有測量誤差的資料,只要透過分析可以得出有用的資料,就不用為了那一兩棵樹而放棄一整座森林。
比起問why,大數(shù)據(jù)更看重的是問What相關(guān)性至於大數(shù)據(jù)第三個特性則是相關(guān)性,麥爾荀伯格解釋,比起問「Why」的因果關(guān)系,大數(shù)據(jù)更看重的是問「What」的』相關(guān)性。「重要的是先了解,資料要告訴我們『什麼』而不是『為什麼」。他以美國知名零售商沃爾瑪當(dāng)例子,當(dāng)他們在進(jìn)行大數(shù)據(jù)分析時發(fā)現(xiàn),每當(dāng)颶風(fēng)即將抵達(dá)前,當(dāng)?shù)鼐用癯松铣腥ベI手電筒和電池之外,還會買了一堆被稱為是Pop-Tarts的草莓甜點,這樣的發(fā)現(xiàn)也替沃爾瑪帶來龐大商機(jī),至於顧客為什麼會買這些甜點就不是那麼重要了。同樣的道理,當(dāng)亞馬遜和Netflix 在推薦顧客產(chǎn)品時,同樣也不知道為什麼要推薦這些書或DVD影片,只要知道顧客會買單就好。
另一個麥爾荀伯格舉的例子是語言翻譯。1950年代的美國電腦科學(xué)家,曾試圖透過文法規(guī)則讓機(jī)器大量翻譯俄語資料,花了12年時間投入近數(shù)十億美元,最終還是宣告失敗。當(dāng)時,IBM也在個人電腦加入更多語句和文法規(guī)則,并以此成功翻譯了60個俄文短句,但因無法進(jìn)行大量翻譯也告失敗,就算是在1990年時,IBM試圖透過新開發(fā)的統(tǒng)計機(jī)器來翻譯10年份的加拿大國會文件資料(含英法雙語),盡管的確改善了機(jī)器翻譯的品質(zhì),但最後因投入大筆資金卻無法得到相應(yīng)成果,只好退出放棄。
反觀當(dāng)時還是名不見經(jīng)傳的小公司Google,成立僅僅不到10年時間就完成了這項不可能任務(wù),推出了翻譯服務(wù),而其采用的方式只不過就蒐集了幾千億筆的網(wǎng)路資料來分析,其中有包括歐盟語言、網(wǎng)站語言、書籍和說明手冊等五花八門的資料,盡管這些資料品質(zhì)參差不齊,但透過匯整分析卻能翻譯出更為精確的語句。
麥爾荀伯格舉的最後一個例子則是早產(chǎn)兒診斷,Carolyn McGregor博士率領(lǐng)了安大略理工學(xué)院與IBM的研究人員,共同開發(fā)一套身體健康追蹤系統(tǒng),可以即時追縱早產(chǎn)兒的健康資料,包括像是心跳、呼吸、體溫、血壓等身體癥狀,并且每秒鐘會回傳1,260筆資料給醫(yī)生。醫(yī)生透過這套系統(tǒng)可經(jīng)觀察細(xì)微媽媽體內(nèi)嬰兒的身體變化,提早24小時前預(yù)測出是否為早產(chǎn)兒的可能性,以挽救更多的生命。後來Carolyn McGregor用大數(shù)據(jù)技術(shù)來分析這些資料後,還發(fā)現(xiàn)早產(chǎn)兒在嚴(yán)重感染前,反而生命跡象會有一段時間維持穩(wěn)定,顛覆了過去一般認(rèn)為早產(chǎn)而身體先惡化再感染的理論。倘若Carolyn McGregor只專注於研究身體惡化與感染間的因果關(guān)系,就無法得到這個發(fā)現(xiàn)。
從巨量機(jī)器假設(shè)找出最佳相關(guān)性
對統(tǒng)計學(xué)家來說,常見的研究流程是先有理論基礎(chǔ),接著是提出假設(shè),最後再透過數(shù)據(jù)來驗證,但在大數(shù)據(jù)上,麥爾荀伯格認(rèn)為,原有研究流程變得不一樣了。以Google的作法來說,同樣都有一套理論基礎(chǔ),但Google卻是透過程式自動建立了大量的機(jī)器假設(shè)(Machine Hypothesis),將所有可能的假設(shè)通通都放進(jìn)來,再利用云端運(yùn)算技術(shù)一次處理高達(dá)4.5億個機(jī)械假設(shè),從這些巨量的機(jī)器假設(shè)中找出最合理的相關(guān)性。
大數(shù)據(jù)核心價值:可重覆使用、重組資料,發(fā)現(xiàn)新價值
麥爾荀伯格更指出,大數(shù)據(jù)的核心價值,在於可以重覆地使用資料,而且是不斷地重組可能的使用方式。他說,過去人們會因為特定目的而蒐集資料,但在大數(shù)據(jù)時代,很多時候并不知道這些資料是否還有其他用途,像是「先拍照後對焦」的光場相機(jī),往往是透過對巨量資料交叉分析後,才對資料運(yùn)用有了新發(fā)現(xiàn)。就像裝在車上的感應(yīng)器,除了可用來找出目前那一個地段最容易塞車,日本東京產(chǎn)業(yè)技術(shù)大學(xué)也曾在駕駛座位裝入360顆感應(yīng)器,來蒐集駕駛坐在駕駛座上的動作,只有符合登錄臀部坐姿的駕駛才能發(fā)動車子,以此達(dá)到防盜功效。
又好比如說,Google曾經(jīng)於2009年成功利用搜尋關(guān)鍵字來預(yù)測流感趨勢,但後來預(yù)測卻失準(zhǔn),麥爾荀伯格表示,最大原因就是沒有考慮到現(xiàn)實及人類行為環(huán)節(jié)的改變。而剛推出的Google Glass眼鏡,「其實Google真正的目的是要了解人們到底在看什麼?關(guān)心什麼?透過運(yùn)用這些蒐集而來資料進(jìn)一步去分析預(yù)測出消費者的行為。」他說。
荷蘭手機(jī)公司藉由販?zhǔn)厶鞖鈹?shù)據(jù),開創(chuàng)新的事業(yè)大數(shù)據(jù)不只可幫助企業(yè)內(nèi)部決策,還可協(xié)助開創(chuàng)新事業(yè)。麥爾荀伯格以國外幾個大數(shù)據(jù)應(yīng)用成果作為例子,像在荷蘭有一家手機(jī)公司面臨了低價競爭而無法獲利時,他們發(fā)現(xiàn)了自家所建造的基地臺訊號,無形中會因周遭環(huán)境氣候而改變,這個發(fā)現(xiàn)讓他們反而可以販?zhǔn)厶鞖鈹?shù)據(jù),轉(zhuǎn)換跑道來開創(chuàng)新的事業(yè)。勞斯萊斯不只是汽車公司也是全球第二大的飛機(jī)引擎制造商,透過在大型客機(jī)內(nèi)的噴射引擎,載入飛行管理系統(tǒng)來監(jiān)控大量的引擎運(yùn)轉(zhuǎn)資料,加以分析後能預(yù)測出引擎的壽命,勞斯萊斯并以此來提供預(yù)測性的維修服務(wù)。
美國零售商Target則是另一個典型的大數(shù)據(jù)應(yīng)用,Target搜集了大量女性顧客的購物行為,運(yùn)用大數(shù)據(jù)分析找出各種相關(guān)性,像是他們分析後發(fā)現(xiàn),女性在懷孕三個月的時候,會開始購買某一類產(chǎn)品或?qū)μ囟ㄆ放飘a(chǎn)生忠誠度,像是無香味的乳液或各類營養(yǎng)補(bǔ)充品。反推回來,當(dāng)女性開始出現(xiàn)這個行為時,也可以用來預(yù)測出女性是否已有懷孕跡象,甚至還能因此準(zhǔn)確預(yù)測出小孩出生的日期。
盡管透過分析演算,大數(shù)據(jù)可以用來改變決策的方式,創(chuàng)造出新的商業(yè)或經(jīng)濟(jì)價值,甚至可作為預(yù)測人類行為的強(qiáng)大工具,但麥爾荀伯格也提醒,使用這些資料必須很小心,切勿忘記人有自由意志,一旦過度依賴這些預(yù)測資料,一方面可能發(fā)生像是在《一九八四》小說中無所不在的老大哥(Big Brother)監(jiān)控,造成對個人隱私的侵犯。也可能作出不公平的預(yù)測,發(fā)生了如電影關(guān)鍵報告中還未犯罪就遭到逮補(bǔ)的情節(jié)。
他說,如何善加利用大數(shù)據(jù)和使用工具,去幫助人們更了解這個世界,是政府和企業(yè)所面臨的新挑戰(zhàn)。