大數(shù)據(jù)領(lǐng)域的計算能力突飛猛進,要做到“大海撈針”不僅是可能的,而且已經(jīng)成為現(xiàn)實。大數(shù)據(jù)技術(shù)使得數(shù)據(jù)科學家能夠聚集海量數(shù)據(jù),并且能夠從中識別出異常點與數(shù)據(jù)模式。在這種發(fā)現(xiàn)的模型中,為了找到針,你得先有個大海;為了獲得準確的洞見,你所需要的信息量得足夠大。
例如,麻省理工學院Broad研究所的基因科學家發(fā)現(xiàn),海量的基因數(shù)據(jù)在識別遺傳變異對疾病的影響中有著至關(guān)重要的作用。當樣本的數(shù)據(jù)量“達到某個拐點時,一切都變了”, 統(tǒng)計學上的意義便突然顯示出來。但是,對于更多數(shù)據(jù)的獲取,尤其是像基因數(shù)據(jù)等私人敏感的數(shù)據(jù),由于各種原因,對于這些研究者來已經(jīng)成為一個巨大的挑戰(zhàn)或者負擔,其中一個主要的原因就是美國的隱私法律限制了他們對數(shù)據(jù)的訪問。另一位醫(yī)療行業(yè)的科學家指出,當你的數(shù)據(jù)很有可能幫助醫(yī)療人員在更短的時間內(nèi)做出更加精確的診斷,并且很可能在關(guān)鍵的時候能夠救人一命。
知識挖掘、機器學習、人工智能等技術(shù)的研究和應用使得大數(shù)據(jù)分析的力量越來越強大,同時也為對個人隱私的保護帶來了更加嚴峻的挑戰(zhàn)。當數(shù)據(jù)起初是與某個具體的人或者設(shè)備相關(guān)聯(lián)時,一些隱私保護技術(shù)可以設(shè)法去除數(shù)據(jù)與個人身份之間的連接;同時,另外一些的技術(shù)在努力地把這些斷開的連接復原。當知道一個人所關(guān)聯(lián)的一些信息,就可以從不包括其個人識別信息的數(shù)據(jù)中推斷出這個人的身份標識。
一些大的互聯(lián)網(wǎng)公司能夠?qū)⒋罅康男?shù)據(jù)結(jié)合在一起,從而構(gòu)造出某個人清晰的行為圖譜,進而預測他們的偏好與行為。這些數(shù)據(jù)在消費者市場上非常有價值,它能夠精確地向確定的一些人主動推送某些產(chǎn)品或者服務(wù)。不幸的是,這種“完美的個性化”也會在價格、服務(wù)與機會方面造成微妙的或是不明顯的歧視,有可能對個人造成真實的傷害。
萬維網(wǎng)的發(fā)明者Tim Berners-Lee教授認為,斯諾登事件之后,人們對互聯(lián)網(wǎng)的隱私保護問題越來越關(guān)注,由于政府和一些大公司的對在線活動的控制,使得互聯(lián)網(wǎng)的開放性和獨立性受到了嚴重的威脅。他呼吁制定一個權(quán)利法案,以保護互聯(lián)網(wǎng)的獨立性,并確保用戶隱私不受侵犯。
由此可見,數(shù)據(jù)挖掘和隱私保護之間的技術(shù)博弈已經(jīng)成為常態(tài);僅靠技術(shù)手段保護用戶隱私,是遠遠不夠的;未來,隱私保護或許會變得十分昂貴。
作者簡介:
吳偉,工業(yè)和信息化部電信研究院信息通信安全研究所高級工程師,工信部科技委互聯(lián)網(wǎng)應用專題組成員,麻省理工學院計算機與人工智能實驗室(CSAIL)訪問學者,萬維網(wǎng)聯(lián)盟(W3C)研究員,麻省理工學院宇宙村(UV)研究項目顧問以及UV年會組委會成員,麻省理工學院中國創(chuàng)新創(chuàng)業(yè)論壇(MIT-CHIEF)顧問以及2014年創(chuàng)新大賽評委。主要從事移動網(wǎng)絡(luò)、業(yè)務(wù)應用、物聯(lián)網(wǎng)、信息安全領(lǐng)域的技術(shù)和標準研究,以及相關(guān)領(lǐng)域技術(shù)試驗和測試、行業(yè)咨詢和技術(shù)管理等方面的工作。曾長期擔任中國通信標準化協(xié)會移動業(yè)務(wù)應用以及移動互聯(lián)網(wǎng)應用平臺工作組組長,負責國內(nèi)通信行業(yè)標準中移動業(yè)務(wù)應用以及移動互聯(lián)網(wǎng)領(lǐng)域行業(yè)標準制定和組織協(xié)調(diào)工作,牽頭完成相關(guān)的行業(yè)標準以及研究報告40多項。多次獲得部、院、所級科技進步獎,在各類學術(shù)期刊上發(fā)表文章三十余篇。