北京航空航天大學校長懷進鵬在下午舉行的“名人堂——互聯(lián)網(wǎng)趨勢論壇”上表示,云計算下大數(shù)據(jù)將產(chǎn)生新價值。一個是商業(yè)社會價值,另一個是學術價值。
大數(shù)據(jù)不僅改變我們通訊模式,也影響到我們經(jīng)濟和社會生活發(fā)展模式,更重要它可能是未來學術和科學研究發(fā)現(xiàn)的一種重要手段。
但是他同時表示,大數(shù)據(jù)的應用會不可避免地涉及隱私。
懷進鵬提出,網(wǎng)站利用大數(shù)據(jù)可以將個人的許多相關信息挖掘出來。未來當大數(shù)據(jù)更多的應用之后,百度可以知道你上網(wǎng)行為,你思考的關注點可能性。淘寶可以了解你的購物習慣,微博會了解你在某個領域的思維情況。因此,關于可信和隱私也是未來需關注的問題。
以下是懷進鵬演講實錄:
懷進鵬:謝謝主持人,剛才前面鄔先生做了一個非常精彩的報告關于大數(shù)據(jù),我下面向各位匯報一下有關對云計算和大數(shù)據(jù)在一些方面的思考。主要是兩個部分,第一個互聯(lián)網(wǎng)的發(fā)展所派生和影響出來的一種新模式和數(shù)據(jù)作為當前和未來的一個重點。第二就是云計算和大數(shù)據(jù)研究的一些思考。
我們大家都非常清楚,由于主干網(wǎng)六個月增加一倍,而費用將區(qū)域分零,這個也是著名的基爾德(音)定律,這20年在計算儲備和計算當中,計算速度存儲容量增快,內(nèi)存硬盤價格下降了45000倍和360萬倍,這樣一個數(shù)據(jù)給我們簡單認識,一個數(shù)據(jù)如何獲取帶寬,另外一個數(shù)據(jù)的計算和存儲需要的成本。因此作為在當前的互聯(lián)網(wǎng)應用情況下,實際上我們進入一個更好的數(shù)據(jù)服務這樣一個新時代。因為帶寬不斷提升已經(jīng)成為基本廉價的費用,我們不擔心上網(wǎng)需要很多費用,通訊超過摩爾定律,我們一切都是在線一切是互聯(lián)網(wǎng)絡的計算,這樣方式使IT和通訊領域也是進一步在業(yè)務方面進行整合。所以我們很難分辨出IPone、谷歌(微博)、雅虎包括我們微軟一部分業(yè)務,很難說一定是傳統(tǒng)的IT還是電信新服務的內(nèi)容。
這個領域當中原來有一種說法,上世紀60年代互聯(lián)網(wǎng)的先驅(qū)也是心理學家叫里德(音),他說未來計算機互聯(lián)網(wǎng)他有一個設想,這個設想就是把世界所有的計算機連在一起,能夠讓用戶使用遠程的計算機,實現(xiàn)兩個功能:第一個功能怎么獲取數(shù)據(jù),第二功能怎么用別人的計算機。對于第一個功能和正在開展使用多臺計算機遠程方面,實際上一直是計算機和信息領域?qū)W者研究實踐努力的方向,第一個信息出現(xiàn),TIC的出現(xiàn),使得我們在全球任何一個地方可以送達數(shù)據(jù)的內(nèi)容,這個事情在計算機世界是重要的事。另外一方面我們知道七八十年代有一個更重要的進展就是操作系統(tǒng),操作系統(tǒng)實際上由微機出現(xiàn)把傳統(tǒng)專業(yè)人士可以更多的向普通的非計算機專業(yè)人士來使用計算機。這個事情做的重要貢獻就是我們可以不知道內(nèi)存怎么管理,計算怎么分配時間,這樣的情況下單機和大型機管理,也提供了技術和方法。由于操作系統(tǒng)的重要突破,這個領域當中先后有兩次圖靈獎頒獎,一個頒給了IBM360的人,一個頒給了(英文)。這兩個人都是由操作系統(tǒng)貢獻獲得了圖靈獎。
計算機一個永恒的主題就是探討數(shù)據(jù)處理能力如何更好,如何更快如何更強。圍繞這樣一個領域從過去所謂的P2P現(xiàn)在云計算以及移動計算物聯(lián)網(wǎng)還有智慧地球應用的模式,都是把數(shù)據(jù)庫作為它重要的一個核心。來把過去的計算模式向云向其他一種方式轉型當中來強調(diào)數(shù)據(jù)資源來更有效的利用。這個過程當中無論從科學的角度還是面向某個領域應用角度,還是從計算模式的轉型,對某一類計算終端來說都是更好的計算能力。我們由于帶寬低廉使得我們上網(wǎng)成本越來越低,就是說互聯(lián)網(wǎng)給我們帶來新的機會,從簡單通訊平臺進入互聯(lián)網(wǎng)作為一種更廣泛的計算平臺。
云計算是一個什么內(nèi)容我們大家都很清楚,它是基于數(shù)據(jù)中心,強調(diào)性價比、效率、可信新的服務運營模式,這是提高高端計算利用率,同時提升低端計算事物處理能力,我們不關注本身計算機的能力,更多提供給后臺,由后臺強大的處理能力完成。我們看到大數(shù)據(jù)基于云計算模式的應用也好,可能對服務質(zhì)量保證未必完全有效。就像大食堂和小灶一樣,你要想吃得好要付出你的成本處理,來吃得更好。我們在這個會議樓上正常提供五千人,突然來了五萬人要就餐我們怎么去做?一種簡單的方式比如說營養(yǎng)保持食品的問題,白菜燉豆腐,好不好難說,但是提供基本服務,在一定程度上云計算并不能夠提供高質(zhì)量的一種服務能力,應用環(huán)境不斷發(fā)展對互聯(lián)網(wǎng)大規(guī)模應用過程當中所產(chǎn)生的一種計算模式。
基本應用模式第一次確實把信息技術能夠作為在未來的一種基礎設施,那么它核心技術前面剛才鄔院士提出了用TB的方式提供更多的隔離性,以便提供更有效的服務。為互聯(lián)網(wǎng)應用推出新的計算手段和能力,這十年來從不同角度的探索,另外一個互聯(lián)網(wǎng)應用需求當中也對云計算的模式提供新的要求,正向前面講到大數(shù)據(jù)本身特點,規(guī)模大,變化快,種類雜,在社交類,搜索類都有相當多數(shù)據(jù)類型的表現(xiàn),以及在我們社會生活當中很多方面。曾經(jīng)圖靈獎獲得者說18個翻一番,過去數(shù)據(jù)是確定性的數(shù)據(jù),當前是人機物融合數(shù)據(jù)多樣性和異構性是當前數(shù)據(jù)特別重要的特點,F(xiàn)在數(shù)據(jù)遠不止18個月翻一番,更高數(shù)據(jù)在發(fā)展。
去年大數(shù)據(jù)成為整個信息技術和社會當中的熱門詞,也成為世界上第二大熱門詞而引起全世界的關注。去年的時候做了一次未來趨勢走向?qū)υ朴嬎愦髷?shù)據(jù)的發(fā)展過程給出了它的一個走向。這個圖當中給出就是對云計算所謂私有云以及混合云,還有未來大數(shù)據(jù)它在發(fā)展當中能夠產(chǎn)生產(chǎn)業(yè)的空間。它的預測大概在2016年的時候大數(shù)據(jù)的相關產(chǎn)業(yè)將達到2000多個億的規(guī)模,數(shù)據(jù)成為經(jīng)濟社會一個重要的驅(qū)動力。同樣做了一個分析,去年下半年對于全球整個企業(yè)投入大數(shù)據(jù)研究,已經(jīng)投資在大數(shù)據(jù)領域的情況可以看到,目前在教育、交通之醫(yī)療以及能源這些領域超過大概30%,已經(jīng)事實性的投資,作為下一步繼續(xù)開展工作有很多發(fā)展,對于大數(shù)據(jù)和云計算的投入。
這種方式我們看到由于互聯(lián)網(wǎng)快速普及,大量應用在互聯(lián)網(wǎng)的計算服務從主機到客戶服務到虛擬計算表現(xiàn),也許云計算僅僅是對于虛擬計算環(huán)境的一種表達方式,還有很多。包括我們說的物聯(lián)網(wǎng)等等,隨著時間和應用模式變換,這種名詞會很多,人們對于它的理解和要求會有很多變化。
第二部分我們對未來互聯(lián)網(wǎng)作為一個普通用戶來說更多希望成為大的計算服務平臺,相當于我們在自己筆記本電腦上,臺式機上自己使用自己的系統(tǒng)資源一樣。需要配置相當于有一個大的計算操作系統(tǒng)管理這個系統(tǒng),以便實現(xiàn)當時對未來互聯(lián)網(wǎng)的猜想,可以使遠程計算遠程數(shù)據(jù)資源共同完成你所需要的服務。
這種模式實際上對互聯(lián)網(wǎng)無論從去中心化,和終端更有效的連接都是在這樣一個方式思考。我們說互聯(lián)網(wǎng)曾經(jīng)改變了我們的交流方式,大數(shù)據(jù)現(xiàn)在已經(jīng)改變我們經(jīng)濟和生活的很多內(nèi)容。鄔先生報告當中舉了特別多很有說服力的例子,說明大數(shù)據(jù)對我們不僅是交流方式,更重要它改變我們經(jīng)濟和社會生活。我這里有幾個例子,比如說谷歌在2007用兩萬億單詞訓練語言模型,這個也是大數(shù)據(jù)產(chǎn)生很好的效果。我們知道醫(yī)療有KS.BS研究對于產(chǎn)生新藥物很有好處。預測H7N9流感爆發(fā)用了4.5億模擬,最后提前兩到三周比傳統(tǒng)疾控中心更早預報所發(fā)生地區(qū)類型,阿里巴巴百度這方面工作都有很多杰出表現(xiàn),主要原因因為他們擁有一個強大,真實可運行的數(shù)據(jù)提供。我們情況百度和谷歌使得它可以研究分析我們每一個人上網(wǎng)游覽行為。淘寶網(wǎng)和亞馬遜可以熟悉用戶的購物習慣和社會交往的習慣。像微博對于我們社會思維對一些方式的理解也有很多變化,可以從這樣幾個數(shù)據(jù)例子可以看到互聯(lián)網(wǎng)作為第一階段改變交流方式,所謂深度挖掘就進入一種新方式,同時這種數(shù)據(jù)宏觀統(tǒng)計的分析也改變了我們過去研究當中要知其所以然,而不只能知其然這樣的分析。
第三云計算下大數(shù)據(jù)新價值,這個價值更有意義是學術價值,傳播理論實踐是科學研究的三個手段。類似于我們看到很多這樣的研究工作都是在這樣基本方式下進行。現(xiàn)在很多學者預測數(shù)據(jù)密集型的測算成為第四種科學研究的模式,推進我們對社會、自然的認識和理解。這個變化一個是商業(yè)社會價值,另外一方面就是學術價值。給我們計算機研究人員一個挑戰(zhàn)就是本身對于軟件和理論正處于一個轉型和新變革時期。我這里簡單做一個粗略的理解,從計算機發(fā)現(xiàn)一開始我們圍繞科學計算,第二階段我們?yōu)樯虡I(yè)階段,現(xiàn)在假定是云計算這種簡單代名詞來看我們知道過去計算機研究基礎問題就是圖靈機的算法和復雜性,商業(yè)研究流程和數(shù)據(jù)處理,云計算考慮數(shù)據(jù)科學和數(shù)據(jù)理論?茖W計算和數(shù)據(jù)處理為基礎,推進數(shù)據(jù)庫的發(fā)展,在大數(shù)據(jù)在數(shù)據(jù)科學下,現(xiàn)在我們知道HPdoop,mis這樣僅僅是一個出入,會有很多方式推進這個工作。
從計算機發(fā)展轉型和過程當中對新計算模型新軟件理論和復雜性,以及對軟件系統(tǒng)互聯(lián)網(wǎng)的軟件都提出了很多的挑戰(zhàn)。比如說第一大的問題就是對軟件和數(shù)據(jù)服務的能力。因為軟件的復雜性已經(jīng)超過過去我們傳統(tǒng)的軟件。而非功能屬性,我們完成做加減這樣,更多考慮服務質(zhì)量可用性,同時當前互聯(lián)網(wǎng)應用我們過去對軟件維護和生產(chǎn)成本已經(jīng)是非常昂貴,在當前無須復雜系統(tǒng)配置,對終端資源不需要更多管理,也不需要你的服務對象在什么地方,只需要關注在互聯(lián)網(wǎng)下你需要什么樣的服務,和需要什么樣的資源。因此在云計算的軟件和我們傳統(tǒng)所看到軟件研究的方式,傳播的方式和維護的方式有了很大變化。
我們過去考慮是單機或者是簡單的局域網(wǎng)機器內(nèi)部變化,在互聯(lián)網(wǎng)下如何進行軟件開發(fā),計算平臺不是一個簡單小的AP這樣的軟件,未來應用模式我們希望互聯(lián)網(wǎng)作為完整的計算平臺,因此對于未來軟件機遇也許我們現(xiàn)在開始品嘗到這種有效的模式,就是用戶是開發(fā)者也是使用者。由數(shù)據(jù)和服務的提供商把它軟件上載上傳數(shù)據(jù)服務的運營商,由數(shù)據(jù)服務運營商實際上提供整個對軟件服務進行支撐配置集成、開發(fā)和應用,也許這是未來像電信運營商一樣,服務運營商將會成為越來越重要互聯(lián)網(wǎng)一種計算新平臺。同時在這種計算平臺下我們看到數(shù)據(jù)處理本身技術挑戰(zhàn)是非常多的,例如美國總統(tǒng)委員會的報告,在過去連續(xù)10年當中一直創(chuàng)造十億美元以上的計算機產(chǎn)業(yè)主要是由數(shù)據(jù)處理這些領域發(fā)生,并行數(shù)據(jù)庫、數(shù)據(jù)挖掘這些工具,在傳統(tǒng)數(shù)據(jù)處理能力,已經(jīng)不適應在云計算處理,2010年每年處理有70TB而且是壓縮數(shù)據(jù),這么大量的數(shù)據(jù)用傳統(tǒng)的數(shù)據(jù)不僅存不了,而且價格貴。現(xiàn)在雅虎HPdoop節(jié)點,一年下來超過四千個節(jié)點,不是簡單的單一數(shù)據(jù)庫,綜合數(shù)據(jù)方面超過了三千個節(jié)點,對這樣數(shù)據(jù)處理的要求和當前技術提供的這樣裝備來看,應該說這個領域?qū)兄匾魬?zhàn)和機會。同時在數(shù)據(jù)處理本身來說維護的成本,數(shù)據(jù)更新的成本和本身數(shù)據(jù)維護的模式都有很多差別。
因此在這樣一個領域里將會有無限生機和新技術的挑戰(zhàn)。這里有很多問題,比如說我們過去看到MIS的方式,相當于全部數(shù)據(jù)到齊一次處理,最近發(fā)現(xiàn)應用過程當中有很多問題,兩年前OSDI對MIS進一步的升級考慮,對數(shù)據(jù)增量計算有很多局限,對新算法新問題有很多局限性,大數(shù)據(jù)算法面臨很大挑戰(zhàn),不僅是由小到大量變,更多發(fā)生根本的變化。在數(shù)據(jù)處理計算支撐當中,同時對大數(shù)據(jù)計算模型,分布式系統(tǒng)的架構,對數(shù)據(jù)挖掘,預測方面都是現(xiàn)在技術沒有辦法完全解決的。在未來大規(guī)模數(shù)據(jù)處理支持平臺也是在云計算和大數(shù)據(jù)計算一個重要的問題。特別是我們過去計算當中計算是被動的,以計算為主動,在轉換需要存儲計算聯(lián)動,作為新的架構和新方式應該說也是正在研究和不斷發(fā)展當中,如何有效把存儲和計算,特別是基于數(shù)據(jù)主動型的計算作為新機構和處理平臺設計變成重要問題。
我們前面提到大數(shù)據(jù)不僅改變我們通訊模式,也影響到我們經(jīng)濟和社會生活發(fā)展模式,更重要它可能是未來學術和科學研究發(fā)現(xiàn)的一種重要手段。這種重要手段也改變了我們過去計算機研究很多新視野和空間。比如說我們過去以50年代以來一直以抽樣進行,工業(yè)進行測試以抽樣方式做,大數(shù)據(jù)當中不是以抽樣做,比如說我們炒菜嘗一嘗,我們事先有理解,受熱面積均勻,當你嘗一嘗雖然對局部進行分析,但是對全盤數(shù)據(jù)有把握。但是大數(shù)據(jù)下局部數(shù)據(jù)不可能,炒菜過程當中不斷加新的菜,所以局部處理已經(jīng)不能保證我們對數(shù)據(jù)的完整。
我們?nèi)ベI鞋子不會跑遍北京所有鞋店買鞋子,我們通常跟我們成本進行計算不會達到最后的絕對成本。
在醫(yī)療當中很難說一個醫(yī)生把對癥下藥問題原因用很好科學方法說出來,更多是關聯(lián)關系,通過過去經(jīng)驗映射到我們對當前治療的理解。大數(shù)據(jù)給我們帶來很多新研究和挑戰(zhàn)。我們搞計算機過去數(shù)據(jù)基礎就是我們離散數(shù)據(jù)和我們傳統(tǒng)200年以前的數(shù)據(jù),現(xiàn)在面臨不僅考慮近百年,特別是工業(yè)發(fā)展以后我們對統(tǒng)計新數(shù)據(jù)分析的理解,更重要從應用數(shù)學,和我們計算機科學整個多方面的理解。
對于云計算的大數(shù)據(jù)對于科學研究的意義是相當大的,所以我理解我們對于大數(shù)據(jù)的問題!社會上談四維的特征,我們自己更多理解從研究角度理解大數(shù)據(jù)對計算本身產(chǎn)生什么樣的重要影響,這是我前面提到如何進入增量型計算,如何進入非確定性計算,如何研究歸納計算,改變我們計算機做系統(tǒng)的時候,把一個問題變成N個問題,每個問題思考代表我們對問題的解決。大數(shù)據(jù)下由于增量和更多不確定性,我們更多需要做綜合分析歸納的方法,對于大數(shù)據(jù)的科學計算,我們考慮數(shù)據(jù)持續(xù)增長不斷變化特別對高實時的要求下,它的增量計算,以及把過去還原法結合的新計算。這些問題我們看做是大數(shù)據(jù)計算和新問題,這個也是未來大數(shù)據(jù)處理當中我們的理解和認識。
第二個問題就是關于計算機學科的基本問題。我們計算機做當中我們說這事情能不能算,對計算機人來說不是所有問題都能算的,只有能算的問題才配得上拿計算機算,就像我們保密、加密以10的一次方,六一次方在一定時間內(nèi)不可算的問題。我們研究基本問題這個電視能不能計算,我們說有五個城市能不能不重復的走遍每一點,這是我們傳統(tǒng)說TSP,不存在一種算法使得你完成一遍一遍不走其他路,比如說電路板設計,都有很多不可計算的,算法是我們搞計算機基礎問題,是不是能計算。
從過去有計算機以來,應該說算法研究一直是計算機科學的根本問題,我這里只列出來從70年代到90年代有10位圖靈獎的獲得者,他們在算法和重要歷史階段獲得了計算機的最高獎,叫圖靈獎。發(fā)現(xiàn)有些問題算不了,大家知道60年代美國做了長期研究工作,其中一條和治療癌癥,登月計劃同樣重要的計劃。算法方面研究是計算機重要的研究,大數(shù)據(jù)的時代計算復雜度和算法都有新問題。最基本原因我們非常清楚數(shù)據(jù)量如此之大,所以的機器和算法存儲能力都被占滿。因此作為計算機的工作者面對大數(shù)據(jù)下和新的計算模式面對新的問題,數(shù)據(jù)不可計算和存儲下有沒有新手段支持。
我們過去研究問題我跟大家在這里報告,目前大家全球最快硬盤讀取速度是每秒6個GB,這是線型掃描,掃描一個PB的數(shù)據(jù)要將近兩天,一個EB需要五年多,而百度一天處理網(wǎng)頁數(shù)量10個PB,19天你才可以把它掃描完的東西還不考慮后面的處理,顯然這方面工作大數(shù)據(jù)是大的災難,但是對研究有很多新機會。我上邊這張圖就是以世界最快掃描設備讀取最快的磁盤來說,要19天完成對它的掃描量。這樣問題大數(shù)據(jù)傳解一定是一個難問題,因此明明知道大數(shù)據(jù)已經(jīng)給我們帶來新的問題,它傳統(tǒng)的計算復雜性在當下要求掃描完1.9TB,要求我們一分鐘就要看到一個數(shù)據(jù),怎么定義?怎么分析?如何研究?就帶來很多問題。這些問題應該會對過去50年來計算復雜性算法一個重要問題。
我這里給一張圖12年前著名的會議上談論的事情。我們看到縱軸是測試數(shù)據(jù)的準確率,橫軸是數(shù)據(jù)規(guī)模,隨著規(guī)模增大,在小數(shù)據(jù)樣本下好算法和壞算法差異不是太大。及時是壞的算法我看縱軸1坐標下排到80%以下的識別率算法,隨著數(shù)據(jù)規(guī)模10倍100倍1000倍變化,已經(jīng)接近最好的算法,算法的簡潔等要做處理。這樣給我們帶來重新對我們復雜性分析設計的新問題。我們科學問題第二個情況下我們不僅過去我們考慮算法研究F的,收入是S,用F做函數(shù)得出是一個結果,過去考慮F設計如何好就可以了,現(xiàn)在S不是量的變化而是質(zhì)的變化下來,它對算法的影響,小數(shù)據(jù)算法的好壞特別重要,大數(shù)據(jù)下算法數(shù)據(jù)受到相當大的影響。
這個必須考慮算法和數(shù)據(jù)本身不斷動態(tài)變化如何找到和它最能逼近最近似有效的方法,這個要考慮在大數(shù)據(jù)計算當中如何找到平衡點,這個平衡點需要我們在數(shù)據(jù)量算法數(shù)量三者考慮,現(xiàn)在F和S疊加起來考慮問題對于我們新系統(tǒng)設計就要求非常多,這樣對我們計算有很多問題。
第三個問題就是大數(shù)據(jù)下數(shù)據(jù)沒辦法表示,大部分用新數(shù)據(jù)表示,在當前運用當中都不使,當我們一維10維到三千萬維這些數(shù)據(jù)我們處理怎么表示。所以這些問題我們需要從傳統(tǒng)計算模式走出來,第二我們對于高維空間抽取的特征以及對于計算重新認識和量化。
我們看我們現(xiàn)在寫微博很簡單,到后臺計算機處理當中你現(xiàn)有方式持續(xù)不了,這個也是重要研究的機遇問題,表示、計算、異構高于數(shù)據(jù)。我們現(xiàn)在計算手段只能簡單的存儲,特別是每一天過去都會帶來很多新問題。針對數(shù)據(jù)規(guī)模大,種類雜、變化快的云計算對數(shù)據(jù)的分析和挖掘也還有新問題。比如說我們現(xiàn)在中國有四大微博系統(tǒng),對于過去挖掘只在一大微博系統(tǒng),對同一事物理解我用語言用文字用聲音圖像不同方式表現(xiàn)出來,如何在跨越之間表示聯(lián)動性,如何在不同領域遷徙。過去在單一的挖掘,從小樣空間做的數(shù)據(jù)非常漂亮,在廣域不斷擴展規(guī)模下數(shù)據(jù)處理能力,分析綜合能力都遇到很多問題。所以對數(shù)據(jù)理解和分析就很重要。給了這么多數(shù)據(jù)你分析的結果為什么是有效可信的,所以對數(shù)據(jù)本身的理解也變了,數(shù)據(jù)的可視化更重要給出我們對多元數(shù)據(jù)異構類的數(shù)據(jù)給出直觀可視的結果,這個也是我們對大數(shù)據(jù)模式下研究的問題。對于云計算下大數(shù)據(jù)和云計算本身我們思考云計算是一種計算模式,背后處理是重要的,隨著應用發(fā)展云計算的服務質(zhì)量一定會重要成為研究的內(nèi)容,挖掘有效信息,糾正不確定的信息,并且能夠把多樣性的數(shù)據(jù)進行結合,也許也是今后大數(shù)據(jù)下它的服務質(zhì)量一種新的挑戰(zhàn),包括智能的搜索,我們以前是關鍵詞、文檔搜索進入社會網(wǎng)絡當中,實際上開始進入(英文),這種新搜索模式也是所有互聯(lián)網(wǎng)公司發(fā)展重要的內(nèi)容。
第四個重要問題就是關于可信和隱私。我這里是幾前年的例子,當時有一家公司他可以根據(jù)你上網(wǎng)的習慣,除了名字沒有特別挖掘到,他知道他是建筑師住在什么地方,他家里人口結構,以及最近他的購買習慣。我們知道西方人的生日和他購買習慣直接關聯(lián),這些數(shù)據(jù)是絕對個人隱私,你在網(wǎng)上任何一個單位,提供家庭住址和個人的生日號碼的時候是違法是被禁止的,所以通過這樣一個網(wǎng)站分析我們可以看到,他可以把你很多相關信息都給挖掘出來。同時在社會網(wǎng)絡當中也有很多被利用作為敏感信息的發(fā)現(xiàn),因此未來當大數(shù)據(jù)更多的在分析和應用之后,我們知道百度可以知道你上網(wǎng)行為,你思考的關注點可能性。你在淘寶的行為知道你購物習慣,在微博更多了解你在這個領域的思維情況,關于可信和隱私也是未來關注的問題。
如果說我們曾經(jīng)有過互聯(lián)網(wǎng)的快速發(fā)展基于信息服務業(yè)的話,那么未來圍繞大數(shù)據(jù)或者現(xiàn)在的名字還叫云計算,那么新的虛擬計算模式是重要的,基本標志就是數(shù)據(jù)服務成為越多產(chǎn)業(yè)技術和研究重要的內(nèi)容。計算模式的變遷可能造成時代變化。在現(xiàn)在探討中國互聯(lián)網(wǎng)新的價值和它的科學價值或者產(chǎn)業(yè)價值的時候,我覺得這里有我們很多機遇,我想我們也會努力探索這方面的工作。
謝謝各位!