北京航空航天大學(xué)校長(zhǎng)懷進(jìn)鵬在下午舉行的“名人堂——互聯(lián)網(wǎng)趨勢(shì)論壇”上表示,云計(jì)算下大數(shù)據(jù)將產(chǎn)生新價(jià)值。一個(gè)是商業(yè)社會(huì)價(jià)值,另一個(gè)是學(xué)術(shù)價(jià)值。
大數(shù)據(jù)不僅改變我們通訊模式,也影響到我們經(jīng)濟(jì)和社會(huì)生活發(fā)展模式,更重要它可能是未來(lái)學(xué)術(shù)和科學(xué)研究發(fā)現(xiàn)的一種重要手段。
但是他同時(shí)表示,大數(shù)據(jù)的應(yīng)用會(huì)不可避免地涉及隱私。
懷進(jìn)鵬提出,網(wǎng)站利用大數(shù)據(jù)可以將個(gè)人的許多相關(guān)信息挖掘出來(lái)。未來(lái)當(dāng)大數(shù)據(jù)更多的應(yīng)用之后,百度可以知道你上網(wǎng)行為,你思考的關(guān)注點(diǎn)可能性。淘寶可以了解你的購(gòu)物習(xí)慣,微博會(huì)了解你在某個(gè)領(lǐng)域的思維情況。因此,關(guān)于可信和隱私也是未來(lái)需關(guān)注的問(wèn)題。
以下是懷進(jìn)鵬演講實(shí)錄:
懷進(jìn)鵬:謝謝主持人,剛才前面鄔先生做了一個(gè)非常精彩的報(bào)告關(guān)于大數(shù)據(jù),我下面向各位匯報(bào)一下有關(guān)對(duì)云計(jì)算和大數(shù)據(jù)在一些方面的思考。主要是兩個(gè)部分,第一個(gè)互聯(lián)網(wǎng)的發(fā)展所派生和影響出來(lái)的一種新模式和數(shù)據(jù)作為當(dāng)前和未來(lái)的一個(gè)重點(diǎn)。第二就是云計(jì)算和大數(shù)據(jù)研究的一些思考。
我們大家都非常清楚,由于主干網(wǎng)六個(gè)月增加一倍,而費(fèi)用將區(qū)域分零,這個(gè)也是著名的基爾德(音)定律,這20年在計(jì)算儲(chǔ)備和計(jì)算當(dāng)中,計(jì)算速度存儲(chǔ)容量增快,內(nèi)存硬盤(pán)價(jià)格下降了45000倍和360萬(wàn)倍,這樣一個(gè)數(shù)據(jù)給我們簡(jiǎn)單認(rèn)識(shí),一個(gè)數(shù)據(jù)如何獲取帶寬,另外一個(gè)數(shù)據(jù)的計(jì)算和存儲(chǔ)需要的成本。因此作為在當(dāng)前的互聯(lián)網(wǎng)應(yīng)用情況下,實(shí)際上我們進(jìn)入一個(gè)更好的數(shù)據(jù)服務(wù)這樣一個(gè)新時(shí)代。因?yàn)閹挷粩嗵嵘呀?jīng)成為基本廉價(jià)的費(fèi)用,我們不擔(dān)心上網(wǎng)需要很多費(fèi)用,通訊超過(guò)摩爾定律,我們一切都是在線一切是互聯(lián)網(wǎng)絡(luò)的計(jì)算,這樣方式使IT和通訊領(lǐng)域也是進(jìn)一步在業(yè)務(wù)方面進(jìn)行整合。所以我們很難分辨出IPone、谷歌(微博)、雅虎包括我們微軟一部分業(yè)務(wù),很難說(shuō)一定是傳統(tǒng)的IT還是電信新服務(wù)的內(nèi)容。
這個(gè)領(lǐng)域當(dāng)中原來(lái)有一種說(shuō)法,上世紀(jì)60年代互聯(lián)網(wǎng)的先驅(qū)也是心理學(xué)家叫里德(音),他說(shuō)未來(lái)計(jì)算機(jī)互聯(lián)網(wǎng)他有一個(gè)設(shè)想,這個(gè)設(shè)想就是把世界所有的計(jì)算機(jī)連在一起,能夠讓用戶(hù)使用遠(yuǎn)程的計(jì)算機(jī),實(shí)現(xiàn)兩個(gè)功能:第一個(gè)功能怎么獲取數(shù)據(jù),第二功能怎么用別人的計(jì)算機(jī)。對(duì)于第一個(gè)功能和正在開(kāi)展使用多臺(tái)計(jì)算機(jī)遠(yuǎn)程方面,實(shí)際上一直是計(jì)算機(jī)和信息領(lǐng)域?qū)W者研究實(shí)踐努力的方向,第一個(gè)信息出現(xiàn),TIC的出現(xiàn),使得我們?cè)谌蛉魏我粋(gè)地方可以送達(dá)數(shù)據(jù)的內(nèi)容,這個(gè)事情在計(jì)算機(jī)世界是重要的事。另外一方面我們知道七八十年代有一個(gè)更重要的進(jìn)展就是操作系統(tǒng),操作系統(tǒng)實(shí)際上由微機(jī)出現(xiàn)把傳統(tǒng)專(zhuān)業(yè)人士可以更多的向普通的非計(jì)算機(jī)專(zhuān)業(yè)人士來(lái)使用計(jì)算機(jī)。這個(gè)事情做的重要貢獻(xiàn)就是我們可以不知道內(nèi)存怎么管理,計(jì)算怎么分配時(shí)間,這樣的情況下單機(jī)和大型機(jī)管理,也提供了技術(shù)和方法。由于操作系統(tǒng)的重要突破,這個(gè)領(lǐng)域當(dāng)中先后有兩次圖靈獎(jiǎng)?lì)C獎(jiǎng),一個(gè)頒給了IBM360的人,一個(gè)頒給了(英文)。這兩個(gè)人都是由操作系統(tǒng)貢獻(xiàn)獲得了圖靈獎(jiǎng)。
計(jì)算機(jī)一個(gè)永恒的主題就是探討數(shù)據(jù)處理能力如何更好,如何更快如何更強(qiáng)。圍繞這樣一個(gè)領(lǐng)域從過(guò)去所謂的P2P現(xiàn)在云計(jì)算以及移動(dòng)計(jì)算物聯(lián)網(wǎng)還有智慧地球應(yīng)用的模式,都是把數(shù)據(jù)庫(kù)作為它重要的一個(gè)核心。來(lái)把過(guò)去的計(jì)算模式向云向其他一種方式轉(zhuǎn)型當(dāng)中來(lái)強(qiáng)調(diào)數(shù)據(jù)資源來(lái)更有效的利用。這個(gè)過(guò)程當(dāng)中無(wú)論從科學(xué)的角度還是面向某個(gè)領(lǐng)域應(yīng)用角度,還是從計(jì)算模式的轉(zhuǎn)型,對(duì)某一類(lèi)計(jì)算終端來(lái)說(shuō)都是更好的計(jì)算能力。我們由于帶寬低廉使得我們上網(wǎng)成本越來(lái)越低,就是說(shuō)互聯(lián)網(wǎng)給我們帶來(lái)新的機(jī)會(huì),從簡(jiǎn)單通訊平臺(tái)進(jìn)入互聯(lián)網(wǎng)作為一種更廣泛的計(jì)算平臺(tái)。
云計(jì)算是一個(gè)什么內(nèi)容我們大家都很清楚,它是基于數(shù)據(jù)中心,強(qiáng)調(diào)性?xún)r(jià)比、效率、可信新的服務(wù)運(yùn)營(yíng)模式,這是提高高端計(jì)算利用率,同時(shí)提升低端計(jì)算事物處理能力,我們不關(guān)注本身計(jì)算機(jī)的能力,更多提供給后臺(tái),由后臺(tái)強(qiáng)大的處理能力完成。我們看到大數(shù)據(jù)基于云計(jì)算模式的應(yīng)用也好,可能對(duì)服務(wù)質(zhì)量保證未必完全有效。就像大食堂和小灶一樣,你要想吃得好要付出你的成本處理,來(lái)吃得更好。我們?cè)谶@個(gè)會(huì)議樓上正常提供五千人,突然來(lái)了五萬(wàn)人要就餐我們?cè)趺慈プ觯恳环N簡(jiǎn)單的方式比如說(shuō)營(yíng)養(yǎng)保持食品的問(wèn)題,白菜燉豆腐,好不好難說(shuō),但是提供基本服務(wù),在一定程度上云計(jì)算并不能夠提供高質(zhì)量的一種服務(wù)能力,應(yīng)用環(huán)境不斷發(fā)展對(duì)互聯(lián)網(wǎng)大規(guī)模應(yīng)用過(guò)程當(dāng)中所產(chǎn)生的一種計(jì)算模式。
基本應(yīng)用模式第一次確實(shí)把信息技術(shù)能夠作為在未來(lái)的一種基礎(chǔ)設(shè)施,那么它核心技術(shù)前面剛才鄔院士提出了用TB的方式提供更多的隔離性,以便提供更有效的服務(wù)。為互聯(lián)網(wǎng)應(yīng)用推出新的計(jì)算手段和能力,這十年來(lái)從不同角度的探索,另外一個(gè)互聯(lián)網(wǎng)應(yīng)用需求當(dāng)中也對(duì)云計(jì)算的模式提供新的要求,正向前面講到大數(shù)據(jù)本身特點(diǎn),規(guī)模大,變化快,種類(lèi)雜,在社交類(lèi),搜索類(lèi)都有相當(dāng)多數(shù)據(jù)類(lèi)型的表現(xiàn),以及在我們社會(huì)生活當(dāng)中很多方面。曾經(jīng)圖靈獎(jiǎng)獲得者說(shuō)18個(gè)翻一番,過(guò)去數(shù)據(jù)是確定性的數(shù)據(jù),當(dāng)前是人機(jī)物融合數(shù)據(jù)多樣性和異構(gòu)性是當(dāng)前數(shù)據(jù)特別重要的特點(diǎn),F(xiàn)在數(shù)據(jù)遠(yuǎn)不止18個(gè)月翻一番,更高數(shù)據(jù)在發(fā)展。
去年大數(shù)據(jù)成為整個(gè)信息技術(shù)和社會(huì)當(dāng)中的熱門(mén)詞,也成為世界上第二大熱門(mén)詞而引起全世界的關(guān)注。去年的時(shí)候做了一次未來(lái)趨勢(shì)走向?qū)υ朴?jì)算大數(shù)據(jù)的發(fā)展過(guò)程給出了它的一個(gè)走向。這個(gè)圖當(dāng)中給出就是對(duì)云計(jì)算所謂私有云以及混合云,還有未來(lái)大數(shù)據(jù)它在發(fā)展當(dāng)中能夠產(chǎn)生產(chǎn)業(yè)的空間。它的預(yù)測(cè)大概在2016年的時(shí)候大數(shù)據(jù)的相關(guān)產(chǎn)業(yè)將達(dá)到2000多個(gè)億的規(guī)模,數(shù)據(jù)成為經(jīng)濟(jì)社會(huì)一個(gè)重要的驅(qū)動(dòng)力。同樣做了一個(gè)分析,去年下半年對(duì)于全球整個(gè)企業(yè)投入大數(shù)據(jù)研究,已經(jīng)投資在大數(shù)據(jù)領(lǐng)域的情況可以看到,目前在教育、交通之醫(yī)療以及能源這些領(lǐng)域超過(guò)大概30%,已經(jīng)事實(shí)性的投資,作為下一步繼續(xù)開(kāi)展工作有很多發(fā)展,對(duì)于大數(shù)據(jù)和云計(jì)算的投入。
這種方式我們看到由于互聯(lián)網(wǎng)快速普及,大量應(yīng)用在互聯(lián)網(wǎng)的計(jì)算服務(wù)從主機(jī)到客戶(hù)服務(wù)到虛擬計(jì)算表現(xiàn),也許云計(jì)算僅僅是對(duì)于虛擬計(jì)算環(huán)境的一種表達(dá)方式,還有很多。包括我們說(shuō)的物聯(lián)網(wǎng)等等,隨著時(shí)間和應(yīng)用模式變換,這種名詞會(huì)很多,人們對(duì)于它的理解和要求會(huì)有很多變化。
第二部分我們對(duì)未來(lái)互聯(lián)網(wǎng)作為一個(gè)普通用戶(hù)來(lái)說(shuō)更多希望成為大的計(jì)算服務(wù)平臺(tái),相當(dāng)于我們?cè)谧约汗P記本電腦上,臺(tái)式機(jī)上自己使用自己的系統(tǒng)資源一樣。需要配置相當(dāng)于有一個(gè)大的計(jì)算操作系統(tǒng)管理這個(gè)系統(tǒng),以便實(shí)現(xiàn)當(dāng)時(shí)對(duì)未來(lái)互聯(lián)網(wǎng)的猜想,可以使遠(yuǎn)程計(jì)算遠(yuǎn)程數(shù)據(jù)資源共同完成你所需要的服務(wù)。
這種模式實(shí)際上對(duì)互聯(lián)網(wǎng)無(wú)論從去中心化,和終端更有效的連接都是在這樣一個(gè)方式思考。我們說(shuō)互聯(lián)網(wǎng)曾經(jīng)改變了我們的交流方式,大數(shù)據(jù)現(xiàn)在已經(jīng)改變我們經(jīng)濟(jì)和生活的很多內(nèi)容。鄔先生報(bào)告當(dāng)中舉了特別多很有說(shuō)服力的例子,說(shuō)明大數(shù)據(jù)對(duì)我們不僅是交流方式,更重要它改變我們經(jīng)濟(jì)和社會(huì)生活。我這里有幾個(gè)例子,比如說(shuō)谷歌在2007用兩萬(wàn)億單詞訓(xùn)練語(yǔ)言模型,這個(gè)也是大數(shù)據(jù)產(chǎn)生很好的效果。我們知道醫(yī)療有KS.BS研究對(duì)于產(chǎn)生新藥物很有好處。預(yù)測(cè)H7N9流感爆發(fā)用了4.5億模擬,最后提前兩到三周比傳統(tǒng)疾控中心更早預(yù)報(bào)所發(fā)生地區(qū)類(lèi)型,阿里巴巴百度這方面工作都有很多杰出表現(xiàn),主要原因因?yàn)樗麄儞碛幸粋(gè)強(qiáng)大,真實(shí)可運(yùn)行的數(shù)據(jù)提供。我們情況百度和谷歌使得它可以研究分析我們每一個(gè)人上網(wǎng)游覽行為。淘寶網(wǎng)和亞馬遜可以熟悉用戶(hù)的購(gòu)物習(xí)慣和社會(huì)交往的習(xí)慣。像微博對(duì)于我們社會(huì)思維對(duì)一些方式的理解也有很多變化,可以從這樣幾個(gè)數(shù)據(jù)例子可以看到互聯(lián)網(wǎng)作為第一階段改變交流方式,所謂深度挖掘就進(jìn)入一種新方式,同時(shí)這種數(shù)據(jù)宏觀統(tǒng)計(jì)的分析也改變了我們過(guò)去研究當(dāng)中要知其所以然,而不只能知其然這樣的分析。
第三云計(jì)算下大數(shù)據(jù)新價(jià)值,這個(gè)價(jià)值更有意義是學(xué)術(shù)價(jià)值,傳播理論實(shí)踐是科學(xué)研究的三個(gè)手段。類(lèi)似于我們看到很多這樣的研究工作都是在這樣基本方式下進(jìn)行,F(xiàn)在很多學(xué)者預(yù)測(cè)數(shù)據(jù)密集型的測(cè)算成為第四種科學(xué)研究的模式,推進(jìn)我們對(duì)社會(huì)、自然的認(rèn)識(shí)和理解。這個(gè)變化一個(gè)是商業(yè)社會(huì)價(jià)值,另外一方面就是學(xué)術(shù)價(jià)值。給我們計(jì)算機(jī)研究人員一個(gè)挑戰(zhàn)就是本身對(duì)于軟件和理論正處于一個(gè)轉(zhuǎn)型和新變革時(shí)期。我這里簡(jiǎn)單做一個(gè)粗略的理解,從計(jì)算機(jī)發(fā)現(xiàn)一開(kāi)始我們圍繞科學(xué)計(jì)算,第二階段我們?yōu)樯虡I(yè)階段,現(xiàn)在假定是云計(jì)算這種簡(jiǎn)單代名詞來(lái)看我們知道過(guò)去計(jì)算機(jī)研究基礎(chǔ)問(wèn)題就是圖靈機(jī)的算法和復(fù)雜性,商業(yè)研究流程和數(shù)據(jù)處理,云計(jì)算考慮數(shù)據(jù)科學(xué)和數(shù)據(jù)理論。科學(xué)計(jì)算和數(shù)據(jù)處理為基礎(chǔ),推進(jìn)數(shù)據(jù)庫(kù)的發(fā)展,在大數(shù)據(jù)在數(shù)據(jù)科學(xué)下,現(xiàn)在我們知道HPdoop,mis這樣僅僅是一個(gè)出入,會(huì)有很多方式推進(jìn)這個(gè)工作。
從計(jì)算機(jī)發(fā)展轉(zhuǎn)型和過(guò)程當(dāng)中對(duì)新計(jì)算模型新軟件理論和復(fù)雜性,以及對(duì)軟件系統(tǒng)互聯(lián)網(wǎng)的軟件都提出了很多的挑戰(zhàn)。比如說(shuō)第一大的問(wèn)題就是對(duì)軟件和數(shù)據(jù)服務(wù)的能力。因?yàn)檐浖膹?fù)雜性已經(jīng)超過(guò)過(guò)去我們傳統(tǒng)的軟件。而非功能屬性,我們完成做加減這樣,更多考慮服務(wù)質(zhì)量可用性,同時(shí)當(dāng)前互聯(lián)網(wǎng)應(yīng)用我們過(guò)去對(duì)軟件維護(hù)和生產(chǎn)成本已經(jīng)是非常昂貴,在當(dāng)前無(wú)須復(fù)雜系統(tǒng)配置,對(duì)終端資源不需要更多管理,也不需要你的服務(wù)對(duì)象在什么地方,只需要關(guān)注在互聯(lián)網(wǎng)下你需要什么樣的服務(wù),和需要什么樣的資源。因此在云計(jì)算的軟件和我們傳統(tǒng)所看到軟件研究的方式,傳播的方式和維護(hù)的方式有了很大變化。
我們過(guò)去考慮是單機(jī)或者是簡(jiǎn)單的局域網(wǎng)機(jī)器內(nèi)部變化,在互聯(lián)網(wǎng)下如何進(jìn)行軟件開(kāi)發(fā),計(jì)算平臺(tái)不是一個(gè)簡(jiǎn)單小的AP這樣的軟件,未來(lái)應(yīng)用模式我們希望互聯(lián)網(wǎng)作為完整的計(jì)算平臺(tái),因此對(duì)于未來(lái)軟件機(jī)遇也許我們現(xiàn)在開(kāi)始品嘗到這種有效的模式,就是用戶(hù)是開(kāi)發(fā)者也是使用者。由數(shù)據(jù)和服務(wù)的提供商把它軟件上載上傳數(shù)據(jù)服務(wù)的運(yùn)營(yíng)商,由數(shù)據(jù)服務(wù)運(yùn)營(yíng)商實(shí)際上提供整個(gè)對(duì)軟件服務(wù)進(jìn)行支撐配置集成、開(kāi)發(fā)和應(yīng)用,也許這是未來(lái)像電信運(yùn)營(yíng)商一樣,服務(wù)運(yùn)營(yíng)商將會(huì)成為越來(lái)越重要互聯(lián)網(wǎng)一種計(jì)算新平臺(tái)。同時(shí)在這種計(jì)算平臺(tái)下我們看到數(shù)據(jù)處理本身技術(shù)挑戰(zhàn)是非常多的,例如美國(guó)總統(tǒng)委員會(huì)的報(bào)告,在過(guò)去連續(xù)10年當(dāng)中一直創(chuàng)造十億美元以上的計(jì)算機(jī)產(chǎn)業(yè)主要是由數(shù)據(jù)處理這些領(lǐng)域發(fā)生,并行數(shù)據(jù)庫(kù)、數(shù)據(jù)挖掘這些工具,在傳統(tǒng)數(shù)據(jù)處理能力,已經(jīng)不適應(yīng)在云計(jì)算處理,2010年每年處理有70TB而且是壓縮數(shù)據(jù),這么大量的數(shù)據(jù)用傳統(tǒng)的數(shù)據(jù)不僅存不了,而且價(jià)格貴。現(xiàn)在雅虎HPdoop節(jié)點(diǎn),一年下來(lái)超過(guò)四千個(gè)節(jié)點(diǎn),不是簡(jiǎn)單的單一數(shù)據(jù)庫(kù),綜合數(shù)據(jù)方面超過(guò)了三千個(gè)節(jié)點(diǎn),對(duì)這樣數(shù)據(jù)處理的要求和當(dāng)前技術(shù)提供的這樣裝備來(lái)看,應(yīng)該說(shuō)這個(gè)領(lǐng)域?qū)?huì)有重要挑戰(zhàn)和機(jī)會(huì)。同時(shí)在數(shù)據(jù)處理本身來(lái)說(shuō)維護(hù)的成本,數(shù)據(jù)更新的成本和本身數(shù)據(jù)維護(hù)的模式都有很多差別。
因此在這樣一個(gè)領(lǐng)域里將會(huì)有無(wú)限生機(jī)和新技術(shù)的挑戰(zhàn)。這里有很多問(wèn)題,比如說(shuō)我們過(guò)去看到MIS的方式,相當(dāng)于全部數(shù)據(jù)到齊一次處理,最近發(fā)現(xiàn)應(yīng)用過(guò)程當(dāng)中有很多問(wèn)題,兩年前OSDI對(duì)MIS進(jìn)一步的升級(jí)考慮,對(duì)數(shù)據(jù)增量計(jì)算有很多局限,對(duì)新算法新問(wèn)題有很多局限性,大數(shù)據(jù)算法面臨很大挑戰(zhàn),不僅是由小到大量變,更多發(fā)生根本的變化。在數(shù)據(jù)處理計(jì)算支撐當(dāng)中,同時(shí)對(duì)大數(shù)據(jù)計(jì)算模型,分布式系統(tǒng)的架構(gòu),對(duì)數(shù)據(jù)挖掘,預(yù)測(cè)方面都是現(xiàn)在技術(shù)沒(méi)有辦法完全解決的。在未來(lái)大規(guī)模數(shù)據(jù)處理支持平臺(tái)也是在云計(jì)算和大數(shù)據(jù)計(jì)算一個(gè)重要的問(wèn)題。特別是我們過(guò)去計(jì)算當(dāng)中計(jì)算是被動(dòng)的,以計(jì)算為主動(dòng),在轉(zhuǎn)換需要存儲(chǔ)計(jì)算聯(lián)動(dòng),作為新的架構(gòu)和新方式應(yīng)該說(shuō)也是正在研究和不斷發(fā)展當(dāng)中,如何有效把存儲(chǔ)和計(jì)算,特別是基于數(shù)據(jù)主動(dòng)型的計(jì)算作為新機(jī)構(gòu)和處理平臺(tái)設(shè)計(jì)變成重要問(wèn)題。
我們前面提到大數(shù)據(jù)不僅改變我們通訊模式,也影響到我們經(jīng)濟(jì)和社會(huì)生活發(fā)展模式,更重要它可能是未來(lái)學(xué)術(shù)和科學(xué)研究發(fā)現(xiàn)的一種重要手段。這種重要手段也改變了我們過(guò)去計(jì)算機(jī)研究很多新視野和空間。比如說(shuō)我們過(guò)去以50年代以來(lái)一直以抽樣進(jìn)行,工業(yè)進(jìn)行測(cè)試以抽樣方式做,大數(shù)據(jù)當(dāng)中不是以抽樣做,比如說(shuō)我們炒菜嘗一嘗,我們事先有理解,受熱面積均勻,當(dāng)你嘗一嘗雖然對(duì)局部進(jìn)行分析,但是對(duì)全盤(pán)數(shù)據(jù)有把握。但是大數(shù)據(jù)下局部數(shù)據(jù)不可能,炒菜過(guò)程當(dāng)中不斷加新的菜,所以局部處理已經(jīng)不能保證我們對(duì)數(shù)據(jù)的完整。
我們?nèi)ベI(mǎi)鞋子不會(huì)跑遍北京所有鞋店買(mǎi)鞋子,我們通常跟我們成本進(jìn)行計(jì)算不會(huì)達(dá)到最后的絕對(duì)成本。
在醫(yī)療當(dāng)中很難說(shuō)一個(gè)醫(yī)生把對(duì)癥下藥問(wèn)題原因用很好科學(xué)方法說(shuō)出來(lái),更多是關(guān)聯(lián)關(guān)系,通過(guò)過(guò)去經(jīng)驗(yàn)映射到我們對(duì)當(dāng)前治療的理解。大數(shù)據(jù)給我們帶來(lái)很多新研究和挑戰(zhàn)。我們搞計(jì)算機(jī)過(guò)去數(shù)據(jù)基礎(chǔ)就是我們離散數(shù)據(jù)和我們傳統(tǒng)200年以前的數(shù)據(jù),現(xiàn)在面臨不僅考慮近百年,特別是工業(yè)發(fā)展以后我們對(duì)統(tǒng)計(jì)新數(shù)據(jù)分析的理解,更重要從應(yīng)用數(shù)學(xué),和我們計(jì)算機(jī)科學(xué)整個(gè)多方面的理解。
對(duì)于云計(jì)算的大數(shù)據(jù)對(duì)于科學(xué)研究的意義是相當(dāng)大的,所以我理解我們對(duì)于大數(shù)據(jù)的問(wèn)題!社會(huì)上談四維的特征,我們自己更多理解從研究角度理解大數(shù)據(jù)對(duì)計(jì)算本身產(chǎn)生什么樣的重要影響,這是我前面提到如何進(jìn)入增量型計(jì)算,如何進(jìn)入非確定性計(jì)算,如何研究歸納計(jì)算,改變我們計(jì)算機(jī)做系統(tǒng)的時(shí)候,把一個(gè)問(wèn)題變成N個(gè)問(wèn)題,每個(gè)問(wèn)題思考代表我們對(duì)問(wèn)題的解決。大數(shù)據(jù)下由于增量和更多不確定性,我們更多需要做綜合分析歸納的方法,對(duì)于大數(shù)據(jù)的科學(xué)計(jì)算,我們考慮數(shù)據(jù)持續(xù)增長(zhǎng)不斷變化特別對(duì)高實(shí)時(shí)的要求下,它的增量計(jì)算,以及把過(guò)去還原法結(jié)合的新計(jì)算。這些問(wèn)題我們看做是大數(shù)據(jù)計(jì)算和新問(wèn)題,這個(gè)也是未來(lái)大數(shù)據(jù)處理當(dāng)中我們的理解和認(rèn)識(shí)。
第二個(gè)問(wèn)題就是關(guān)于計(jì)算機(jī)學(xué)科的基本問(wèn)題。我們計(jì)算機(jī)做當(dāng)中我們說(shuō)這事情能不能算,對(duì)計(jì)算機(jī)人來(lái)說(shuō)不是所有問(wèn)題都能算的,只有能算的問(wèn)題才配得上拿計(jì)算機(jī)算,就像我們保密、加密以10的一次方,六一次方在一定時(shí)間內(nèi)不可算的問(wèn)題。我們研究基本問(wèn)題這個(gè)電視能不能計(jì)算,我們說(shuō)有五個(gè)城市能不能不重復(fù)的走遍每一點(diǎn),這是我們傳統(tǒng)說(shuō)TSP,不存在一種算法使得你完成一遍一遍不走其他路,比如說(shuō)電路板設(shè)計(jì),都有很多不可計(jì)算的,算法是我們搞計(jì)算機(jī)基礎(chǔ)問(wèn)題,是不是能計(jì)算。
從過(guò)去有計(jì)算機(jī)以來(lái),應(yīng)該說(shuō)算法研究一直是計(jì)算機(jī)科學(xué)的根本問(wèn)題,我這里只列出來(lái)從70年代到90年代有10位圖靈獎(jiǎng)的獲得者,他們?cè)谒惴ê椭匾獨(dú)v史階段獲得了計(jì)算機(jī)的最高獎(jiǎng),叫圖靈獎(jiǎng)。發(fā)現(xiàn)有些問(wèn)題算不了,大家知道60年代美國(guó)做了長(zhǎng)期研究工作,其中一條和治療癌癥,登月計(jì)劃同樣重要的計(jì)劃。算法方面研究是計(jì)算機(jī)重要的研究,大數(shù)據(jù)的時(shí)代計(jì)算復(fù)雜度和算法都有新問(wèn)題。最基本原因我們非常清楚數(shù)據(jù)量如此之大,所以的機(jī)器和算法存儲(chǔ)能力都被占滿(mǎn)。因此作為計(jì)算機(jī)的工作者面對(duì)大數(shù)據(jù)下和新的計(jì)算模式面對(duì)新的問(wèn)題,數(shù)據(jù)不可計(jì)算和存儲(chǔ)下有沒(méi)有新手段支持。
我們過(guò)去研究問(wèn)題我跟大家在這里報(bào)告,目前大家全球最快硬盤(pán)讀取速度是每秒6個(gè)GB,這是線型掃描,掃描一個(gè)PB的數(shù)據(jù)要將近兩天,一個(gè)EB需要五年多,而百度一天處理網(wǎng)頁(yè)數(shù)量10個(gè)PB,19天你才可以把它掃描完的東西還不考慮后面的處理,顯然這方面工作大數(shù)據(jù)是大的災(zāi)難,但是對(duì)研究有很多新機(jī)會(huì)。我上邊這張圖就是以世界最快掃描設(shè)備讀取最快的磁盤(pán)來(lái)說(shuō),要19天完成對(duì)它的掃描量。這樣問(wèn)題大數(shù)據(jù)傳解一定是一個(gè)難問(wèn)題,因此明明知道大數(shù)據(jù)已經(jīng)給我們帶來(lái)新的問(wèn)題,它傳統(tǒng)的計(jì)算復(fù)雜性在當(dāng)下要求掃描完1.9TB,要求我們一分鐘就要看到一個(gè)數(shù)據(jù),怎么定義?怎么分析?如何研究?就帶來(lái)很多問(wèn)題。這些問(wèn)題應(yīng)該會(huì)對(duì)過(guò)去50年來(lái)計(jì)算復(fù)雜性算法一個(gè)重要問(wèn)題。
我這里給一張圖12年前著名的會(huì)議上談?wù)摰氖虑。我們看到縱軸是測(cè)試數(shù)據(jù)的準(zhǔn)確率,橫軸是數(shù)據(jù)規(guī)模,隨著規(guī)模增大,在小數(shù)據(jù)樣本下好算法和壞算法差異不是太大。及時(shí)是壞的算法我看縱軸1坐標(biāo)下排到80%以下的識(shí)別率算法,隨著數(shù)據(jù)規(guī)模10倍100倍1000倍變化,已經(jīng)接近最好的算法,算法的簡(jiǎn)潔等要做處理。這樣給我們帶來(lái)重新對(duì)我們復(fù)雜性分析設(shè)計(jì)的新問(wèn)題。我們科學(xué)問(wèn)題第二個(gè)情況下我們不僅過(guò)去我們考慮算法研究F的,收入是S,用F做函數(shù)得出是一個(gè)結(jié)果,過(guò)去考慮F設(shè)計(jì)如何好就可以了,現(xiàn)在S不是量的變化而是質(zhì)的變化下來(lái),它對(duì)算法的影響,小數(shù)據(jù)算法的好壞特別重要,大數(shù)據(jù)下算法數(shù)據(jù)受到相當(dāng)大的影響。
這個(gè)必須考慮算法和數(shù)據(jù)本身不斷動(dòng)態(tài)變化如何找到和它最能逼近最近似有效的方法,這個(gè)要考慮在大數(shù)據(jù)計(jì)算當(dāng)中如何找到平衡點(diǎn),這個(gè)平衡點(diǎn)需要我們?cè)跀?shù)據(jù)量算法數(shù)量三者考慮,現(xiàn)在F和S疊加起來(lái)考慮問(wèn)題對(duì)于我們新系統(tǒng)設(shè)計(jì)就要求非常多,這樣對(duì)我們計(jì)算有很多問(wèn)題。
第三個(gè)問(wèn)題就是大數(shù)據(jù)下數(shù)據(jù)沒(méi)辦法表示,大部分用新數(shù)據(jù)表示,在當(dāng)前運(yùn)用當(dāng)中都不使,當(dāng)我們一維10維到三千萬(wàn)維這些數(shù)據(jù)我們處理怎么表示。所以這些問(wèn)題我們需要從傳統(tǒng)計(jì)算模式走出來(lái),第二我們對(duì)于高維空間抽取的特征以及對(duì)于計(jì)算重新認(rèn)識(shí)和量化。
我們看我們現(xiàn)在寫(xiě)微博很簡(jiǎn)單,到后臺(tái)計(jì)算機(jī)處理當(dāng)中你現(xiàn)有方式持續(xù)不了,這個(gè)也是重要研究的機(jī)遇問(wèn)題,表示、計(jì)算、異構(gòu)高于數(shù)據(jù)。我們現(xiàn)在計(jì)算手段只能簡(jiǎn)單的存儲(chǔ),特別是每一天過(guò)去都會(huì)帶來(lái)很多新問(wèn)題。針對(duì)數(shù)據(jù)規(guī)模大,種類(lèi)雜、變化快的云計(jì)算對(duì)數(shù)據(jù)的分析和挖掘也還有新問(wèn)題。比如說(shuō)我們現(xiàn)在中國(guó)有四大微博系統(tǒng),對(duì)于過(guò)去挖掘只在一大微博系統(tǒng),對(duì)同一事物理解我用語(yǔ)言用文字用聲音圖像不同方式表現(xiàn)出來(lái),如何在跨越之間表示聯(lián)動(dòng)性,如何在不同領(lǐng)域遷徙。過(guò)去在單一的挖掘,從小樣空間做的數(shù)據(jù)非常漂亮,在廣域不斷擴(kuò)展規(guī)模下數(shù)據(jù)處理能力,分析綜合能力都遇到很多問(wèn)題。所以對(duì)數(shù)據(jù)理解和分析就很重要。給了這么多數(shù)據(jù)你分析的結(jié)果為什么是有效可信的,所以對(duì)數(shù)據(jù)本身的理解也變了,數(shù)據(jù)的可視化更重要給出我們對(duì)多元數(shù)據(jù)異構(gòu)類(lèi)的數(shù)據(jù)給出直觀可視的結(jié)果,這個(gè)也是我們對(duì)大數(shù)據(jù)模式下研究的問(wèn)題。對(duì)于云計(jì)算下大數(shù)據(jù)和云計(jì)算本身我們思考云計(jì)算是一種計(jì)算模式,背后處理是重要的,隨著應(yīng)用發(fā)展云計(jì)算的服務(wù)質(zhì)量一定會(huì)重要成為研究的內(nèi)容,挖掘有效信息,糾正不確定的信息,并且能夠把多樣性的數(shù)據(jù)進(jìn)行結(jié)合,也許也是今后大數(shù)據(jù)下它的服務(wù)質(zhì)量一種新的挑戰(zhàn),包括智能的搜索,我們以前是關(guān)鍵詞、文檔搜索進(jìn)入社會(huì)網(wǎng)絡(luò)當(dāng)中,實(shí)際上開(kāi)始進(jìn)入(英文),這種新搜索模式也是所有互聯(lián)網(wǎng)公司發(fā)展重要的內(nèi)容。
第四個(gè)重要問(wèn)題就是關(guān)于可信和隱私。我這里是幾前年的例子,當(dāng)時(shí)有一家公司他可以根據(jù)你上網(wǎng)的習(xí)慣,除了名字沒(méi)有特別挖掘到,他知道他是建筑師住在什么地方,他家里人口結(jié)構(gòu),以及最近他的購(gòu)買(mǎi)習(xí)慣。我們知道西方人的生日和他購(gòu)買(mǎi)習(xí)慣直接關(guān)聯(lián),這些數(shù)據(jù)是絕對(duì)個(gè)人隱私,你在網(wǎng)上任何一個(gè)單位,提供家庭住址和個(gè)人的生日號(hào)碼的時(shí)候是違法是被禁止的,所以通過(guò)這樣一個(gè)網(wǎng)站分析我們可以看到,他可以把你很多相關(guān)信息都給挖掘出來(lái)。同時(shí)在社會(huì)網(wǎng)絡(luò)當(dāng)中也有很多被利用作為敏感信息的發(fā)現(xiàn),因此未來(lái)當(dāng)大數(shù)據(jù)更多的在分析和應(yīng)用之后,我們知道百度可以知道你上網(wǎng)行為,你思考的關(guān)注點(diǎn)可能性。你在淘寶的行為知道你購(gòu)物習(xí)慣,在微博更多了解你在這個(gè)領(lǐng)域的思維情況,關(guān)于可信和隱私也是未來(lái)關(guān)注的問(wèn)題。
如果說(shuō)我們?cè)?jīng)有過(guò)互聯(lián)網(wǎng)的快速發(fā)展基于信息服務(wù)業(yè)的話,那么未來(lái)圍繞大數(shù)據(jù)或者現(xiàn)在的名字還叫云計(jì)算,那么新的虛擬計(jì)算模式是重要的,基本標(biāo)志就是數(shù)據(jù)服務(wù)成為越多產(chǎn)業(yè)技術(shù)和研究重要的內(nèi)容。計(jì)算模式的變遷可能造成時(shí)代變化。在現(xiàn)在探討中國(guó)互聯(lián)網(wǎng)新的價(jià)值和它的科學(xué)價(jià)值或者產(chǎn)業(yè)價(jià)值的時(shí)候,我覺(jué)得這里有我們很多機(jī)遇,我想我們也會(huì)努力探索這方面的工作。
謝謝各位!