第二點(diǎn)不容樂(lè)觀,我們認(rèn)為這是對(duì)大數(shù)據(jù)的一個(gè)共享和挖掘來(lái)講 ,不太好的特點(diǎn)。 就是在這些行業(yè)里面,這些數(shù)據(jù)往往是具有很強(qiáng)的獨(dú)立性,你想讓它共享,其實(shí)存在了很多的障礙。大家可能都知道這些數(shù)據(jù)把它分享出來(lái),綜合處理一下可能是有好處的,但是,由于種種的原因,可能有管理制度上的,也可能有這些人的動(dòng)機(jī)或者說(shuō)沒(méi)有這個(gè)動(dòng)力去做事情的原因,數(shù)據(jù)共享的比例是非常低的。我們現(xiàn)在看到的一些數(shù)字,當(dāng)然可能是低于10%,甚至有的地方數(shù)據(jù)共享率更低,而且這種現(xiàn)象不僅僅是在一些我剛才講到的偏政府一類的行業(yè)存在,甚至在我們很多的企業(yè)內(nèi)部也同樣存在,比如說(shuō)財(cái)務(wù)數(shù)據(jù)和人力的數(shù)據(jù)有可能就是沒(méi)有辦法共享,也不是沒(méi)有辦法共享,或者說(shuō)他現(xiàn)在壓根就沒(méi)有共享在一起,當(dāng)然這里面存在種種問(wèn)題。
其中有一個(gè)很重要的問(wèn)題,就是因?yàn)檫@些數(shù)據(jù)的所有者往往是不同的,因?yàn)樗姓叩牟煌鋵?shí)你也很難把這些數(shù)據(jù)留在一起。你要解決所有者的一些顧慮,比如說(shuō)放在一起了,我會(huì)不會(huì)泄密?放在一起了,會(huì)不會(huì)有一些別人不該看到的東西看到,或者篡改,它的安全性如何保證?
第三個(gè)特點(diǎn)是我們認(rèn)為大數(shù)據(jù)不同于以前的數(shù)據(jù)分析很大的一點(diǎn) ,那就是它強(qiáng)調(diào)的是我們?cè)谛袠I(yè)間,甚至于包括我們?cè)谄髽I(yè)場(chǎng)合產(chǎn)生的一些數(shù)據(jù),綜合分析才叫大數(shù)據(jù) 。如果只是簡(jiǎn)單的把內(nèi)部一個(gè)ERP里面,或者財(cái)務(wù)報(bào)表里面的財(cái)務(wù)數(shù)據(jù)拿出來(lái)跑一跑,這個(gè)可能在十年前、20年前很多人都能做到,根本談不上是什么大數(shù)據(jù)。大數(shù)據(jù)一定要更多的來(lái)源,跨行業(yè)、跨領(lǐng)域的數(shù)據(jù)碰撞,才能真正稱之為大數(shù)據(jù)。
最后一個(gè)就是說(shuō)在這些行業(yè),數(shù)據(jù)最終的目的 。我們從前面講行業(yè)云到后面講行業(yè)大數(shù)據(jù),都是講數(shù)據(jù)最終一定是要為人服務(wù)的,所有的東西都要轉(zhuǎn)化成數(shù)據(jù)服務(wù)才有意義,否則的話,這些東西你即使做了分析、做了挖掘,最后還是放在你的數(shù)據(jù)庫(kù)里面,沒(méi)有把結(jié)果跟大家分享,或者說(shuō)沒(méi)有為更多的人產(chǎn)生服務(wù)的話,那這個(gè)云的建設(shè)、大數(shù)據(jù)系統(tǒng)的建設(shè)可能意義就不是那么大了。
但是,這樣一個(gè)本來(lái)在內(nèi)部的數(shù)據(jù)轉(zhuǎn)化成一個(gè)服務(wù),在這個(gè)過(guò)程中,這些數(shù)據(jù)本來(lái)不該公開的,或者說(shuō)是如何防止它被外面的人篡改,我數(shù)據(jù)的可靠性、可用性怎么辦,以及在這里面的一些服務(wù)質(zhì)量問(wèn)題怎么辦,這些都是在行業(yè)大數(shù)據(jù)發(fā)展過(guò)程中一些不同于我們前面泛泛的講到的,或者說(shuō)它更鮮明的一些特征。
數(shù)據(jù)處理周期中所遭遇的挑戰(zhàn)
這里面它面臨哪些問(wèn)題呢?首先,我們還是把大數(shù)據(jù)從一個(gè)數(shù)據(jù)的收集聚集起來(lái)開始,一直到最后,我們把它進(jìn)行分析,進(jìn)行決策,把它展現(xiàn)出來(lái)這樣一個(gè)過(guò)程,包括采集、存儲(chǔ)、分析、可視化,以及最終為決策來(lái)服務(wù)。在每一個(gè)階段,實(shí)際上現(xiàn)在還有很多的問(wèn)題,我們?nèi)绻雽⒋髷?shù)據(jù)推廣到更多的領(lǐng)域,能夠讓更多的行業(yè)用戶,或者說(shuō)傳統(tǒng)的一些信息化用戶用起來(lái),那么我們必須要來(lái)解決這個(gè)問(wèn)題。
挑戰(zhàn)1:數(shù)據(jù)收集/清洗/過(guò)濾
第一個(gè),就是在采集和匯總領(lǐng)域的問(wèn)題。因?yàn)槲覀冊(cè)谶@一兩年里面頂著大數(shù)據(jù)的名頭去找了很多用戶,很多用戶聽說(shuō)大數(shù)據(jù)很好,搞完預(yù)算以后,要搞大數(shù)據(jù),他們也很熱心。但是,你去看一看他的系統(tǒng),首先第一個(gè)問(wèn)題,數(shù)據(jù)在哪?很多人想做東西,實(shí)際上并沒(méi)有他要做這個(gè)東西的數(shù)據(jù),第一個(gè)問(wèn)題就是數(shù)據(jù)的歸集,可能很多數(shù)據(jù)產(chǎn)生了,但是對(duì)他來(lái)講,他沒(méi)有一個(gè)有效的辦法把它歸集到系統(tǒng)里面去。當(dāng)然,這個(gè)歸集可能是技術(shù)手段原因,也可能是一些管理上的原因。
第二個(gè),就算他歸集來(lái)了一些數(shù)據(jù),這些數(shù)據(jù)的來(lái)源也非常復(fù)雜,可能是自己產(chǎn)生的,比如說(shuō)他自己去采集,用機(jī)器采集也好、用人去采集也好,也有的是從別人那拷過(guò)來(lái)的,然后你也沒(méi)有辦法去保證這些數(shù)據(jù)都是好的,或者說(shuō)都很適合于來(lái)做他后期的業(yè)務(wù)。也就是說(shuō)在這里面數(shù)據(jù)質(zhì)量是個(gè)很大的問(wèn)題,數(shù)據(jù)格式不統(tǒng)一也是個(gè)很大的問(wèn)題。
最后在一些政策或者管理制度上的限制,造成了很多數(shù)據(jù)沒(méi)辦法統(tǒng)一起來(lái),我們后面可能會(huì)講到一個(gè)例子,是國(guó)內(nèi)一個(gè)很典型的部門,就是公安,大家都覺得它應(yīng)該是一個(gè)部門,但后來(lái)發(fā)現(xiàn)里面是N多部門,里面所有的數(shù)據(jù)在原來(lái)都是互補(bǔ)連通的,這個(gè)現(xiàn)象不僅僅在這樣一個(gè)行業(yè),我們?cè)诤芏嘈袠I(yè)都看到了這樣的問(wèn)題,上下級(jí)之間可能不通的,平級(jí)部門之間可能也是不通的。
第一個(gè)要解決的問(wèn)題就是怎么把這些東西歸集起來(lái),解決歸集里面一些技術(shù)的手段,和我們?cè)趺慈プ鰳?biāo)準(zhǔn),怎么把它規(guī)范化的問(wèn)題。
挑戰(zhàn)2:數(shù)據(jù)存儲(chǔ)和管理
第二個(gè)問(wèn)題,這項(xiàng)數(shù)據(jù)歸集起來(lái)了,就會(huì)遇到一個(gè)問(wèn)題,就是存儲(chǔ)和管理的問(wèn)題。其實(shí)也有很多人說(shuō)我有很好的采集手段,我有很多攝像頭和傳感器,但是這些東西傳回來(lái)很困難,后臺(tái)沒(méi)那么大的存儲(chǔ)能力,過(guò)兩天就得重新把它滾一次。在這里面,隨著數(shù)據(jù)規(guī)模的日益龐大,同時(shí),數(shù)據(jù)類型也越來(lái)越復(fù)雜,可能有圖片、視頻,有能放到數(shù)據(jù)庫(kù)里面的,有放不到數(shù)據(jù)庫(kù)里面的,現(xiàn)在很多的那里保存了很多放到數(shù)據(jù)庫(kù)里面的東西,放不到數(shù)據(jù)庫(kù)的慢慢就被替換掉了,因?yàn)閷?shí)在太大,放不下。
還有就是在統(tǒng)一存儲(chǔ)過(guò)程中的共享和隱私的問(wèn)題,這個(gè)我們?cè)诓恢挂粋(gè)用戶那邊都會(huì)跟我們提出一個(gè)要求。我們現(xiàn)在建了一個(gè)統(tǒng)一的大池子,以前的數(shù)據(jù)都放在我這兒,我現(xiàn)在要把數(shù)據(jù)放到他那去了,你怎么保證我放在他那的數(shù)據(jù)是安全的?你一定要給我上這個(gè)手段、那個(gè)手段,當(dāng)然很多用戶聽到的都是傳統(tǒng)的手段,比如說(shuō)強(qiáng)制訪問(wèn)控制、要加密等等,但是在這里面,傳統(tǒng)安全的一些手段,應(yīng)該說(shuō)這是在云計(jì)算模式產(chǎn)生之后大家一直在探討的問(wèn)題,而且也是一直沒(méi)有非常好的答案的問(wèn)題,也就是說(shuō)我聚集起來(lái)以后,怎么防止用戶之間互相滲透,第二怎么防止后臺(tái)的管理員,這個(gè)我以前根本沒(méi)有見過(guò)的人,我要去信任他。