大數(shù)據(jù)特性對統(tǒng)計應用上的際遇和沖擊
大數(shù)據(jù)的獨特性對傳統(tǒng)的統(tǒng)計方法發(fā)出了挑戰(zhàn),刺激著新的,適用于大數(shù)據(jù)分析的統(tǒng)計方法的發(fā)展。本文提到的一些際遇和問題,一部分是作者自己的觀點,一部分摘自其他文章( (Fan, Han, & Liu, 2014) (Wang & Wang, 2014)。
相較于統(tǒng)計文章的專業(yè)寫作手法,作者試圖用更淺顯易懂的說法來介紹這些問題,讓一般的讀者對此也能有一定的了解并對此產(chǎn)生興趣。傳統(tǒng)數(shù)據(jù)一般來說是樣本量遠遠大于感興趣的因素,比如一數(shù)據(jù)有200條記錄關于個人是否有心血管病,可能相關因素為性別,年齡,血壓。這兒只有4個因素,但樣本量為 200(200>>4)。
而大數(shù)據(jù)則擁有海量的樣本及相當多的因素。還是用心血管的例子,現(xiàn)在比如我們有了幾萬條記錄的樣本量,但同時也擁有了上百個的因素,各種以前沒法收集的因素都收集了,像運動與否,運動量如何,運動類型,飲食習慣,飲食內(nèi)容,喝酒與否,喝什么酒,喝酒習慣次數(shù)等等。這使統(tǒng)計中對數(shù)據(jù)的研究應用得到了新的際遇同時也面臨了新的挑戰(zhàn)。
數(shù)據(jù)異質(zhì)性(heterogeneity)
數(shù)據(jù)異質(zhì)性,可以簡單理解成一個大樣本數(shù)據(jù)里有很多小樣本,每個小樣本有著不同的數(shù)據(jù)特征,比如小樣本的平均值有高有低,離散程度有密有疏,就好象海洋中有著不同溫度,不同密度的各種洋流一樣。我們不能簡單的只在大樣本的層面進行統(tǒng)計分析,這樣得出的結(jié)果如果被用于對小樣本或樣本中的個體的估計或預測時就會出現(xiàn)偏差,因為每個小樣本可能有著一些它自己獨特的特征。
在數(shù)據(jù)樣本小的時候,里面的小樣本相應的就更小。 這種情況下小樣本里的數(shù)據(jù)記錄可能只有一,兩個,它們只能被當作異常值處理,無法分析。而在大數(shù)據(jù)里,這種具有獨特特征的數(shù)據(jù)記錄收集出現(xiàn)多了,就擁有了被統(tǒng)計分析的條件,從而使我們更好地探究特定因素的關聯(lián)性,理解這些數(shù)據(jù)異質(zhì)性。比如有些只在特定人群里發(fā)生的極其罕見的疾病,大數(shù)據(jù)使我們得以研究發(fā)病原因,發(fā)病風險因素;理解為什么有些治療方法對某些人群有利,而同樣的方法對另一人群卻有害,等等。
同樣,由于海量樣本和巨多的因素存在于大數(shù)據(jù)里,信息的復雜度也會增加不少,受復雜度的影響,可能導致統(tǒng)計上的過度擬合(overfitting)。過度擬合就是指我們建立了一個復雜的統(tǒng)計模型,它能很好的描述現(xiàn)有數(shù)據(jù)的情況,但當我們想把這模型應用到預測新數(shù)據(jù)時,它的表現(xiàn)卻相當差。比如圖九所示:
圖九
圖九左邊上的曲線是我們針對藍點 (當作現(xiàn)有數(shù)據(jù)) 做出的模型,基本上能很好的描述藍點的分布及曲線和藍點的吻合度較高。用這曲線去描述黃點(當作新數(shù)據(jù)),吻合度也還不錯。圖九右邊的曲線則完全通過了每一藍點,吻合度極高,完全描述了藍點的復雜特性。然而,它在描述黃點時,吻合度就差多了,偏差就比左邊的曲線大不少。簡單來說,數(shù)據(jù)越復雜,需要考慮的因素越多,建立普遍有效的統(tǒng)計模型的難度就越大。
偏差識別(Bias accumulation)
分析數(shù)據(jù)時,我們需要估計或測試很多參數(shù)用以建立可靠的統(tǒng)計數(shù)據(jù)模型。期間不可避免會產(chǎn)生偏差,這些估計中產(chǎn)生的偏差積累,很大程度上受著數(shù)據(jù)量大小及參數(shù)多寡的影響。 在一般小數(shù)據(jù)時,這問題可以并不顯著。但在大數(shù)據(jù)的情況下,這問題就變的相當值得注意。 我們用一簡化的例子來說明這個問題。
假設我們有兩組數(shù)據(jù)A和B,A組數(shù)據(jù)收集估算時沒有偏差,所有樣本數(shù)值都為1000。B組數(shù)據(jù),實際所有樣本數(shù)值也是1000,但存在偏差,而且偏差隨收集樣本量的增加呈指數(shù)式成長(為了說明情況,偏差指數(shù)式成長是一個很極端的例子)。每增加一個記錄,偏差增長公式為:
這樣B組第一個記錄包含偏差為1.001=1.0011. B組第一個值為1000×1.001=1001. B組第二個記錄包含偏差為 1.002001=1.0012. B 組第一個值為 1000×1.002001=1002.001. B 組第十個值為 1000×1.01004512=1010.045. 這樣如果是小數(shù)據(jù) n=10, A組數(shù)據(jù)其實和B組數(shù)據(jù)比起來相差是不大的。B 組內(nèi)的每一個數(shù)字增加的偏差不足以引起注意,如果2%以內(nèi)的偏差都可以接受的話。
然而當我們收集了1萬個數(shù)據(jù)記錄后,情況就發(fā)生了很大的變化。我們來看最后10個數(shù)據(jù)相差情況已經(jīng)相當相當大了。