- 預(yù)測概率值按降序方式存儲為有序列表
- 把這個有序列表劃分為10段(分組)
- 計(jì)算每組中的實(shí)際命中數(shù)(actual hits,實(shí)際的響應(yīng)數(shù))
- 計(jì)算每個分組的隨機(jī)期望值(random expectation),該期望值等于實(shí)際響應(yīng)總數(shù)除以10。也就是說,在每個分組中我們期望會有實(shí)際響應(yīng)總數(shù)的10%會響應(yīng)。
如果命中率超過了隨機(jī)期望值,就意味著模型為該分組帶來了提升
表1: 提升表
譯者注:
Decile-分組序號;Hits-命中數(shù),即每組內(nèi)包含的實(shí)際響應(yīng)數(shù),等于TP+FN;
TP-正確肯定;FN-錯誤否定;TN-正確否定;FP-錯誤肯定;
(TP和FN對應(yīng)于實(shí)際的響應(yīng),TN和FP對應(yīng)于實(shí)際的非響應(yīng))
Random Hits-隨機(jī)命中數(shù),即隨機(jī)期望值,等于SUM(TP+FN)/10;
% of Total-召回率,等于Hits/SUM(Hits)*100;
Cum % of Total-累積召回率,是% of Total的累積值。
一共劃分了10個分組,實(shí)際的總響應(yīng)數(shù)為SUM(Hits)=275,因此每組的隨機(jī)期望值為275/10=27.5。第一組的命中數(shù)為81,明顯超過了隨機(jī)期望值,其召回率=81/275=29.45%。第二組的命中數(shù)為43,也超過了隨機(jī)期望值,其召回率為43/275=15.64%,累積召回率等于第二組的召回率加上前面所有組(即第一組)的召回率,等于15.64%+29.45%=45.09%。
從上表中可以看出,該模型劃分肯定和否定的閾值應(yīng)該是在第二個分組中,這樣才出現(xiàn)了第一組都被預(yù)測為肯定,但其中有81個是正確的肯定(TP),而735個是錯誤的肯定(FP);第二組中則同時包含了TP、FN、TN和FP;從第三組之后則都被預(yù)測為否定(因?yàn)槲挥陂撝抵?,因此包含了FN和TN。
正確肯定(True-Positives,TP): 實(shí)際的響應(yīng)中,被正確預(yù)測為響應(yīng)的個數(shù)
錯誤否定(False-Negatives,F(xiàn)N): 實(shí)際的響應(yīng)中,被錯誤預(yù)測為非響應(yīng)的個數(shù)
正確否定(True-Negatives,TN): 實(shí)際的非響應(yīng)中,被正確預(yù)測為非響應(yīng)的個數(shù)
錯誤肯定(False-Positives,F(xiàn)P): 實(shí)際的非響應(yīng)中,被錯誤預(yù)測為響應(yīng)的個數(shù)
通過對提升表的分析可以看到,在第四個分段之后,增量提升(incremental lift,第8列中的”% of Total”)下降到隨機(jī)期望(每個分段為10%)之下,而前四個分段包含了超過70%的響應(yīng)。
從下面的增量提升曲線(圖1)中可以明顯看出增量提升和隨機(jī)期望的交叉點(diǎn)。
圖1: 增量提升圖示例
在增量提升曲線中標(biāo)示了各個分段的命中數(shù)。 在圖1中可以看到,增量提升曲線在第4個分段后和隨機(jī)期望線(275個響應(yīng)的10%,即平均每個分段27.5個響應(yīng))交叉。
不管營銷經(jīng)理怎么去看,上述的表格和圖形都可以把必要的信息傳遞給他們。 營銷人員可以借助模型評估工具,來設(shè)定要給多少個客戶發(fā)郵件。 以表1為例,營銷人員可以向前四個分段的客戶(占整個評分名單的40%)發(fā)郵件,并預(yù)期可以命中70%的潛在響應(yīng)客戶。
我們現(xiàn)在已經(jīng)了解該如何評估數(shù)據(jù)挖掘模型,接下來就可以深入分析和調(diào)整業(yè)務(wù)流程,借助模型的結(jié)果來提高企業(yè)的盈利。 業(yè)務(wù)流程包括:
- 數(shù)據(jù)挖掘過程
- 知識發(fā)現(xiàn)過程
- 業(yè)務(wù)流程管理(BPM)軟件
- 知識管理系統(tǒng)
- 商業(yè)生態(tài)系統(tǒng)管理
數(shù)據(jù)挖掘過程
Eric King在“如何在數(shù)據(jù)挖掘上投資:避免預(yù)測型分析中昂貴的項(xiàng)目陷阱的框架”一文(發(fā)表于2005年10月的“DM Review”)中主張數(shù)據(jù)挖掘是一段旅程,而非終點(diǎn)。他把這段旅程定義為數(shù)據(jù)挖掘過程。
該過程包含如下要素:
- 一個發(fā)現(xiàn)過程
- 具有靈活的框架
- 按照清晰定義的策略進(jìn)行
- 包含多個檢查點(diǎn)
- 多次定期的評估
- 允許在反饋環(huán)路中對函數(shù)進(jìn)行調(diào)整
- 組織為疊代式的架構(gòu)
過程模型
很多數(shù)據(jù)挖掘工具的廠商都對這個過程進(jìn)行了簡化,使之更加清晰。 SAS將數(shù)據(jù)挖掘過程劃分為五個階段: 抽樣(Sample),解釋(Explain),處理(Manipulate),建模(Model),評估(Assess)。
過去人們常用循環(huán)式的飲水器來比喻數(shù)據(jù)挖掘過程。 水(數(shù)據(jù))首先涌上第一層(分析階段),形成漩渦(精煉和反饋),等到聚積了足夠多“已經(jīng)處理過”的水之后,就溢出來流到下一個更低的層中。
不斷地進(jìn)行這種“處理”,直到水流到最低層。在那里它被抽回頂層,開始新一輪的“處理”。 數(shù)據(jù)挖掘和這種層次式的疊代過程非常相像。 甚至在很多數(shù)據(jù)挖掘算法的內(nèi)部處理也是如此,比如神經(jīng)網(wǎng)絡(luò)算法,就是在數(shù)據(jù)集上多次運(yùn)行(epochs),直至發(fā)現(xiàn)最優(yōu)解。
Insightful Miner已經(jīng)在其用戶界面中內(nèi)建了簡單過程模型。 這種集成可以幫助用戶把必要的數(shù)據(jù)挖掘任務(wù)組織起來,讓任務(wù)能夠按照正確的順序來處理。
但使用飲水器來比喻數(shù)據(jù)挖掘過程還不算恰當(dāng),因?yàn)樗鼪]有反映出反饋環(huán)路,而反饋環(huán)路在數(shù)據(jù)挖掘過程中是很常見的。 例如,通過數(shù)據(jù)評估可以發(fā)現(xiàn)異常的數(shù)據(jù),從而要求從源系統(tǒng)中抽取更多的數(shù)據(jù)。
或者,在建模之后,會發(fā)現(xiàn)需要更多的記錄才能反映總體的分布。
在CRISP過程模型中進(jìn)行了解決這個問題的嘗試,該模型是由Daimler-Benz、ISL (Clementine的開發(fā)者)和NCR共同制定的。
CRISP同時也被集成到Clementine挖掘工具(現(xiàn)在屬于SPSS公司)的設(shè)計(jì)中。 CRISP幾乎反映了完整的數(shù)據(jù)挖掘環(huán)境。
圖2: CRISP圖例
使用數(shù)據(jù)建模其實(shí)和做陶土模型或者大理石模型差不多。 藝術(shù)家首先從一大堆材料開始著手,經(jīng)過許多次的加工和檢查,才誕生了最終的藝術(shù)品。很多人在建模過程中常常沒有充分理解建模的本質(zhì),由此帶來了一系列問題,使得建模變得很復(fù)雜。
Eric King發(fā)現(xiàn)數(shù)據(jù)挖掘是一個循環(huán)的過程(就象上圖中的CRISP流程圖),而非線性的過程。 這種循環(huán)式的數(shù)據(jù)挖掘過程會讓您想起Wankel轉(zhuǎn)式汽車發(fā)動機(jī)。
這種發(fā)動機(jī)是一圈一圈旋轉(zhuǎn)的(而非上下運(yùn)動),不斷輸出動能來驅(qū)動汽車。 與之相似,數(shù)據(jù)挖掘過程也是不斷循環(huán),產(chǎn)生信息來幫助我們完成商業(yè)目標(biāo)。
信息就是推動商業(yè)的“能量”。 在挖掘過程中會有很多對前一個階段的反饋(例如,在完成初步建模之后可能需要獲取更多的數(shù)據(jù))。
不過,在CRISP流程中還是遺漏了一個要素——那就是對數(shù)據(jù)倉庫或源系統(tǒng)的反饋。 前一次CRM營銷活動的結(jié)果應(yīng)該導(dǎo)入數(shù)據(jù)倉庫,為后續(xù)的建模提供指導(dǎo),并能跟蹤營銷活動間的變化趨勢。
我在CRISP流程圖中加入了這些反饋,以紅線表示(見圖2)。
通過數(shù)據(jù)挖掘過程的結(jié)構(gòu),我們可以得知數(shù)據(jù)挖掘工具必需能完成那些任務(wù),但是工具常常會缺少對部分功能的支持。 當(dāng)產(chǎn)生了挖掘結(jié)果時,你會怎么使用這些結(jié)果呢?
此外,針對挖掘結(jié)果所采取的這些行動又將如何影響后續(xù)的挖掘? 數(shù)據(jù)挖掘工具應(yīng)該具備的一些功能包括:
- 將模型導(dǎo)出到多種數(shù)據(jù)庫結(jié)構(gòu)中
- 模型的導(dǎo)出格式,適合于決策支持和商業(yè)行動的應(yīng)用
- 挖掘算法的輸出數(shù)據(jù),可以為另外的算法所用
- 能夠比較不同算法的結(jié)果
IT專家網(wǎng)