在增量提升曲線中標示了各個分段的命中數。 在圖1中可以看到,增量提升曲線在第4個分段后和隨機期望線(275個響應的10%,即平均每個分段27.5個響應)交叉。 不管營銷經理怎么去看,上述的表格和圖形都可以把必要的信息傳遞給他們。 營銷人員可以借助模型評估工具,來設定要給多少個客戶發(fā)郵件。 以表1為例,營銷人員可以向前四個分段的客戶(占整個評分名單的40%)發(fā)郵件,并預期可以命中70%的潛在響應客戶。
很多數據挖掘工具的廠商都對這個過程進行了簡化,使之更加清晰。 SAS將數據挖掘過程劃分為五個階段: 抽樣(Sample),解釋(Explain),處理(Manipulate),建模(Model),評估(Assess)。 過去人們常用循環(huán)式的飲水器來比喻數據挖掘過程。 水(數據)首先涌上第一層(分析階段),形成漩渦(精煉和反饋),等到聚積了足夠多“已經處理過”的水之后,就溢出來流到下一個更低的層中。 不斷地進行這種“處理”,直到水流到最低層。在那里它被抽回頂層,開始新一輪的“處理”。 數據挖掘和這種層次式的疊代過程非常相像。 甚至在很多數據挖掘算法的內部處理也是如此,比如神經網絡算法,就是在數據集上多次運行(epochs),直至發(fā)現最優(yōu)解。 Insightful Miner已經在其用戶界面中內建了簡單過程模型。 這種集成可以幫助用戶把必要的數據挖掘任務組織起來,讓任務能夠按照正確的順序來處理。
但使用飲水器來比喻數據挖掘過程還不算恰當,因為它沒有反映出反饋環(huán)路,而反饋環(huán)路在數據挖掘過程中是很常見的。 例如,通過數據評估可以發(fā)現異常的數據,從而要求從源系統(tǒng)中抽取更多的數據。 或者,在建模之后,會發(fā)現需要更多的記錄才能反映總體的分布。
在CRISP過程模型中進行了解決這個問題的嘗試,該模型是由Daimler-Benz、ISL (Clementine的開發(fā)者)和NCR共同制定的。 CRISP同時也被集成到Clementine挖掘工具(現在屬于SPSS公司)的設計中。 CRISP幾乎反映了完整的數據挖掘環(huán)境。
圖2: CRISP圖例
使用數據建模其實和做陶土模型或者大理石模型差不多。 藝術家首先從一大堆材料開始著手,經過許多次的加工和檢查,才誕生了最終的藝術品。很多人在建模過程中常常沒有充分理解建模的本質,由此帶來了一系列問題,使得建模變得很復雜。 Eric King發(fā)現數據挖掘是一個循環(huán)的過程(就象上圖中的CRISP流程圖),而非線性的過程。 這種循環(huán)式的數據挖掘過程會讓您想起Wankel轉式汽車發(fā)動機。 這種發(fā)動機是一圈一圈旋轉的(而非上下運動),不斷輸出動能來驅動汽車。 與之相似,數據挖掘過程也是不斷循環(huán),產生信息來幫助我們完成商業(yè)目標。 信息就是推動商業(yè)的“能量”。 在挖掘過程中會有很多對前一個階段的反饋(例如,在完成初步建模之后可能需要獲取更多的數據)。
不過,在CRISP流程中還是遺漏了一個要素——那就是對數據倉庫或源系統(tǒng)的反饋。 前一次CRM營銷活動的結果應該導入數據倉庫,為后續(xù)的建模提供指導,并能跟蹤營銷活動間的變化趨勢。 我在CRISP流程圖中加入了這些反饋,以紅線表示(見圖2)。
通過數據挖掘過程的結構,我們可以得知數據挖掘工具必需能完成那些任務,但是工具常常會缺少對部分功能的支持。 當產生了挖掘結果時,你會怎么使用這些結果呢? 此外,針對挖掘結果所采取的這些行動又將如何影響后續(xù)的挖掘? 數據挖掘工具應該具備的一些功能包括:
- 將模型導出到多種數據庫結構中
- 模型的導出格式,適合于決策支持和商業(yè)行動的應用
- 挖掘算法的輸出數據,可以為另外的算法所用
- 能夠比較不同算法的結果
IT專家網