消費者數(shù)據(jù)挖掘系統(tǒng)建立的幾個問題
陳宏 2002/09/03
隨著國內(nèi)金融和保險業(yè)的改革和發(fā)展,特別是中國加入WTO以后,為了提高自身的競爭力,國內(nèi)金融保險公司都開始加速建立和完善自己的管理系統(tǒng)。這是適應競爭的需要,也是消費者日益成熟起來的必然結(jié)果。市場機制一方面給了消費者選擇的權(quán)利,消費者有了選擇和誰交易的自由;另一方面,市場機制也給了公司發(fā)展的機會和挑戰(zhàn),誰的管理水平高、合理、誰靈活,誰就能得到不斷的發(fā)展。
圖1 不同的追繳電話費的策略
數(shù)據(jù)挖掘的過程大致包括數(shù)據(jù)樣本的選擇、數(shù)據(jù)的初級分析和建立數(shù)學/統(tǒng)計模型。這個過程就是用來挖掘和發(fā)現(xiàn)新的有關(guān)顧客和市場的關(guān)系,從而能夠幫助商業(yè)管理人員來做決策。
因此,首先應該發(fā)現(xiàn)所面臨和要解決的問題是什么。是為了發(fā)現(xiàn)新的、能帶來利潤的顧客呢?還是為了向現(xiàn)有的顧客推銷新產(chǎn)品?或者是想加快電話費的拖欠款回收?這個看似簡單的問題,實際上是數(shù)據(jù)挖掘的關(guān)鍵。從美國電報電話公司的宇宙卡操作中,我們可以看到正確地回答這個問題并不容易。信用卡公司是最終目的是為了贏利,要平衡風險和回報的關(guān)系,信用好并不等于利潤回報就高。舉例來講,美國電報電話信用卡的商業(yè)問題應該是如何找到帶來利潤高的顧客。而一個財產(chǎn)保險公司的問題則是如何降低保險的賠償費用?
上面的問題有了明確的定義后,就要開始進行初步的數(shù)據(jù)分析,從成百上千的變量里面計算并發(fā)現(xiàn)哪些變量和要解決的問題有關(guān)系。這一步大概就是為什么叫數(shù)據(jù)挖掘了。在分析過程中,很可能需要從現(xiàn)有的數(shù)據(jù)變量里面重新組合出許多新的變量,讓人感覺有點像大海撈針。在這個步驟中,行業(yè)經(jīng)驗和數(shù)據(jù)挖掘經(jīng)驗非常重要。有經(jīng)驗的工作人員可能只需要沒經(jīng)驗的人1/5的時間就將這一步做好,而效果卻往往更好。這要求數(shù)據(jù)挖掘系統(tǒng)的設(shè)置要合理,不合理的設(shè)置會浪費很多時間。
然后,從所發(fā)現(xiàn)的有關(guān)系的變量中建立能幫助解決問題的數(shù)學/統(tǒng)計模型。建立模型能夠發(fā)現(xiàn)的相關(guān)變量和要解決的商業(yè)問題數(shù)字連起來,發(fā)現(xiàn)一個變量有多少幫助解決問題的可能性。
拿信用卡來講,年齡變量有多少幫助發(fā)現(xiàn)有利潤的顧客的可能性?婚姻情況又有多少可能性?理論上來說,可以建立的模型是無窮無盡的,關(guān)鍵在于怎么區(qū)分什么模型是好的,如何發(fā)現(xiàn)最好的模型。
模型建立過程還要求產(chǎn)生模型的預測數(shù)據(jù)。沒有預測數(shù)據(jù),就無從知道在實際應用中模型是否符合實際情況。
合理建立數(shù)據(jù)挖掘系統(tǒng)
同樣是美國最大的電話公司之一,Bell Atlantic的數(shù)據(jù)挖掘系統(tǒng)卻是非常成功的,不僅為他們的業(yè)務開展帶來很大的方便,而且節(jié)省了許多開支。Bell
Atlantic的電話服務目前已經(jīng)覆蓋了美國14個州,擁有商業(yè)電話、住家電話帳戶近億個。
Bell Atlantic 數(shù)據(jù)挖掘系統(tǒng)的首要任務就是盡快地追收拖欠的電話費,同時盡量減少收債部門的成本。
軟件系統(tǒng)的選擇非常重要。經(jīng)過反復挑選后,Bell Atlantic采用了SAS統(tǒng)計軟件系統(tǒng)建立數(shù)據(jù)挖掘系統(tǒng),然后在SAS環(huán)境中利用SAS宏程序建立挖掘系統(tǒng)。SAS的專長是進行統(tǒng)計計算。它還有許多其他的優(yōu)點:可以讀取大量計算機系統(tǒng)里的數(shù)據(jù),可以解讀近百種的數(shù)據(jù)模式;計算速度快,能進行大數(shù)據(jù)量的計算;它的宏程序建立也比較直接。
圖2 ROC曲線圖
然后是建立SAS格式庫。許多數(shù)據(jù)需要格式化,比如年齡,可以從20到100歲,需要分成不同的組,這都需要利用模式來進行數(shù)據(jù)轉(zhuǎn)換。有的數(shù)據(jù)不是連續(xù)變量,比如婚姻狀況(單身/已婚),也需要進行一些變換才可以進行計算。日期也是需要模式化的,不同計算機系統(tǒng)記錄日期方法不同,需要把日期轉(zhuǎn)換成一致的方法。在金融保險行業(yè)日期這個變量非常重要,因為很多客戶的行為都記錄在日期里面了。電話公司里記帳、付款的日期也非常重要。
接著,建立SAS的宏程序庫。幾乎所有重要的數(shù)據(jù)挖掘功能都需要利用宏程序來實現(xiàn)。K-S系數(shù)的計算,模型預測表現(xiàn)的表格產(chǎn)生和報告,幫助做管理決策的ROC曲線,等等。
第一步的數(shù)據(jù)分析,把 Bell Atlantic 覆蓋的14個州分成了6組,商業(yè)帳戶和居民帳戶分開,然后又對不同的帳戶進一步第分成了8個類型,前前后后一共建立了近40個不同的追收拖欠電話費的模型。這個項目Bell
Atlantic花費了一百多萬美元。
這樣,Bell Atlantic就能計算出有關(guān)客戶的概率可能性,包括客戶從一個月未交電話費到兩個月未交的可能性;客戶從三個月未交電話費到變成壞債的可能性,以及壞債客戶變成死債客戶的可能性。同時,還對追交拖欠電話費用的策略提供線索,確認哪些帳戶應該進行追債活動;哪些帳戶有可能拖欠電話費;并且提供量化的追債策略,對不同的帳戶采用不同的辦法。
這個系統(tǒng)能有效地避免帳戶從拖欠電話費變成呆債壞債,減少死債的出現(xiàn)。減少需要進行收債部門的人員數(shù)目,從而降低了成本。在美國的電話公司中,一個拖欠電話費的客戶,用信件來追繳的成本大約是1美元;而通過電話來追繳,平均成本在30美元左右。正確選用信件追繳還是電話追繳,可以節(jié)省大約25美元的成本。采用高強度的追繳比用低強度的追繳多花大約60美元?梢,數(shù)據(jù)挖掘能起到的經(jīng)濟效益是非常高的。
如何在中國建數(shù)據(jù)挖掘系統(tǒng)?
建立數(shù)據(jù)挖掘系統(tǒng),首先要考慮資金的問題。SAS 軟件系統(tǒng)的年費根據(jù)計算機的計算速度不同價格不同,大概從十幾萬人民幣到近百萬人民幣一年。在SAS之上建立的數(shù)據(jù)挖掘系統(tǒng)大約系統(tǒng)本身要50萬人民幣左右,系統(tǒng)的安裝,調(diào)試和人員的培訓大約要25萬到50萬人民幣不等。
需要指出的是,SAS 公司也有自己的數(shù)據(jù)挖掘的子系統(tǒng),但是它有一些問題,即是數(shù)據(jù)變換不靈活;也沒有很多報告的功能和產(chǎn)生圖的功能,格式化也不容易;而且價格也不菲。所以有條件的話,數(shù)據(jù)挖掘系統(tǒng)還是專門定制好。
數(shù)據(jù)挖掘系統(tǒng)的人員要求也很重要。數(shù)據(jù)挖掘的人員首先要有良好的統(tǒng)計概念,其次要懂得基本的商業(yè)和行業(yè)概念。選擇怎樣的客戶是決策的關(guān)鍵。就拿信用卡來說,如果嚴格要求客戶的信用太好,反而像美國電報電話公司一樣,你肯定賺不到錢;
反過來,如果隨便就給人信用,同樣也賺不到錢,因為這樣壞帳呆帳會太多了。
追繳策略樣本
最后,數(shù)據(jù)挖掘部門的任務就是發(fā)現(xiàn)在什么基準線上做出合理的解決方案。數(shù)據(jù)挖掘的人員需要通過計算解決以下的幾個問題才能得出答案,即是平均一個好客戶能賺多少錢?平均一個壞客戶能虧損多少錢?數(shù)據(jù)挖掘出來的模型的分辯好壞的分辨率是多少?所有可能的客戶群里面好客戶和壞客戶的比例大約是多少?銀行的儲蓄利率是多少?
也許有人要問:這和銀行的利息有什么關(guān)系?這里邊關(guān)系到機會成本的問題,也就是說,如果信用卡公司不把錢給客戶用,而是存到銀行里提取利息,這個利息收入實際上是個機會成本。
利用ROC曲線,就可以計算出來在什么條件下可以給人信用卡,什么條件下不給。數(shù)據(jù)挖掘的人員至少要看得懂ROC曲線,知道里面的導數(shù)是干什么用的。
賽迪網(wǎng)
中國信息化(industry.ccidnet.com)
談談CRM哲學 2002-09-03 |
回顧CRM歷史 2002-09-03 |
讓我們擎起房地產(chǎn)行業(yè)的大旗 2002-09-03 |
CRM我之見 2002-09-02 |
CRM原罪:25種管理工具排名倒數(shù)第三 2002-09-02 |