關(guān)鍵詞 數(shù)據(jù)挖掘 客戶關(guān)系管理 客戶流失
隨著國內(nèi)電信市場競爭的日趨激烈,電信運營商的經(jīng)營模式逐漸從“技術(shù)驅(qū)動”向“市場驅(qū)動”、“客戶驅(qū)動”轉(zhuǎn)化。這就要求運營商要采取以客戶為中心的策略,根據(jù)客戶的實際需求提供多樣化、層次化、個性化的服務(wù)解決方案。因此,客戶關(guān)系管理(CRM)成了電信運營商增加收入和利潤,提高客戶滿意度、忠誠度的有效工具。在客戶關(guān)系管理的流程中,為了準確、及時地進行經(jīng)營決策,必須充分獲取并利用相關(guān)的數(shù)據(jù)信息對決策過程進行輔助支持。近幾年迅速發(fā)展起來的數(shù)據(jù)挖掘技術(shù)就是實現(xiàn)這一目標的重要手段。
一、數(shù)據(jù)挖掘的概念和過程
1.數(shù)據(jù)挖掘的概念
數(shù)據(jù)挖掘是根據(jù)企業(yè)的既定業(yè)務(wù)目標和存在的問題,對大量的業(yè)務(wù)數(shù)據(jù)進行探索,揭示其中隱藏的規(guī)律,并將其模型化,指導(dǎo)并應(yīng)用于企業(yè)的實際經(jīng)營。
數(shù)據(jù)挖掘是建立在數(shù)據(jù)倉庫基礎(chǔ)上的高層應(yīng)用,但數(shù)據(jù)挖掘跟數(shù)據(jù)倉庫的其它一些應(yīng)用如OLAP分析、預(yù)定義報表和即席查詢等有很大的區(qū)別。后三者通常是用戶根據(jù)已知的情況對所關(guān)心的業(yè)務(wù)指標進行分析;而前者則是在業(yè)務(wù)問題和目標明確但考察的問題不清楚時,對數(shù)據(jù)進行探索,揭示隱藏其中的規(guī)律性,進而將其模型化。
2.數(shù)據(jù)挖掘過程
數(shù)據(jù)挖掘是一個循環(huán)往復(fù)的過程,通常涉及數(shù)據(jù)準備、建立模型、評估和解釋模型、運用和鞏固模型等步驟。
(1)數(shù)據(jù)準備:數(shù)據(jù)準備工作包括數(shù)據(jù)的選擇(選擇相關(guān)和合適的數(shù)據(jù))、探索(了解數(shù)據(jù)分布情況和異常數(shù)據(jù)等)、修正(包括缺失數(shù)據(jù)的插值等)和變換(離散值數(shù)據(jù)與連續(xù)值數(shù)據(jù)的相互轉(zhuǎn)換,數(shù)據(jù)的分組分類,數(shù)據(jù)項的計算組合等)。
(2)建立模型:選取數(shù)據(jù)挖掘工具提供的算法并應(yīng)用于準備好的數(shù)據(jù),選取相應(yīng)參數(shù),生成模型。
(3)評估和解釋模型:對模型進行比較和評估,生成一個相對最優(yōu)模型,并對此模型用業(yè)務(wù)語言加以解釋。
(4)運用和鞏固模型:對模型在實際應(yīng)用中的表現(xiàn)進行監(jiān)控,如果模型表現(xiàn)不好,則對模型作進一步的考察和修正,以反映業(yè)務(wù)運作規(guī)律的變化。
二、數(shù)據(jù)挖掘在客戶關(guān)系管理中的應(yīng)用
電信運營商擁有許多成熟的數(shù)據(jù)庫應(yīng)用系統(tǒng),如網(wǎng)管系統(tǒng)、財務(wù)系統(tǒng)、計費賬務(wù)系統(tǒng)、112障礙管理系統(tǒng)、繳費銷賬系統(tǒng)等,并產(chǎn)生了大量的業(yè)務(wù)處理數(shù)據(jù)。如果針對客戶關(guān)系管理相關(guān)決策分析的需求,對這些數(shù)據(jù)進行重組整合,就能充分利用這些寶貴的數(shù)據(jù),體現(xiàn)信息的真正價值。
數(shù)據(jù)挖掘技術(shù)在電信行業(yè)客戶關(guān)系管理的主要應(yīng)用領(lǐng)域如下:
(1)客戶消費模式分析
客戶消費模式分析(如固話話費行為分析)是對客戶歷年來長話、市話、信息臺的大量詳單、數(shù)據(jù)以及客戶檔案資料等相關(guān)數(shù)據(jù)進行關(guān)聯(lián)分析,結(jié)合客戶的分類,可以從消費能力、消費習(xí)慣、消費周期等諸方面對客戶的話費行為進行分析和預(yù)測,從而為固話運營商的相關(guān)經(jīng)營決策提供依據(jù)。
(2)客戶市場推廣分析
客戶市場推廣分析(如優(yōu)惠策略預(yù)測仿真)是利用數(shù)據(jù)挖掘技術(shù)實現(xiàn)優(yōu)惠策略的仿真,根據(jù)數(shù)據(jù)挖掘模型進行模擬計費和模擬出賬,其仿真結(jié)果可以揭示優(yōu)惠策略中存在的問題,并進行相應(yīng)的調(diào)整優(yōu)化,以達到優(yōu)惠促銷活動的收益最大化。
(3)客戶欠費分析和動態(tài)防欺詐
通過數(shù)據(jù)挖掘,總結(jié)各種騙費、欠費行為的內(nèi)在規(guī)律,并建立一套欺詐和欠費行為的規(guī)則庫。當客戶的話費行為與該庫中規(guī)則吻合時,系統(tǒng)可以提示運營商相關(guān)部門采取措施,從而降低運營商的損失風(fēng)險。
(4)客戶流失分析
根據(jù)已有的客戶流失數(shù)據(jù),建立客戶屬性、服務(wù)屬性、客戶消費情況等數(shù)據(jù)與客戶流失概率相關(guān)聯(lián)的數(shù)學(xué)模型,找出這些數(shù)據(jù)之間的關(guān)系,并給出明確的數(shù)學(xué)公式。然后根據(jù)此模型來監(jiān)控客戶流失的可能性,如果客戶流失的可能性過高,則通過促銷等手段來提高客戶忠誠度,防止客戶流失的發(fā)生。這就徹底改變了以往電信運營商在成功獲得客戶以后無法監(jiān)控客戶流失、無法有效實現(xiàn)客戶關(guān)懷的狀況。
三、數(shù)據(jù)挖掘的應(yīng)用實例——客戶流失分析
一個完整的數(shù)據(jù)挖掘過程可進一步細分為:業(yè)務(wù)問題定義,數(shù)據(jù)選擇,數(shù)據(jù)清洗和預(yù)處理,模型選擇與預(yù)建立,模型建立與調(diào)整,模型的評估與檢驗,模型解釋與應(yīng)用。
1.業(yè)務(wù)問題定義
針對客戶流失的不同種類分別定義業(yè)務(wù)問題,進而區(qū)別處理。在客戶流失分析中有兩個核心變量:財務(wù)原因/非財務(wù)原因、主動流失/被動流失?蛻袅魇Э梢韵鄳(yīng)分為四種類型,其中非財務(wù)原因主動流失的客戶往往是高價值的客戶,他們會正常支付服務(wù)費用,并容易對市場活動有所響應(yīng)。這種客戶是我們真正需要保住的客戶。此外在分析客戶流失時必須區(qū)分集團/個人客戶,以及不同消費水平的客戶,并有針對性地制定不同的流失標準。例如,平均月消費額2 000元的客戶連續(xù)幾個月消費額降低到500元以下,就可以認為客戶流失發(fā)生了,而這個流失標準不適用于原來平均月消費額500元的客戶。國外成熟的應(yīng)用中通常根據(jù)相對指標來判別客戶流失,例如大眾的個人通信費用約占總收入的1%~3%,當客戶的個人通信費用遠低于此比例時,就認為發(fā)生了客戶流失。
2.數(shù)據(jù)選擇
數(shù)據(jù)選擇包括目標變量的選擇、輸入變量的選擇和建模數(shù)據(jù)的選擇。
(1)目標變量的選擇
客戶流失分析的目標變量通常為客戶流失狀態(tài)。根據(jù)業(yè)務(wù)問題的定義,可以選擇一個已知量或多個已知量的組合作為目標變量。實際的客戶流失形式有兩種:因賬戶取消發(fā)生的流失,因賬戶休眠發(fā)生的流失。對于因賬戶取消發(fā)生的流失,目標變量可以直接選取客戶的賬戶狀態(tài)(取消或正常);對于因賬戶休眠發(fā)生的流失,可以認為持續(xù)休眠超過一定時間長度的客戶發(fā)生了流失。這時需要對相關(guān)的具體問題加以考慮:持續(xù)休眠的時間長度定義為多少?每月通話金額低于多少即認為處于休眠狀態(tài),或者是綜合考慮通話金額、通話時長和通話次數(shù)來劃定休眠標準?選擇目標變量時面臨的這些問題需要業(yè)務(wù)人員給予明確的回答。
(2)輸入變量的選擇
輸入變量是模型中的自變量,在建模過程中需要尋找自變量與目標變量的關(guān)聯(lián)。輸入變量分為靜態(tài)數(shù)據(jù)和動態(tài)數(shù)據(jù)。靜態(tài)數(shù)據(jù)指不常變化的數(shù)據(jù),包括服務(wù)合同屬性(如服務(wù)類型、服務(wù)時間、交費類型)和客戶的基本資料(如性別、年齡、收入、婚姻狀況、學(xué)歷、職業(yè)、居住地區(qū));動態(tài)數(shù)據(jù)指頻繁或定期改變的數(shù)據(jù),如月消費金額、交費記錄、消費特征。業(yè)務(wù)人員在實際業(yè)務(wù)活動中可能會感覺到輸入變量與目標變量的內(nèi)在聯(lián)系,只是無法量化表示出來,這就給數(shù)據(jù)挖掘留下了發(fā)揮的空間。如果一時無法確定某種數(shù)據(jù)是否與客戶流失概率有關(guān)聯(lián),應(yīng)該暫時將其選入模型,并在后續(xù)步驟考察各變量分布情況和相關(guān)性時再行取舍。
(3)建模數(shù)據(jù)的選擇
客戶流失的方式有兩種。第一種是客戶的自然消亡,例如身故、破產(chǎn)、遷徙、移民而導(dǎo)致客戶不再存在,或者由于客戶服務(wù)的升級(如撥號接入升級為ADSL接入)造成特定服務(wù)的目標客戶消失。第二種是客戶的轉(zhuǎn)移流失,通常指客戶轉(zhuǎn)移到競爭對手,并使用其服務(wù)。第二種流失的客戶才是運營商真正關(guān)心的、具有挽留價值的客戶。因此在選擇建模數(shù)據(jù)時必須選擇第二種流失客戶數(shù)據(jù)參與建模,才能建立有效的模型。
3.數(shù)據(jù)清洗和預(yù)處理
數(shù)據(jù)清洗和預(yù)處理是建模前的數(shù)據(jù)準備工作,一方面保證建模數(shù)據(jù)的正確性和有效性,另一方面通過對數(shù)據(jù)格式和內(nèi)容的調(diào)整,使數(shù)據(jù)更符合建模的需要。數(shù)據(jù)整理的主要工作包括對數(shù)據(jù)的轉(zhuǎn)換和整合、抽樣、隨機化、缺失值處理等等。例如按比例抽取未流失客戶和已流失客戶,將這兩類數(shù)據(jù)合并,構(gòu)成建模的數(shù)據(jù)源。此外,模型在建立之后需要大量的數(shù)據(jù)來進行檢驗,因此通常把樣本數(shù)據(jù)分為兩部分,2/3的數(shù)據(jù)用于建模,1/3的數(shù)據(jù)用于模型的檢驗和修正。
4.模型選擇與預(yù)建立
在模型建立之前,可以利用數(shù)據(jù)挖掘工具的相關(guān)性比較功能,找出每一個輸入變量和客戶流失概率的相關(guān)性,刪除相關(guān)性較小的變量,從而可以縮短建模時間,降低模型復(fù)雜度,有時還能使模型更精確,F(xiàn)有的數(shù)據(jù)挖掘工具提供了決策樹、神經(jīng)網(wǎng)絡(luò)、近鄰學(xué)習(xí)、回歸、關(guān)聯(lián)、聚類、貝葉斯判別等多種建模方法?梢苑謩e使用其中的多種方法預(yù)建立多個模型,然后對這些模型進行優(yōu)劣比較,從而挑選出最適合客戶流失分析的建模方法。此外數(shù)據(jù)挖掘工具還提供了選擇建模方法的功能,系統(tǒng)可自動判別最優(yōu)模型,供使用者參考。
5.模型建立與調(diào)整
模型建立與調(diào)整是數(shù)據(jù)挖掘過程中的核心部分,通常由數(shù)據(jù)分析專家完成。需要指出的是,不同的商業(yè)問題和不同的數(shù)據(jù)分布屬性會影響模型建立與調(diào)整的策略,而且在建模過程中還會使用多種近似算法來簡化模型的優(yōu)化過程。因此還需要業(yè)務(wù)專家參與調(diào)整策略的制定,以避免不適當?shù)膬?yōu)化造成業(yè)務(wù)信息丟失。
6.模型的評估與檢驗
應(yīng)該利用未參與建模的數(shù)據(jù)進行模型的評估,才能得到準確的結(jié)果。檢驗的方法是使用模型對已知客戶狀態(tài)的數(shù)據(jù)進行預(yù)測,將預(yù)測值與實際客戶狀態(tài)作比較,預(yù)測正確率最高的模型是最優(yōu)模型。
7.模型解釋與應(yīng)用
業(yè)務(wù)人員應(yīng)該針對最優(yōu)模型進行合理的解釋。如發(fā)現(xiàn)開戶時長與客戶流失概率的相關(guān)度較高,利用業(yè)務(wù)知識可以解釋為:客戶在使用一定年限后需要換領(lǐng)新SIM卡,而這一手續(xù)的繁瑣導(dǎo)致客戶寧愿申請新號碼,從而造成客戶流失。通過對模型做出合理的業(yè)務(wù)解釋,可以找出一些潛在的規(guī)律,用于指導(dǎo)業(yè)務(wù)行為。反過來,通過業(yè)務(wù)解釋也能證明數(shù)學(xué)模型的合理性和有效性。
在模型應(yīng)用過程中,可以先選擇一個試點實施應(yīng)用,試點期間隨時注意模型應(yīng)用的收益情況。一旦發(fā)生異常偏差,則立即停止應(yīng)用,并對模型進行修正。試點結(jié)束后,若模型被證明應(yīng)用良好,可以考慮大范圍推廣。推廣時應(yīng)注意,由于地區(qū)差異,模型不能完全照搬?梢韵扔杉瘓F總部建立一個通用模型,各省分公司在此基礎(chǔ)上利用本地數(shù)據(jù)進行修正,從而得到適用于本省的精確模型。在模型應(yīng)用一段時期,或經(jīng)濟環(huán)境發(fā)生重大變化后,模型的偏差可能會增大,這時應(yīng)該考慮重新建立一個適用性更強的模型。
四、國內(nèi)數(shù)據(jù)挖掘應(yīng)用中存在的問題
(1)數(shù)據(jù)質(zhì)量和完備性
國內(nèi)電信運營商現(xiàn)有的、面向事務(wù)的數(shù)據(jù)在質(zhì)量、完整性和一致性上存在許多問題,必須投入大量的精力去進行數(shù)據(jù)的抽取、凈化和處理。此外,業(yè)務(wù)問題的相關(guān)數(shù)據(jù)有時難以全面收集。例如客戶信用是客戶價值評估中的關(guān)鍵因素,但由于國內(nèi)未建立完善的信用體系,無法根據(jù)現(xiàn)有客戶數(shù)據(jù)建立優(yōu)質(zhì)的信用評價模型,從而導(dǎo)致客戶價值模型有效性的降低。
(2)相應(yīng)的人員素質(zhì)
在數(shù)據(jù)挖掘應(yīng)用過程的多個環(huán)節(jié)中,人的主觀辨識和控制是應(yīng)用成敗的關(guān)鍵,這就對系統(tǒng)使用人員提出了很高的要求。如果沒有具備相應(yīng)素質(zhì)的使用和維護人員,必將導(dǎo)致分析系統(tǒng)與現(xiàn)實脫鉤,無法達到預(yù)期效果。
(3)應(yīng)用周期
數(shù)據(jù)挖掘存在一個較長的應(yīng)用周期。技術(shù)本身不能給使用者解決任何問題,只能從數(shù)據(jù)中把一些潛在的情況呈現(xiàn)到使用者面前,由使用者采取相應(yīng)措施。數(shù)據(jù)挖掘應(yīng)用的有效方法是:從一個較小的、關(guān)鍵的問題出發(fā),建立起相對有效的模型,并通過應(yīng)用實踐不斷檢驗和完善模型,逐步替使用者解決問題。
中國通信網(wǎng)(www.c114.net)—信息網(wǎng)絡(luò)