首頁>>廠商>>CTI系統(tǒng)平臺(tái)廠商>>易谷網(wǎng)絡(luò)

呼叫中心中可定制報(bào)表系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)(一)

上海易谷網(wǎng)絡(luò)科技有限公司 趙延超 2010/01/11

  本章闡述了本文寫作的課題背景,介紹了呼叫中心中的報(bào)表系統(tǒng)以及其在國(guó)內(nèi)外研究的現(xiàn)狀,最后給出了本文的研究目的、研究意義和章節(jié)安排。

1.1 課題背景

1.1.1 呼叫中心

  隨著計(jì)算機(jī)和信息技術(shù)的飛速發(fā)展,呼叫中心在現(xiàn)在各企業(yè)中的應(yīng)用也越來越多。它在銀行、保險(xiǎn)、計(jì)算機(jī)、電力、交通、航空、電信、汽車和教育等行業(yè)都已經(jīng)得到了廣泛的應(yīng)用。它為人們提供了快捷而方便的服務(wù)手段,并受到廣泛的歡迎。

  呼叫中心是一種基于計(jì)算機(jī)電話集成(Computer Telephony Integration ,CTI)技術(shù)、充分利用通信網(wǎng)和計(jì)算機(jī)網(wǎng)的多項(xiàng)功能集成,并與企業(yè)連為一體的一個(gè)完整的綜合信息服務(wù)系統(tǒng),它利用現(xiàn)有的各種先進(jìn)的通信手段,有效地為客戶提供高質(zhì)量、高效率、全方位的服務(wù)[1],其基本架構(gòu)圖如圖1.1所示。



圖1.1 呼叫中心基本架構(gòu)圖


  呼叫中心通過電話自助語音方式來代替?zhèn)鹘y(tǒng)的柜臺(tái)業(yè)務(wù),能夠每天24小時(shí)不間斷地隨時(shí)提供服務(wù),并且有比柜臺(tái)服務(wù)更好的友好服務(wù)界面。從而,用戶不必跑到營(yíng)業(yè)處,只要接入呼叫中心系統(tǒng)就能迅速獲得信息和進(jìn)行一些信息的存儲(chǔ)、轉(zhuǎn)發(fā)、查詢、交換等操作,還可以通過呼叫中心完成部分交易[2] [3]。另外,大多數(shù)呼叫中心還提供傳真服務(wù),它可以將交易記錄等信息傳真給客戶。

1.1.2 報(bào)表系統(tǒng)

  呼叫中心大規(guī)模使用以后,為了更好地衡量呼叫中心是否能夠發(fā)揮最佳的績(jī)效,以隨時(shí)調(diào)整呼叫中心的運(yùn)作策略,系統(tǒng)需要有統(tǒng)一的報(bào)表管理來對(duì)業(yè)務(wù)水平進(jìn)行評(píng)價(jià)。

  報(bào)表系統(tǒng)把呼叫中心中的數(shù)據(jù)進(jìn)行組裝,分析和包裝管理,再以圖表,文字和表格形式通過網(wǎng)絡(luò)定期傳播并更新,達(dá)其所用。它以一個(gè)規(guī)范的系統(tǒng)架構(gòu)形式定期提供信息給決策者來支持他們的工作,來提高業(yè)務(wù)人員的服務(wù)態(tài)度和工作效率[4]。

與呼叫中心結(jié)合后,報(bào)表按照對(duì)呼叫中心中不同對(duì)象的數(shù)據(jù)統(tǒng)計(jì),大致有以下幾類。

  1. 坐席報(bào)表
  2. 坐席組報(bào)表
  3. 隊(duì)列報(bào)表
  4. 隊(duì)列組報(bào)表
  5. 路由點(diǎn)報(bào)表
  6. 技能組報(bào)表
  7. 分機(jī)報(bào)表
  8. IVR(Interactive Voice Response)報(bào)表

  對(duì)這些報(bào)表的數(shù)據(jù)統(tǒng)計(jì)可以衡量呼叫中心中坐席服務(wù)態(tài)度、坐席服務(wù)是否專業(yè)、坐席業(yè)務(wù)熟悉程度、呼叫中心資源分配情況、業(yè)務(wù)流程的合理性、各部件工作效率等。下面以坐席為例,簡(jiǎn)要描述一下對(duì)呼叫中心中報(bào)表數(shù)據(jù)統(tǒng)計(jì)的詳細(xì)內(nèi)容以及作用。

  1. 統(tǒng)計(jì)坐席接起電話以前電話鈴響的時(shí)間,衡量坐席服務(wù)態(tài)度。
  2. 統(tǒng)計(jì)坐席通話前客戶在話路分配隊(duì)列中等待時(shí)間,衡量呼叫中心資源分配是否合理。
  3. 統(tǒng)計(jì)客戶電話被掛起的次數(shù)和總的時(shí)間,衡量坐席服務(wù)是否專業(yè)。
  4. 統(tǒng)計(jì)客戶和坐席通話時(shí)間,衡量坐席業(yè)務(wù)熟悉程度、業(yè)務(wù)流程的合理性。
  5. 統(tǒng)計(jì)坐席處于待機(jī)狀態(tài)時(shí)間,衡量坐席數(shù)量是否過多。
  6. 統(tǒng)計(jì)其它坐席參與三方通話的次數(shù):衡量坐席業(yè)務(wù)熟悉程度以及業(yè)務(wù)流程的合理性。
  7. 統(tǒng)計(jì)坐席處理一個(gè)來電/外拔的時(shí)間,衡量坐席工作效率。
  8. 統(tǒng)計(jì)坐席輸入資料的時(shí)間,衡量坐席對(duì)業(yè)務(wù)熟悉程度。

1.2 國(guó)內(nèi)外研究現(xiàn)狀

  由于報(bào)表系統(tǒng)在呼叫中心系統(tǒng)中的基礎(chǔ)性和必要性地位,報(bào)表統(tǒng)計(jì)功能的應(yīng)用非常廣泛。同時(shí)報(bào)表系統(tǒng)軟件也引起了國(guó)內(nèi)外不少人的關(guān)注和重視。近年來,隨著軟件開發(fā)技術(shù)的日新月異,報(bào)表技術(shù)不斷成熟和完善,報(bào)表工具種類繁多并且功能各具特色,目前已經(jīng)出現(xiàn)了一些頗具特色的報(bào)表工具軟件。下面從國(guó)外和國(guó)內(nèi)兩個(gè)方面扼要介紹一下報(bào)表工具的研究現(xiàn)狀和進(jìn)展。

1.2.1 國(guó)外報(bào)表工具現(xiàn)狀

  國(guó)外主流的報(bào)表工具包括水晶報(bào)表(Crystal Report)、Style Report、FastReport、QuickReport、Excel等,它們比較側(cè)重于大型數(shù)據(jù)的處理,樣式非常規(guī)整,不過在呈現(xiàn)方面還不能直接滿足國(guó)內(nèi)報(bào)表大量的個(gè)性化定制需求[5] [6]。下面以Excel和QuickReport為例介紹一下國(guó)外的報(bào)表工具特點(diǎn)。

1.Excel

  Excel是歷史悠久的電子表程序之一,功能強(qiáng)大,許多后來出現(xiàn)的Windows報(bào)表工具均受其影響,甚至在功能和界面上加以模仿[7] [8]。

Excel具有如下特點(diǎn):

  Excel報(bào)表中可以包括文字、數(shù)字、圖形等多種內(nèi)容,提供文字的字體大小、顏色、數(shù)字的顯示格式等格式控制。   提供多種數(shù)據(jù)處理函數(shù)并支持條件格式化,支持?jǐn)?shù)據(jù)的分組、會(huì)計(jì)等等。   Excel提供了VisualBasicforApplications(VBA)和VisualBasic編程環(huán)境,同時(shí)支持OLE,用戶可以使用VBA編寫自定義函數(shù),實(shí)現(xiàn)對(duì)已有數(shù)據(jù)處理函數(shù)庫(kù)的擴(kuò)充,滿足實(shí)際需要[7] [8]。

2.QuickReport

  QuickReport是一組專用于Delphi和C++Builde中的制作報(bào)表的控件,它可以很容易的把報(bào)表和代碼連接起來,產(chǎn)生圖文報(bào)表;可以用QuickReport頁上的控件給一個(gè)報(bào)表添加表體、報(bào)表頁眉和頁腳、報(bào)表細(xì)部、概要、組合表的頭尾等;可以為各種各樣的數(shù)據(jù)源設(shè)計(jì)報(bào)表,如數(shù)據(jù)庫(kù)表(TTabie)、 查詢表(TQuery) 、列表(List)、數(shù)組(Array)等;可以使用屏幕預(yù)覽來檢查設(shè)計(jì)結(jié)果;可以自動(dòng)進(jìn)行求和、計(jì)算平均值等統(tǒng)計(jì)功能;可以對(duì)某組數(shù)據(jù)重置計(jì)算結(jié)果等[9] [10]。

QuickReport具有以下一些特征:   QuickReport有一套控件,它置于報(bào)表的明細(xì)帶中,用于設(shè)計(jì)文本標(biāo)簽、圖形、頁標(biāo)題、腳注等。它還有用于填充報(bào)表的數(shù)據(jù)感知控件以及系統(tǒng)數(shù)據(jù)控件和表達(dá)式計(jì)算控件等,適用于數(shù)據(jù)和數(shù)據(jù)庫(kù)的操作[9] [10]。

1.2.2 國(guó)內(nèi)報(bào)表工具現(xiàn)狀

  國(guó)內(nèi)的報(bào)表工具有如意報(bào)表工具(Rooyee Report)[11],DmTable報(bào)表工具等。一般說來,國(guó)內(nèi)的報(bào)表工具側(cè)重于數(shù)據(jù)抽取和前端展現(xiàn),比較適合制作中國(guó)式的報(bào)表或者中小企業(yè)的報(bào)表系統(tǒng),可以說這是它的優(yōu)勢(shì)。但是在處理大量的數(shù)據(jù)方面和國(guó)外的產(chǎn)品相比還是有一定的差距[12] [13]。

  在此,以DmTable智能報(bào)表工具為例詳細(xì)介紹國(guó)內(nèi)開發(fā)的大型報(bào)表工具。

  DmTable智能報(bào)表工具向用戶提供了兩個(gè)使用部件,一個(gè)是報(bào)表工具集成環(huán)境,包括報(bào)表工具的所有功能,即報(bào)表框架的管理和報(bào)表數(shù)據(jù)的管理,報(bào)表工具集成環(huán)境給用戶提供了交互式使用方式;另一個(gè)部件是供用戶使用的編程接口,目前提供了報(bào)表數(shù)據(jù)管理的編程接口,因?yàn)檫@部分功能必須嵌在應(yīng)用程序中[14]。

DmTable智能報(bào)表工具的主要特點(diǎn)[15] [16]:   此外,汕頭大學(xué)的幾位專家等針對(duì)中文報(bào)表生成問題設(shè)計(jì)了多數(shù)據(jù)源中文報(bào)表智能生成系統(tǒng),以多數(shù)據(jù)源的中文報(bào)表為研究對(duì)象,運(yùn)用面向?qū)ο蟮姆椒,?duì)其組成結(jié)構(gòu)進(jìn)行分析,提出了中文報(bào)表的生成四要素,并根據(jù)其數(shù)據(jù)來源的種類、限制條件、統(tǒng)計(jì)條件、各種綜合條件以及各種相關(guān)的處理情況,利用CELL組件生成了一個(gè)包括初始化管理系統(tǒng)、權(quán)限管理系統(tǒng)、文件管理系統(tǒng)、編輯管理系統(tǒng)、格式管理系統(tǒng)、數(shù)據(jù)管理系統(tǒng)和幫助系統(tǒng)等的報(bào)表生成系統(tǒng)。

  大連理工大學(xué)的兩位教授則提出并實(shí)現(xiàn)了一種通過數(shù)據(jù)表(Table)實(shí)現(xiàn)完全活動(dòng)報(bào)表的設(shè)計(jì)方案,該方案利用在數(shù)據(jù)庫(kù)中添加與報(bào)表設(shè)計(jì)有關(guān)的表來存儲(chǔ)各種報(bào)表信息(生成或打印信息),與報(bào)表設(shè)計(jì)有關(guān)的表有:報(bào)表類別定義表、報(bào)表內(nèi)容定義表和報(bào)表列信息定義表,然后通過修改數(shù)據(jù)表而不更改源程序?qū)崿F(xiàn)對(duì)報(bào)表的設(shè)計(jì)以提高應(yīng)用程序的適用范圍。

1.3 研究目的和意義

  隨著計(jì)算機(jī)硬件和軟件技術(shù)的發(fā)展,報(bào)表己經(jīng)成為現(xiàn)代呼叫中心的一種重要組成部分,且報(bào)表設(shè)計(jì)的需求總體水平跨上了一個(gè)新的臺(tái)階。

  在現(xiàn)代呼叫中心報(bào)表的設(shè)計(jì)時(shí),其格式多種多樣,數(shù)據(jù)來源和種類千差萬別。而一般呼叫中心僅提供系統(tǒng)開發(fā)時(shí)按需求固定的幾種報(bào)表格式,無法滿足不斷增加和不斷變化的報(bào)表需求,以至于后期的維護(hù)工作繁重。呼叫中心對(duì)業(yè)務(wù)評(píng)價(jià)的需求高度關(guān)注,要求系統(tǒng)必須提供靈活多樣的報(bào)表功能。

  本文把報(bào)表系統(tǒng)的通用和靈活性作為目標(biāo),以報(bào)表統(tǒng)計(jì)模板中的各基本單元為基礎(chǔ)統(tǒng)計(jì)項(xiàng),根據(jù)不同的用戶需求整合出任何話務(wù)需求的解決方案,來減輕應(yīng)用報(bào)表系統(tǒng)的開發(fā)和后期維護(hù)工作,具有一定的靈活性和規(guī)范性。

1.4 章節(jié)安排

  本文的主要目的是設(shè)計(jì)并開發(fā)一種既能方便系統(tǒng)開發(fā)人員使用,又能方便報(bào)表系統(tǒng)用戶設(shè)計(jì)和維護(hù)報(bào)表,而且符合中國(guó)式報(bào)表開發(fā)習(xí)慣的通用報(bào)表系統(tǒng)。為此本文主要做了以下一些工作:

  1. 通過對(duì)多種報(bào)表工具進(jìn)行分析和比較,基于數(shù)據(jù)倉(cāng)庫(kù)數(shù)據(jù)ETL技術(shù)提出了一種設(shè)計(jì)開發(fā)新報(bào)表系統(tǒng)的實(shí)現(xiàn)方案,并設(shè)計(jì)了呼叫中心中的可定制報(bào)表系統(tǒng)體系結(jié)構(gòu)。

  2. 在分析數(shù)據(jù)ETL基礎(chǔ)上,設(shè)計(jì)了用于報(bào)表生成的報(bào)表統(tǒng)計(jì)模板,提出了一種基于基本統(tǒng)計(jì)項(xiàng)的模板構(gòu)建方法,并在模板劃分的基礎(chǔ)上,完成了報(bào)表數(shù)據(jù)存儲(chǔ)模型的設(shè)計(jì)。

  3. 設(shè)計(jì)并實(shí)現(xiàn)了一個(gè)可視化報(bào)表設(shè)計(jì)工具,來生成呼叫中心的報(bào)表模板。

  4. 基于設(shè)計(jì)的報(bào)表系統(tǒng)實(shí)現(xiàn)了呼叫中心系統(tǒng)的數(shù)據(jù)處理和轉(zhuǎn)換,并將報(bào)表系統(tǒng)過濾的數(shù)據(jù)引入數(shù)據(jù)倉(cāng)庫(kù),最終利用報(bào)表工具展現(xiàn)出來。

圍繞以上內(nèi)容,本文共六章,其組織結(jié)構(gòu)安排如下:

  第一章簡(jiǎn)要介紹了課題的提出背景、相關(guān)技術(shù)研究現(xiàn)狀以及本文研究的目的和意義。該章重點(diǎn)分析了報(bào)表系統(tǒng)的特性和已有的主要報(bào)表系統(tǒng)和報(bào)表工具的特點(diǎn)以及存在的不足,在此基礎(chǔ)上,提出了本文的研究?jī)?nèi)容和主要解決的問題。

  第二章主要介紹了本文研究的報(bào)表系統(tǒng)所用的技術(shù):數(shù)據(jù)倉(cāng)庫(kù)以及ETL關(guān)鍵技術(shù),為以后論文對(duì)報(bào)表系統(tǒng)的分析打下了基礎(chǔ)。

  第三章對(duì)呼叫中心中的報(bào)表特性進(jìn)行了分析,提出了當(dāng)今對(duì)報(bào)表系統(tǒng)功能的需求,給出了可定制報(bào)表系統(tǒng)的總體設(shè)計(jì)方案以及內(nèi)部各功能模塊的設(shè)計(jì),構(gòu)建了一個(gè)完整的報(bào)表系統(tǒng)。

  第四章對(duì)第三章給出的總體設(shè)計(jì)方案進(jìn)行了深入、詳細(xì)的設(shè)計(jì)和實(shí)現(xiàn),并給出了相關(guān)技術(shù)實(shí)現(xiàn)類圖。

  第五章主要研究該報(bào)表系統(tǒng)在呼叫中心中的應(yīng)用,給出了相應(yīng)的用例,驗(yàn)證了該報(bào)表系統(tǒng)的可行性和正確性。

  第六章總結(jié)了本文研究的內(nèi)容以及不足之處,為以后研究做了相關(guān)展望,并指出了需要改進(jìn)和進(jìn)一步研究的地方。

第二章 數(shù)據(jù)倉(cāng)庫(kù)以及ETL關(guān)鍵技術(shù)研究

  數(shù)據(jù)的處理是一個(gè)報(bào)表系統(tǒng)的設(shè)計(jì)首先要考慮的問題,這就需要一種有效的管理技術(shù),將分布在網(wǎng)絡(luò)中不同站點(diǎn)的呼叫中心數(shù)據(jù)集成到一起,為決策者提供各種類型的、有效的數(shù)據(jù)分析[17] [18]。而該報(bào)表系統(tǒng)的設(shè)計(jì)目的是:依照合理的方式整合源數(shù)據(jù)系統(tǒng),將源數(shù)據(jù)統(tǒng)一存儲(chǔ)在以企業(yè)邏輯模型構(gòu)建的數(shù)據(jù)庫(kù)中,前端展現(xiàn)工具依照用戶需求,對(duì)該數(shù)據(jù)庫(kù)中的數(shù)據(jù)進(jìn)行匯總、展示,并按照用戶喜好的方式,將結(jié)果展現(xiàn)在用戶面前。要完成這一任務(wù)就得使這些不同部門之間做到數(shù)據(jù)共享,實(shí)現(xiàn)全局?jǐn)?shù)據(jù)一致性,并提供全局?jǐn)?shù)據(jù)查詢和決策分析。因此數(shù)據(jù)倉(cāng)庫(kù)以及ETL(Extraction、Transformation and Loading,數(shù)據(jù)抽取,轉(zhuǎn)換和加載)技術(shù)解決方案成為了本文對(duì)數(shù)據(jù)處理的選擇。

2.1 數(shù)據(jù)倉(cāng)庫(kù)技術(shù)研究

  數(shù)據(jù)倉(cāng)庫(kù)是伴隨著數(shù)據(jù)庫(kù)技術(shù)的發(fā)展及用戶對(duì)數(shù)據(jù)處理、加工等要求的不斷變化而產(chǎn)生的。

  在傳統(tǒng)的數(shù)據(jù)庫(kù)技術(shù)中,數(shù)據(jù)庫(kù)技術(shù)的應(yīng)用主要表現(xiàn)在聯(lián)機(jī)事務(wù)處理(On-Line Transaction Processing ,OLTP)方面。聯(lián)機(jī)事務(wù)處理注重?cái)?shù)據(jù)處理的響應(yīng)時(shí)間、數(shù)據(jù)的安全性和完整性,通過對(duì)數(shù)據(jù)庫(kù)的聯(lián)機(jī)操作(增、刪、改、查詢)來實(shí)現(xiàn)特定的應(yīng)用。再者,傳統(tǒng)的數(shù)據(jù)庫(kù)技術(shù)是面向應(yīng)用的,企業(yè)往往針對(duì)不同的應(yīng)用建立不同的數(shù)據(jù)庫(kù),甚至選用不同的數(shù)據(jù)庫(kù)管理系統(tǒng)(Database Management System, DBMS)。因此,企業(yè)的業(yè)務(wù)數(shù)據(jù)分散地存儲(chǔ)在不同的數(shù)據(jù)庫(kù)(可能是同構(gòu)的,也可能是異構(gòu)的)中,不易于統(tǒng)一查詢?cè)L問,而且大量的歷史數(shù)據(jù)脫機(jī)存放,無法進(jìn)行聯(lián)機(jī)查詢。在此情況下對(duì)數(shù)據(jù)進(jìn)行綜合分析時(shí),其結(jié)果往往缺乏可靠性且數(shù)據(jù)處理的效率很低。針對(duì)這種情況,為了適應(yīng)企業(yè)發(fā)展和市場(chǎng)競(jìng)爭(zhēng)的需要,人們?cè)O(shè)想建立一種數(shù)據(jù)中心,數(shù)據(jù)中心的數(shù)據(jù)從原有的多個(gè)用于聯(lián)機(jī)事務(wù)處理的數(shù)據(jù)庫(kù)中抽取得來,這個(gè)數(shù)據(jù)中心專門用于數(shù)據(jù)的分析,為企業(yè)決策提供支持和服務(wù),這就是最初的數(shù)據(jù)倉(cāng)庫(kù)[19]。

  現(xiàn)在的數(shù)據(jù)倉(cāng)庫(kù)是決策支持系統(tǒng)的數(shù)據(jù)平臺(tái),對(duì)于決策的效率和準(zhǔn)確性有著至關(guān)重要的影響。它更大的用處是進(jìn)一步分析數(shù)據(jù)源,用以支持經(jīng)營(yíng)管理中的決策制定過程[20] [21]。數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)不是傳統(tǒng)數(shù)據(jù)庫(kù)中數(shù)據(jù)的簡(jiǎn)單堆積,它是一個(gè)復(fù)雜的容納數(shù)據(jù)集成的系統(tǒng)工程,為決策者提供訪問、分析及共享信息的能力,從而發(fā)揮數(shù)據(jù)倉(cāng)庫(kù)的真正功效。

  一個(gè)典型的數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)是一種系統(tǒng)體系結(jié)構(gòu),如圖2.1所示,它一般有三層:最下的一層是數(shù)據(jù)倉(cāng)庫(kù),最上一層是決策支持工具,如聯(lián)機(jī)分析處理(On-Line Analytical processing,OLAP)等,中間的一層是中間件。在數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)中有三個(gè)關(guān)鍵環(huán)節(jié),即數(shù)據(jù)的抽取、轉(zhuǎn)換、整理和裝載,在目標(biāo)數(shù)據(jù)庫(kù)中存儲(chǔ)轉(zhuǎn)換后的數(shù)據(jù),用戶提供對(duì)目標(biāo)數(shù)據(jù)庫(kù)的訪問[22]。

圖2.1 數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)體系結(jié)構(gòu)圖

根據(jù)其本質(zhì)而言,數(shù)據(jù)倉(cāng)庫(kù)具備以下四個(gè)關(guān)鍵特征[22]:

1.面向主題(Subject Oriented)的數(shù)據(jù)集合

  數(shù)據(jù)倉(cāng)庫(kù)通常圍繞一些主題,如“產(chǎn)品”、“銷售商”、“消費(fèi)者”等來進(jìn)行組織。數(shù)據(jù)倉(cāng)庫(kù)關(guān)注的是決策者的數(shù)據(jù)建模與分析,而不針對(duì)日常操作和事務(wù)的處理。因此,數(shù)據(jù)倉(cāng)庫(kù)提供了特定主題的簡(jiǎn)明視圖,排除了對(duì)于決策無用的數(shù)據(jù)。它面向主題是與傳統(tǒng)數(shù)據(jù)庫(kù)面向應(yīng)用相對(duì)應(yīng)的,是一個(gè)在較高層次上將數(shù)據(jù)歸類的標(biāo)準(zhǔn),每一個(gè)主題對(duì)應(yīng)一個(gè)宏觀的分析領(lǐng)域。

2.集成(Integrated)的數(shù)據(jù)集合

  數(shù)據(jù)倉(cāng)庫(kù)通常是結(jié)合多個(gè)異種數(shù)據(jù)源構(gòu)成的,異種數(shù)據(jù)源可能包括關(guān)系數(shù)據(jù)庫(kù)、面向?qū)ο髷?shù)據(jù)庫(kù)、文本數(shù)據(jù)庫(kù)、Web數(shù)據(jù)庫(kù)、一般文件等。集成的數(shù)據(jù)集合是指在這些數(shù)據(jù)源中的數(shù)據(jù)進(jìn)入數(shù)據(jù)倉(cāng)庫(kù)之前,必須經(jīng)過數(shù)據(jù)加工和集成,這是建立數(shù)據(jù)倉(cāng)庫(kù)的關(guān)鍵步驟,首先要清洗原始數(shù)據(jù)中的矛盾之處,還要將原始數(shù)據(jù)結(jié)構(gòu)做一個(gè)從面向應(yīng)用和面向主題的轉(zhuǎn)變。

3.時(shí)變(Time Variant)的數(shù)據(jù)集合

  數(shù)據(jù)存儲(chǔ)從歷史的角度提供信息,所以數(shù)據(jù)倉(cāng)庫(kù)中包含時(shí)間元素,它所提供的信息總是與時(shí)間相關(guān)聯(lián)的。數(shù)掘倉(cāng)庫(kù)中存儲(chǔ)的是一個(gè)時(shí)間段的數(shù)據(jù),而不僅僅是某一個(gè)時(shí)刻的數(shù)據(jù)。它要求數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)保存時(shí)限能滿足進(jìn)行決策分析的需要,而且數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)都要標(biāo)明該數(shù)據(jù)的歷史時(shí)期。

4.非易失(Nonvolatile)的數(shù)據(jù)集合

  數(shù)據(jù)倉(cāng)庫(kù)總是與操作環(huán)境下的實(shí)時(shí)應(yīng)用數(shù)據(jù)分離存放,因此不需要事務(wù)處理、恢復(fù)和并發(fā)控制機(jī)制。數(shù)據(jù)倉(cāng)庫(kù)里的數(shù)據(jù)通常只需要兩種操作:初始化載入和數(shù)據(jù)訪問。它反映的是歷史數(shù)據(jù)的內(nèi)容,而不是日常事務(wù)處理產(chǎn)生的數(shù)據(jù),數(shù)據(jù)經(jīng)加工和集成進(jìn)入數(shù)據(jù)倉(cāng)庫(kù)后是極少或根本不修改的。因此其數(shù)據(jù)相對(duì)穩(wěn)定,極少或根本不更新。

  綜上所述,數(shù)據(jù)倉(cāng)庫(kù)是一種語義上規(guī)范的數(shù)據(jù)存儲(chǔ),它在決策支持?jǐn)?shù)據(jù)模型中充當(dāng)物理實(shí)現(xiàn)的角色,并存放企業(yè)戰(zhàn)略決策所需的信息。數(shù)據(jù)倉(cāng)庫(kù)也常常被視為一種體系結(jié)構(gòu),通過將異種數(shù)據(jù)源中的數(shù)據(jù)集成在一起而構(gòu)成,支持結(jié)構(gòu)化和專門的查詢、報(bào)告分析和決策制定。數(shù)據(jù)倉(cāng)庫(kù)最根本的特點(diǎn)是物理地存放數(shù)據(jù),這些數(shù)據(jù)并不是最新的、專有的,而是來源于其它數(shù)據(jù)庫(kù)的。數(shù)據(jù)倉(cāng)庫(kù)的建立不是要取代數(shù)據(jù)庫(kù),但因?yàn)樗鼈兠嫦虻膽?yīng)用不同,所以要建立在一個(gè)較全面和完善的信息應(yīng)用的基礎(chǔ)之上,才能用于支持高層決策分析,而事務(wù)處理數(shù)據(jù)庫(kù)在企業(yè)的信息環(huán)境中承擔(dān)的則是日常操作性的任務(wù)。數(shù)據(jù)倉(cāng)庫(kù)是數(shù)據(jù)庫(kù)技術(shù)的一種新的應(yīng)用。到目前為止,數(shù)據(jù)倉(cāng)庫(kù)還是用數(shù)據(jù)庫(kù)管理系統(tǒng)來管理其中的數(shù)據(jù),數(shù)據(jù)倉(cāng)庫(kù)技術(shù)主要從數(shù)據(jù)庫(kù)中提取部門所需要的數(shù)據(jù),以滿足部門級(jí)的需要[22]。

2.2 數(shù)據(jù)倉(cāng)庫(kù)技術(shù)的優(yōu)越性

  數(shù)據(jù)倉(cāng)庫(kù)技術(shù)較之傳統(tǒng)計(jì)的數(shù)據(jù)庫(kù)技術(shù)有著明顯的優(yōu)越性,具體表現(xiàn)在以下幾個(gè)方面。

  首先,數(shù)據(jù)倉(cāng)庫(kù)是一種有效的管理技術(shù),將分布在網(wǎng)絡(luò)中不同站點(diǎn)的商業(yè)數(shù)據(jù)集成到一起,為決策者提供各種類型的、有效的數(shù)據(jù)分析,起到?jīng)Q策支持作用。它是一個(gè)壞境,而不是一件產(chǎn)品,它提供用戶用于決策支持的當(dāng)前和歷史數(shù)據(jù),這些數(shù)據(jù)在傳統(tǒng)的操作型數(shù)據(jù)庫(kù)中很難或不能得到[22] [23]。

  其次,傳統(tǒng)的關(guān)系型數(shù)據(jù)庫(kù)RDB遵循一致的關(guān)系型模型,其中的數(shù)據(jù)(記錄)以表格的方式存儲(chǔ),并且能用統(tǒng)一的結(jié)構(gòu)化查詢語言(SQL,Structual Query Language)進(jìn)行數(shù)據(jù)查詢,因此它的應(yīng)用常被稱為聯(lián)機(jī)交易處理(OLTP),其重點(diǎn)在于完成業(yè)務(wù)處理,及時(shí)給予客戶響應(yīng)。它能夠處理大型數(shù)據(jù)庫(kù),但不能將其簡(jiǎn)單地堆砌就直接作為數(shù)據(jù)倉(cāng)庫(kù)來使用。而數(shù)據(jù)倉(cāng)庫(kù)主要工作的對(duì)象為多維數(shù)據(jù),因此又稱為多維數(shù)據(jù)庫(kù)。多維數(shù)據(jù)庫(kù)的數(shù)據(jù)以數(shù)組方式存儲(chǔ),既沒有統(tǒng)一的規(guī)律可循,也沒有統(tǒng)一的多維模型可循,它只能按其所屬類別進(jìn)行歸類。以應(yīng)用而言,多維數(shù)據(jù)庫(kù)應(yīng)該具備極強(qiáng)的查詢能力,且存儲(chǔ)的信息既多又廣,但由于其完成的是一種聯(lián)機(jī)事物分析(OLAP),因此并不追求瞬時(shí)的響應(yīng)時(shí)間,只是在有限的時(shí)間中給予響應(yīng)即被認(rèn)可[23]。

  然而,盡管數(shù)據(jù)倉(cāng)庫(kù)與傳統(tǒng)數(shù)據(jù)庫(kù)之間存在著如此大的差異,但設(shè)計(jì)數(shù)據(jù)倉(cāng)庫(kù)并不是完全另起爐灶,而可利用現(xiàn)有的傳統(tǒng)處理數(shù)據(jù),從中進(jìn)行信息的綜合,從而構(gòu)造出滿足不同需求的數(shù)據(jù)倉(cāng)庫(kù)。即數(shù)據(jù)從動(dòng)態(tài)的、目前事件驅(qū)動(dòng)的傳統(tǒng)工作數(shù)據(jù)流向靜態(tài)的、歷史性質(zhì)的數(shù)據(jù)倉(cāng)庫(kù)。從理論上說,從工作數(shù)據(jù)中戰(zhàn)略性地引入到期的數(shù)據(jù)可以完成這種轉(zhuǎn)變,但是由于受到實(shí)際存儲(chǔ)容量和技術(shù)的限制,這實(shí)際上是不可能的。因此必須從工作數(shù)據(jù)中分離和篩選數(shù)據(jù)進(jìn)入到數(shù)據(jù)倉(cāng)庫(kù)中。鑒于以上各種因素,為保證OLAP的性能,必須將數(shù)據(jù)倉(cāng)庫(kù)和傳統(tǒng)工作的數(shù)據(jù)相分離[22]。

  最后,數(shù)據(jù)倉(cāng)庫(kù)技術(shù)是把不同來源、格式和特點(diǎn)的數(shù)據(jù)在邏輯上或物理上有機(jī)地集中,從而為企業(yè)提供全面的數(shù)據(jù)共享,是企業(yè)商務(wù)智能、數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)的重要組成部分。ETL技術(shù)是數(shù)據(jù)倉(cāng)庫(kù)技術(shù)的主要解決方案,它能夠按照統(tǒng)一的規(guī)則集成并提高數(shù)據(jù)的價(jià)值,是負(fù)責(zé)完成數(shù)據(jù)從數(shù)據(jù)源向目標(biāo)數(shù)據(jù)倉(cāng)庫(kù)轉(zhuǎn)化的過程,是實(shí)施數(shù)據(jù)倉(cāng)庫(kù)技術(shù)的重要步驟[22] [23]。

2.3 ETL關(guān)鍵技術(shù)研究

  數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)的建立就是要通過數(shù)據(jù)分析來輔助自己決策,把最原始的數(shù)據(jù)資源轉(zhuǎn)換為信息、知識(shí)[24]。不過由于這些數(shù)據(jù)的來源、格式不一樣,導(dǎo)致了系統(tǒng)實(shí)施、數(shù)據(jù)整合的難度。要解決數(shù)據(jù)一致性與集成化問題,就需要有一個(gè)全面的解決方案來擺脫困境,使其能夠從所有傳統(tǒng)環(huán)境與平臺(tái)中采集數(shù)據(jù),并且該解決方案能夠?qū)ζ溥M(jìn)行高效的轉(zhuǎn)換,這個(gè)解決方案就是ETL[22]。

  ETL是Extraction, Transformation和Loading的縮寫,指數(shù)據(jù)抽取、轉(zhuǎn)換和清洗、裝載的過程。它是實(shí)現(xiàn)數(shù)據(jù)倉(cāng)庫(kù)之前的重要步驟,對(duì)于倉(cāng)庫(kù)中數(shù)據(jù)質(zhì)量的保證具有重要意義。它從運(yùn)作資源中抽取數(shù)據(jù)并按照一定的要求將數(shù)據(jù)進(jìn)行轉(zhuǎn)換和清洗,最后將高質(zhì)量的數(shù)據(jù)裝載到數(shù)據(jù)倉(cāng)庫(kù)或數(shù)據(jù)集市中,為更高層次的應(yīng)用提供決策分析[23]。ETL體系結(jié)構(gòu)如圖2.2所示。

圖2.2 ETL體系結(jié)構(gòu)圖

下面從ETL體系結(jié)構(gòu)出發(fā),由三個(gè)方面來詳細(xì)研究ETL關(guān)鍵技術(shù)。

2.3.1 數(shù)據(jù)抽取

  數(shù)據(jù)抽取是指從數(shù)據(jù)源中抽取數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)所需的數(shù)據(jù)。數(shù)據(jù)抽取采用統(tǒng)一的接口,可以從數(shù)據(jù)庫(kù)中抽取數(shù)據(jù),也可以從文件中抽取。對(duì)于不同數(shù)據(jù)平臺(tái)、源數(shù)據(jù)形式、性能要求的業(yè)務(wù)系統(tǒng),或者不同數(shù)據(jù)量的源數(shù)據(jù),可能采用的接口方式就不同。為了保證抽取效率,減少對(duì)生產(chǎn)運(yùn)營(yíng)的影響,對(duì)于大數(shù)據(jù)量的抽取,采取“數(shù)據(jù)分割、縮短抽取周期”的原則,對(duì)于直接的數(shù)據(jù)庫(kù)抽取,采取協(xié)商接口表的方式,保障生產(chǎn)系統(tǒng)數(shù)據(jù)庫(kù)的安全。
從數(shù)據(jù)庫(kù)中抽取數(shù)據(jù)一般有全量抽取和增量抽取兩種方式[23]。

1.全量抽取

  全量抽取類似于數(shù)據(jù)遷移或數(shù)據(jù)復(fù)制,它將數(shù)據(jù)源中的表或視圖的數(shù)據(jù)原封不動(dòng)的從數(shù)據(jù)庫(kù)中抽取出來,并轉(zhuǎn)換成自己的ETL工具可以識(shí)別的格式?傮w來說,全量抽取比較簡(jiǎn)單。

2.增量抽取

  增量抽取只抽取自上次抽取以來數(shù)據(jù)庫(kù)中要抽取的表中新增或修改的數(shù)據(jù)。在ETL使用過程中,增量抽取較全量抽取應(yīng)用更廣。如何捕獲變化的數(shù)據(jù)是增量抽取的關(guān)鍵。捕獲變化時(shí),首先要能夠?qū)I(yè)務(wù)系統(tǒng)中的變化數(shù)據(jù)按一定的頻率準(zhǔn)確地捕獲到;其次不能對(duì)業(yè)務(wù)系統(tǒng)造成太大的壓力,影響現(xiàn)有業(yè)務(wù)。

2.3.2 數(shù)據(jù)轉(zhuǎn)換和加工

  從數(shù)據(jù)源中抽取的數(shù)據(jù)不一定完全滿足目的數(shù)據(jù)庫(kù)的要求,例如數(shù)據(jù)格式的不一致、數(shù)據(jù)輸入錯(cuò)誤、數(shù)據(jù)不完整等等,因此有必要對(duì)抽取出的數(shù)據(jù)進(jìn)行數(shù)據(jù)轉(zhuǎn)換和加工。

  數(shù)據(jù)轉(zhuǎn)換,主要是針對(duì)數(shù)據(jù)倉(cāng)庫(kù)建立的模型,實(shí)現(xiàn)數(shù)據(jù)從業(yè)務(wù)模型到分析模型的轉(zhuǎn)換。數(shù)據(jù)轉(zhuǎn)換是將源數(shù)據(jù)變?yōu)槟繕?biāo)數(shù)據(jù)的關(guān)鍵環(huán)節(jié),它包括數(shù)據(jù)格式轉(zhuǎn)換、數(shù)據(jù)類型轉(zhuǎn)換、數(shù)據(jù)清洗、數(shù)據(jù)拆分、數(shù)據(jù)匯總計(jì)算、數(shù)據(jù)拼接等,保證來自不同系統(tǒng)、不同格式的數(shù)據(jù)和信息模型具有一致性和完整性,并按要求裝入數(shù)據(jù)倉(cāng)庫(kù)。

  數(shù)據(jù)的轉(zhuǎn)換和加工可以在ETL引擎中進(jìn)行,也可以在數(shù)據(jù)抽取過程中利用關(guān)系數(shù)據(jù)庫(kù)的特性同時(shí)進(jìn)行[23]。

1.ETL引擎中的數(shù)據(jù)轉(zhuǎn)換和加工

  ETL引擎中一般以組件化的方式實(shí)現(xiàn)數(shù)據(jù)轉(zhuǎn)換。常用的數(shù)據(jù)轉(zhuǎn)換組件有字段映射、數(shù)據(jù)過濾、數(shù)據(jù)清洗、數(shù)據(jù)替換、數(shù)據(jù)計(jì)算、數(shù)據(jù)驗(yàn)證、數(shù)據(jù)加解密、數(shù)據(jù)合并、數(shù)據(jù)拆分等。這些組件如同一條流水線上的一道道工序,它們是可插拔的,且可以任意組裝,各組件之間通過數(shù)據(jù)總線共享數(shù)據(jù)。

2.在數(shù)據(jù)庫(kù)中進(jìn)行數(shù)據(jù)加工

  關(guān)系數(shù)據(jù)庫(kù)本身已經(jīng)提供了強(qiáng)大的SQL和函數(shù)來支持?jǐn)?shù)據(jù)的加工,如在SQL查詢語句中添加where條件進(jìn)行過濾,查詢中重命名字段名與目的表進(jìn)行映射,substr函數(shù),case條件判斷等等。

  相比之下,直接在SQL語句中進(jìn)行轉(zhuǎn)換和加工更加簡(jiǎn)單清晰,性能更高。對(duì)于SQL語句無法處理的可以交由ETL引擎處理。

2.3.3 數(shù)據(jù)裝載

  數(shù)據(jù)加載是將轉(zhuǎn)換后的數(shù)據(jù)加載到數(shù)據(jù)倉(cāng)庫(kù)中,數(shù)據(jù)的加載可以采用數(shù)據(jù)加載工具,也可以采用編程進(jìn)行數(shù)據(jù)加載。數(shù)據(jù)加載具有加載周期,數(shù)據(jù)加載周期要綜合考慮經(jīng)營(yíng)分析需求和系統(tǒng)加載的代價(jià),對(duì)不同業(yè)務(wù)系統(tǒng)的數(shù)據(jù)采用不同的加載周期,但必須保持同一時(shí)間業(yè)務(wù)數(shù)據(jù)的完整性和一致性。

  將轉(zhuǎn)換和加工后的數(shù)據(jù)裝載到目的庫(kù)中通常是ETL過程的最后步驟。裝載數(shù)據(jù)的最佳方法取決于所執(zhí)行操作的類型以及需要裝入的數(shù)據(jù)量。

2.4 本章小結(jié)

  本章對(duì)可定制報(bào)表系統(tǒng)所涉及的數(shù)據(jù)倉(cāng)庫(kù)和ETL關(guān)鍵技術(shù)進(jìn)行了綜述性的研究。該部分主要介紹了數(shù)據(jù)庫(kù)概念,研究了數(shù)據(jù)倉(cāng)庫(kù)技術(shù)較之傳統(tǒng)數(shù)據(jù)庫(kù)的優(yōu)越性,數(shù)據(jù)ETL關(guān)鍵技術(shù)以及其各步驟的具體流程,為可定制報(bào)表系統(tǒng)的解決方案做了關(guān)鍵性技術(shù)前提。

  本文未經(jīng)許可謝絕轉(zhuǎn)載!

呼叫中心中可定制報(bào)表系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)(二)
呼叫中心中可定制報(bào)表系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)(三)
呼叫中心中可定制報(bào)表系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)(四)

作者獨(dú)家供稿 CTI論壇報(bào)道



相關(guān)閱讀:
基于VoiceXML可視化IVR系統(tǒng)設(shè)計(jì)和實(shí)現(xiàn)(四) 2010-01-07
基于VoiceXML技術(shù)可視化IVR設(shè)計(jì)和實(shí)現(xiàn)(三) 2009-12-29
基于VoiceXML技術(shù)可視化IVR設(shè)計(jì)和實(shí)現(xiàn)(二) 2009-12-29
基于VoiceXML的可視化IVR系統(tǒng)設(shè)計(jì)和實(shí)現(xiàn)(一) 2009-09-22
上海易谷與Genesys達(dá)成大中華區(qū)長(zhǎng)期合作伙伴關(guān)系 2009-04-17