首頁>>廠商>>CTI系統(tǒng)平臺廠商>>易谷網(wǎng)絡

呼叫中心中可定制報表系統(tǒng)的設計與實現(xiàn)(一)

上海易谷網(wǎng)絡科技有限公司 趙延超 2010/01/11

  本章闡述了本文寫作的課題背景,介紹了呼叫中心中的報表系統(tǒng)以及其在國內(nèi)外研究的現(xiàn)狀,最后給出了本文的研究目的、研究意義和章節(jié)安排。

1.1 課題背景

1.1.1 呼叫中心

  隨著計算機和信息技術的飛速發(fā)展,呼叫中心在現(xiàn)在各企業(yè)中的應用也越來越多。它在銀行、保險、計算機、電力、交通、航空、電信、汽車和教育等行業(yè)都已經(jīng)得到了廣泛的應用。它為人們提供了快捷而方便的服務手段,并受到廣泛的歡迎。

  呼叫中心是一種基于計算機電話集成(Computer Telephony Integration ,CTI)技術、充分利用通信網(wǎng)和計算機網(wǎng)的多項功能集成,并與企業(yè)連為一體的一個完整的綜合信息服務系統(tǒng),它利用現(xiàn)有的各種先進的通信手段,有效地為客戶提供高質(zhì)量、高效率、全方位的服務[1],其基本架構圖如圖1.1所示。



圖1.1 呼叫中心基本架構圖


  呼叫中心通過電話自助語音方式來代替?zhèn)鹘y(tǒng)的柜臺業(yè)務,能夠每天24小時不間斷地隨時提供服務,并且有比柜臺服務更好的友好服務界面。從而,用戶不必跑到營業(yè)處,只要接入呼叫中心系統(tǒng)就能迅速獲得信息和進行一些信息的存儲、轉發(fā)、查詢、交換等操作,還可以通過呼叫中心完成部分交易[2] [3]。另外,大多數(shù)呼叫中心還提供傳真服務,它可以將交易記錄等信息傳真給客戶。

1.1.2 報表系統(tǒng)

  呼叫中心大規(guī)模使用以后,為了更好地衡量呼叫中心是否能夠發(fā)揮最佳的績效,以隨時調(diào)整呼叫中心的運作策略,系統(tǒng)需要有統(tǒng)一的報表管理來對業(yè)務水平進行評價。

  報表系統(tǒng)把呼叫中心中的數(shù)據(jù)進行組裝,分析和包裝管理,再以圖表,文字和表格形式通過網(wǎng)絡定期傳播并更新,達其所用。它以一個規(guī)范的系統(tǒng)架構形式定期提供信息給決策者來支持他們的工作,來提高業(yè)務人員的服務態(tài)度和工作效率[4]。

與呼叫中心結合后,報表按照對呼叫中心中不同對象的數(shù)據(jù)統(tǒng)計,大致有以下幾類。

  1. 坐席報表
  2. 坐席組報表
  3. 隊列報表
  4. 隊列組報表
  5. 路由點報表
  6. 技能組報表
  7. 分機報表
  8. IVR(Interactive Voice Response)報表

  對這些報表的數(shù)據(jù)統(tǒng)計可以衡量呼叫中心中坐席服務態(tài)度、坐席服務是否專業(yè)、坐席業(yè)務熟悉程度、呼叫中心資源分配情況、業(yè)務流程的合理性、各部件工作效率等。下面以坐席為例,簡要描述一下對呼叫中心中報表數(shù)據(jù)統(tǒng)計的詳細內(nèi)容以及作用。

  1. 統(tǒng)計坐席接起電話以前電話鈴響的時間,衡量坐席服務態(tài)度。
  2. 統(tǒng)計坐席通話前客戶在話路分配隊列中等待時間,衡量呼叫中心資源分配是否合理。
  3. 統(tǒng)計客戶電話被掛起的次數(shù)和總的時間,衡量坐席服務是否專業(yè)。
  4. 統(tǒng)計客戶和坐席通話時間,衡量坐席業(yè)務熟悉程度、業(yè)務流程的合理性。
  5. 統(tǒng)計坐席處于待機狀態(tài)時間,衡量坐席數(shù)量是否過多。
  6. 統(tǒng)計其它坐席參與三方通話的次數(shù):衡量坐席業(yè)務熟悉程度以及業(yè)務流程的合理性。
  7. 統(tǒng)計坐席處理一個來電/外拔的時間,衡量坐席工作效率。
  8. 統(tǒng)計坐席輸入資料的時間,衡量坐席對業(yè)務熟悉程度。

1.2 國內(nèi)外研究現(xiàn)狀

  由于報表系統(tǒng)在呼叫中心系統(tǒng)中的基礎性和必要性地位,報表統(tǒng)計功能的應用非常廣泛。同時報表系統(tǒng)軟件也引起了國內(nèi)外不少人的關注和重視。近年來,隨著軟件開發(fā)技術的日新月異,報表技術不斷成熟和完善,報表工具種類繁多并且功能各具特色,目前已經(jīng)出現(xiàn)了一些頗具特色的報表工具軟件。下面從國外和國內(nèi)兩個方面扼要介紹一下報表工具的研究現(xiàn)狀和進展。

1.2.1 國外報表工具現(xiàn)狀

  國外主流的報表工具包括水晶報表(Crystal Report)、Style Report、FastReport、QuickReport、Excel等,它們比較側重于大型數(shù)據(jù)的處理,樣式非常規(guī)整,不過在呈現(xiàn)方面還不能直接滿足國內(nèi)報表大量的個性化定制需求[5] [6]。下面以Excel和QuickReport為例介紹一下國外的報表工具特點。

1.Excel

  Excel是歷史悠久的電子表程序之一,功能強大,許多后來出現(xiàn)的Windows報表工具均受其影響,甚至在功能和界面上加以模仿[7] [8]。

Excel具有如下特點:

  Excel報表中可以包括文字、數(shù)字、圖形等多種內(nèi)容,提供文字的字體大小、顏色、數(shù)字的顯示格式等格式控制。   提供多種數(shù)據(jù)處理函數(shù)并支持條件格式化,支持數(shù)據(jù)的分組、會計等等。   Excel提供了VisualBasicforApplications(VBA)和VisualBasic編程環(huán)境,同時支持OLE,用戶可以使用VBA編寫自定義函數(shù),實現(xiàn)對已有數(shù)據(jù)處理函數(shù)庫的擴充,滿足實際需要[7] [8]。

2.QuickReport

  QuickReport是一組專用于Delphi和C++Builde中的制作報表的控件,它可以很容易的把報表和代碼連接起來,產(chǎn)生圖文報表;可以用QuickReport頁上的控件給一個報表添加表體、報表頁眉和頁腳、報表細部、概要、組合表的頭尾等;可以為各種各樣的數(shù)據(jù)源設計報表,如數(shù)據(jù)庫表(TTabie)、 查詢表(TQuery) 、列表(List)、數(shù)組(Array)等;可以使用屏幕預覽來檢查設計結果;可以自動進行求和、計算平均值等統(tǒng)計功能;可以對某組數(shù)據(jù)重置計算結果等[9] [10]。

QuickReport具有以下一些特征:   QuickReport有一套控件,它置于報表的明細帶中,用于設計文本標簽、圖形、頁標題、腳注等。它還有用于填充報表的數(shù)據(jù)感知控件以及系統(tǒng)數(shù)據(jù)控件和表達式計算控件等,適用于數(shù)據(jù)和數(shù)據(jù)庫的操作[9] [10]。

1.2.2 國內(nèi)報表工具現(xiàn)狀

  國內(nèi)的報表工具有如意報表工具(Rooyee Report)[11],DmTable報表工具等。一般說來,國內(nèi)的報表工具側重于數(shù)據(jù)抽取和前端展現(xiàn),比較適合制作中國式的報表或者中小企業(yè)的報表系統(tǒng),可以說這是它的優(yōu)勢。但是在處理大量的數(shù)據(jù)方面和國外的產(chǎn)品相比還是有一定的差距[12] [13]。

  在此,以DmTable智能報表工具為例詳細介紹國內(nèi)開發(fā)的大型報表工具。

  DmTable智能報表工具向用戶提供了兩個使用部件,一個是報表工具集成環(huán)境,包括報表工具的所有功能,即報表框架的管理和報表數(shù)據(jù)的管理,報表工具集成環(huán)境給用戶提供了交互式使用方式;另一個部件是供用戶使用的編程接口,目前提供了報表數(shù)據(jù)管理的編程接口,因為這部分功能必須嵌在應用程序中[14]。

DmTable智能報表工具的主要特點[15] [16]:   此外,汕頭大學的幾位專家等針對中文報表生成問題設計了多數(shù)據(jù)源中文報表智能生成系統(tǒng),以多數(shù)據(jù)源的中文報表為研究對象,運用面向?qū)ο蟮姆椒,對其組成結構進行分析,提出了中文報表的生成四要素,并根據(jù)其數(shù)據(jù)來源的種類、限制條件、統(tǒng)計條件、各種綜合條件以及各種相關的處理情況,利用CELL組件生成了一個包括初始化管理系統(tǒng)、權限管理系統(tǒng)、文件管理系統(tǒng)、編輯管理系統(tǒng)、格式管理系統(tǒng)、數(shù)據(jù)管理系統(tǒng)和幫助系統(tǒng)等的報表生成系統(tǒng)。

  大連理工大學的兩位教授則提出并實現(xiàn)了一種通過數(shù)據(jù)表(Table)實現(xiàn)完全活動報表的設計方案,該方案利用在數(shù)據(jù)庫中添加與報表設計有關的表來存儲各種報表信息(生成或打印信息),與報表設計有關的表有:報表類別定義表、報表內(nèi)容定義表和報表列信息定義表,然后通過修改數(shù)據(jù)表而不更改源程序?qū)崿F(xiàn)對報表的設計以提高應用程序的適用范圍。

1.3 研究目的和意義

  隨著計算機硬件和軟件技術的發(fā)展,報表己經(jīng)成為現(xiàn)代呼叫中心的一種重要組成部分,且報表設計的需求總體水平跨上了一個新的臺階。

  在現(xiàn)代呼叫中心報表的設計時,其格式多種多樣,數(shù)據(jù)來源和種類千差萬別。而一般呼叫中心僅提供系統(tǒng)開發(fā)時按需求固定的幾種報表格式,無法滿足不斷增加和不斷變化的報表需求,以至于后期的維護工作繁重。呼叫中心對業(yè)務評價的需求高度關注,要求系統(tǒng)必須提供靈活多樣的報表功能。

  本文把報表系統(tǒng)的通用和靈活性作為目標,以報表統(tǒng)計模板中的各基本單元為基礎統(tǒng)計項,根據(jù)不同的用戶需求整合出任何話務需求的解決方案,來減輕應用報表系統(tǒng)的開發(fā)和后期維護工作,具有一定的靈活性和規(guī)范性。

1.4 章節(jié)安排

  本文的主要目的是設計并開發(fā)一種既能方便系統(tǒng)開發(fā)人員使用,又能方便報表系統(tǒng)用戶設計和維護報表,而且符合中國式報表開發(fā)習慣的通用報表系統(tǒng)。為此本文主要做了以下一些工作:

  1. 通過對多種報表工具進行分析和比較,基于數(shù)據(jù)倉庫數(shù)據(jù)ETL技術提出了一種設計開發(fā)新報表系統(tǒng)的實現(xiàn)方案,并設計了呼叫中心中的可定制報表系統(tǒng)體系結構。

  2. 在分析數(shù)據(jù)ETL基礎上,設計了用于報表生成的報表統(tǒng)計模板,提出了一種基于基本統(tǒng)計項的模板構建方法,并在模板劃分的基礎上,完成了報表數(shù)據(jù)存儲模型的設計。

  3. 設計并實現(xiàn)了一個可視化報表設計工具,來生成呼叫中心的報表模板。

  4. 基于設計的報表系統(tǒng)實現(xiàn)了呼叫中心系統(tǒng)的數(shù)據(jù)處理和轉換,并將報表系統(tǒng)過濾的數(shù)據(jù)引入數(shù)據(jù)倉庫,最終利用報表工具展現(xiàn)出來。

圍繞以上內(nèi)容,本文共六章,其組織結構安排如下:

  第一章簡要介紹了課題的提出背景、相關技術研究現(xiàn)狀以及本文研究的目的和意義。該章重點分析了報表系統(tǒng)的特性和已有的主要報表系統(tǒng)和報表工具的特點以及存在的不足,在此基礎上,提出了本文的研究內(nèi)容和主要解決的問題。

  第二章主要介紹了本文研究的報表系統(tǒng)所用的技術:數(shù)據(jù)倉庫以及ETL關鍵技術,為以后論文對報表系統(tǒng)的分析打下了基礎。

  第三章對呼叫中心中的報表特性進行了分析,提出了當今對報表系統(tǒng)功能的需求,給出了可定制報表系統(tǒng)的總體設計方案以及內(nèi)部各功能模塊的設計,構建了一個完整的報表系統(tǒng)。

  第四章對第三章給出的總體設計方案進行了深入、詳細的設計和實現(xiàn),并給出了相關技術實現(xiàn)類圖。

  第五章主要研究該報表系統(tǒng)在呼叫中心中的應用,給出了相應的用例,驗證了該報表系統(tǒng)的可行性和正確性。

  第六章總結了本文研究的內(nèi)容以及不足之處,為以后研究做了相關展望,并指出了需要改進和進一步研究的地方。

第二章 數(shù)據(jù)倉庫以及ETL關鍵技術研究

  數(shù)據(jù)的處理是一個報表系統(tǒng)的設計首先要考慮的問題,這就需要一種有效的管理技術,將分布在網(wǎng)絡中不同站點的呼叫中心數(shù)據(jù)集成到一起,為決策者提供各種類型的、有效的數(shù)據(jù)分析[17] [18]。而該報表系統(tǒng)的設計目的是:依照合理的方式整合源數(shù)據(jù)系統(tǒng),將源數(shù)據(jù)統(tǒng)一存儲在以企業(yè)邏輯模型構建的數(shù)據(jù)庫中,前端展現(xiàn)工具依照用戶需求,對該數(shù)據(jù)庫中的數(shù)據(jù)進行匯總、展示,并按照用戶喜好的方式,將結果展現(xiàn)在用戶面前。要完成這一任務就得使這些不同部門之間做到數(shù)據(jù)共享,實現(xiàn)全局數(shù)據(jù)一致性,并提供全局數(shù)據(jù)查詢和決策分析。因此數(shù)據(jù)倉庫以及ETL(Extraction、Transformation and Loading,數(shù)據(jù)抽取,轉換和加載)技術解決方案成為了本文對數(shù)據(jù)處理的選擇。

2.1 數(shù)據(jù)倉庫技術研究

  數(shù)據(jù)倉庫是伴隨著數(shù)據(jù)庫技術的發(fā)展及用戶對數(shù)據(jù)處理、加工等要求的不斷變化而產(chǎn)生的。

  在傳統(tǒng)的數(shù)據(jù)庫技術中,數(shù)據(jù)庫技術的應用主要表現(xiàn)在聯(lián)機事務處理(On-Line Transaction Processing ,OLTP)方面。聯(lián)機事務處理注重數(shù)據(jù)處理的響應時間、數(shù)據(jù)的安全性和完整性,通過對數(shù)據(jù)庫的聯(lián)機操作(增、刪、改、查詢)來實現(xiàn)特定的應用。再者,傳統(tǒng)的數(shù)據(jù)庫技術是面向應用的,企業(yè)往往針對不同的應用建立不同的數(shù)據(jù)庫,甚至選用不同的數(shù)據(jù)庫管理系統(tǒng)(Database Management System, DBMS)。因此,企業(yè)的業(yè)務數(shù)據(jù)分散地存儲在不同的數(shù)據(jù)庫(可能是同構的,也可能是異構的)中,不易于統(tǒng)一查詢訪問,而且大量的歷史數(shù)據(jù)脫機存放,無法進行聯(lián)機查詢。在此情況下對數(shù)據(jù)進行綜合分析時,其結果往往缺乏可靠性且數(shù)據(jù)處理的效率很低。針對這種情況,為了適應企業(yè)發(fā)展和市場競爭的需要,人們設想建立一種數(shù)據(jù)中心,數(shù)據(jù)中心的數(shù)據(jù)從原有的多個用于聯(lián)機事務處理的數(shù)據(jù)庫中抽取得來,這個數(shù)據(jù)中心專門用于數(shù)據(jù)的分析,為企業(yè)決策提供支持和服務,這就是最初的數(shù)據(jù)倉庫[19]。

  現(xiàn)在的數(shù)據(jù)倉庫是決策支持系統(tǒng)的數(shù)據(jù)平臺,對于決策的效率和準確性有著至關重要的影響。它更大的用處是進一步分析數(shù)據(jù)源,用以支持經(jīng)營管理中的決策制定過程[20] [21]。數(shù)據(jù)倉庫中的數(shù)據(jù)不是傳統(tǒng)數(shù)據(jù)庫中數(shù)據(jù)的簡單堆積,它是一個復雜的容納數(shù)據(jù)集成的系統(tǒng)工程,為決策者提供訪問、分析及共享信息的能力,從而發(fā)揮數(shù)據(jù)倉庫的真正功效。

  一個典型的數(shù)據(jù)倉庫系統(tǒng)是一種系統(tǒng)體系結構,如圖2.1所示,它一般有三層:最下的一層是數(shù)據(jù)倉庫,最上一層是決策支持工具,如聯(lián)機分析處理(On-Line Analytical processing,OLAP)等,中間的一層是中間件。在數(shù)據(jù)倉庫系統(tǒng)中有三個關鍵環(huán)節(jié),即數(shù)據(jù)的抽取、轉換、整理和裝載,在目標數(shù)據(jù)庫中存儲轉換后的數(shù)據(jù),用戶提供對目標數(shù)據(jù)庫的訪問[22]。

圖2.1 數(shù)據(jù)倉庫系統(tǒng)體系結構圖

根據(jù)其本質(zhì)而言,數(shù)據(jù)倉庫具備以下四個關鍵特征[22]:

1.面向主題(Subject Oriented)的數(shù)據(jù)集合

  數(shù)據(jù)倉庫通常圍繞一些主題,如“產(chǎn)品”、“銷售商”、“消費者”等來進行組織。數(shù)據(jù)倉庫關注的是決策者的數(shù)據(jù)建模與分析,而不針對日常操作和事務的處理。因此,數(shù)據(jù)倉庫提供了特定主題的簡明視圖,排除了對于決策無用的數(shù)據(jù)。它面向主題是與傳統(tǒng)數(shù)據(jù)庫面向應用相對應的,是一個在較高層次上將數(shù)據(jù)歸類的標準,每一個主題對應一個宏觀的分析領域。

2.集成(Integrated)的數(shù)據(jù)集合

  數(shù)據(jù)倉庫通常是結合多個異種數(shù)據(jù)源構成的,異種數(shù)據(jù)源可能包括關系數(shù)據(jù)庫、面向?qū)ο髷?shù)據(jù)庫、文本數(shù)據(jù)庫、Web數(shù)據(jù)庫、一般文件等。集成的數(shù)據(jù)集合是指在這些數(shù)據(jù)源中的數(shù)據(jù)進入數(shù)據(jù)倉庫之前,必須經(jīng)過數(shù)據(jù)加工和集成,這是建立數(shù)據(jù)倉庫的關鍵步驟,首先要清洗原始數(shù)據(jù)中的矛盾之處,還要將原始數(shù)據(jù)結構做一個從面向應用和面向主題的轉變。

3.時變(Time Variant)的數(shù)據(jù)集合

  數(shù)據(jù)存儲從歷史的角度提供信息,所以數(shù)據(jù)倉庫中包含時間元素,它所提供的信息總是與時間相關聯(lián)的。數(shù)掘倉庫中存儲的是一個時間段的數(shù)據(jù),而不僅僅是某一個時刻的數(shù)據(jù)。它要求數(shù)據(jù)倉庫中的數(shù)據(jù)保存時限能滿足進行決策分析的需要,而且數(shù)據(jù)倉庫中的數(shù)據(jù)都要標明該數(shù)據(jù)的歷史時期。

4.非易失(Nonvolatile)的數(shù)據(jù)集合

  數(shù)據(jù)倉庫總是與操作環(huán)境下的實時應用數(shù)據(jù)分離存放,因此不需要事務處理、恢復和并發(fā)控制機制。數(shù)據(jù)倉庫里的數(shù)據(jù)通常只需要兩種操作:初始化載入和數(shù)據(jù)訪問。它反映的是歷史數(shù)據(jù)的內(nèi)容,而不是日常事務處理產(chǎn)生的數(shù)據(jù),數(shù)據(jù)經(jīng)加工和集成進入數(shù)據(jù)倉庫后是極少或根本不修改的。因此其數(shù)據(jù)相對穩(wěn)定,極少或根本不更新。

  綜上所述,數(shù)據(jù)倉庫是一種語義上規(guī)范的數(shù)據(jù)存儲,它在決策支持數(shù)據(jù)模型中充當物理實現(xiàn)的角色,并存放企業(yè)戰(zhàn)略決策所需的信息。數(shù)據(jù)倉庫也常常被視為一種體系結構,通過將異種數(shù)據(jù)源中的數(shù)據(jù)集成在一起而構成,支持結構化和專門的查詢、報告分析和決策制定。數(shù)據(jù)倉庫最根本的特點是物理地存放數(shù)據(jù),這些數(shù)據(jù)并不是最新的、專有的,而是來源于其它數(shù)據(jù)庫的。數(shù)據(jù)倉庫的建立不是要取代數(shù)據(jù)庫,但因為它們面向的應用不同,所以要建立在一個較全面和完善的信息應用的基礎之上,才能用于支持高層決策分析,而事務處理數(shù)據(jù)庫在企業(yè)的信息環(huán)境中承擔的則是日常操作性的任務。數(shù)據(jù)倉庫是數(shù)據(jù)庫技術的一種新的應用。到目前為止,數(shù)據(jù)倉庫還是用數(shù)據(jù)庫管理系統(tǒng)來管理其中的數(shù)據(jù),數(shù)據(jù)倉庫技術主要從數(shù)據(jù)庫中提取部門所需要的數(shù)據(jù),以滿足部門級的需要[22]。

2.2 數(shù)據(jù)倉庫技術的優(yōu)越性

  數(shù)據(jù)倉庫技術較之傳統(tǒng)計的數(shù)據(jù)庫技術有著明顯的優(yōu)越性,具體表現(xiàn)在以下幾個方面。

  首先,數(shù)據(jù)倉庫是一種有效的管理技術,將分布在網(wǎng)絡中不同站點的商業(yè)數(shù)據(jù)集成到一起,為決策者提供各種類型的、有效的數(shù)據(jù)分析,起到?jīng)Q策支持作用。它是一個壞境,而不是一件產(chǎn)品,它提供用戶用于決策支持的當前和歷史數(shù)據(jù),這些數(shù)據(jù)在傳統(tǒng)的操作型數(shù)據(jù)庫中很難或不能得到[22] [23]。

  其次,傳統(tǒng)的關系型數(shù)據(jù)庫RDB遵循一致的關系型模型,其中的數(shù)據(jù)(記錄)以表格的方式存儲,并且能用統(tǒng)一的結構化查詢語言(SQL,Structual Query Language)進行數(shù)據(jù)查詢,因此它的應用常被稱為聯(lián)機交易處理(OLTP),其重點在于完成業(yè)務處理,及時給予客戶響應。它能夠處理大型數(shù)據(jù)庫,但不能將其簡單地堆砌就直接作為數(shù)據(jù)倉庫來使用。而數(shù)據(jù)倉庫主要工作的對象為多維數(shù)據(jù),因此又稱為多維數(shù)據(jù)庫。多維數(shù)據(jù)庫的數(shù)據(jù)以數(shù)組方式存儲,既沒有統(tǒng)一的規(guī)律可循,也沒有統(tǒng)一的多維模型可循,它只能按其所屬類別進行歸類。以應用而言,多維數(shù)據(jù)庫應該具備極強的查詢能力,且存儲的信息既多又廣,但由于其完成的是一種聯(lián)機事物分析(OLAP),因此并不追求瞬時的響應時間,只是在有限的時間中給予響應即被認可[23]。

  然而,盡管數(shù)據(jù)倉庫與傳統(tǒng)數(shù)據(jù)庫之間存在著如此大的差異,但設計數(shù)據(jù)倉庫并不是完全另起爐灶,而可利用現(xiàn)有的傳統(tǒng)處理數(shù)據(jù),從中進行信息的綜合,從而構造出滿足不同需求的數(shù)據(jù)倉庫。即數(shù)據(jù)從動態(tài)的、目前事件驅(qū)動的傳統(tǒng)工作數(shù)據(jù)流向靜態(tài)的、歷史性質(zhì)的數(shù)據(jù)倉庫。從理論上說,從工作數(shù)據(jù)中戰(zhàn)略性地引入到期的數(shù)據(jù)可以完成這種轉變,但是由于受到實際存儲容量和技術的限制,這實際上是不可能的。因此必須從工作數(shù)據(jù)中分離和篩選數(shù)據(jù)進入到數(shù)據(jù)倉庫中。鑒于以上各種因素,為保證OLAP的性能,必須將數(shù)據(jù)倉庫和傳統(tǒng)工作的數(shù)據(jù)相分離[22]。

  最后,數(shù)據(jù)倉庫技術是把不同來源、格式和特點的數(shù)據(jù)在邏輯上或物理上有機地集中,從而為企業(yè)提供全面的數(shù)據(jù)共享,是企業(yè)商務智能、數(shù)據(jù)倉庫系統(tǒng)的重要組成部分。ETL技術是數(shù)據(jù)倉庫技術的主要解決方案,它能夠按照統(tǒng)一的規(guī)則集成并提高數(shù)據(jù)的價值,是負責完成數(shù)據(jù)從數(shù)據(jù)源向目標數(shù)據(jù)倉庫轉化的過程,是實施數(shù)據(jù)倉庫技術的重要步驟[22] [23]。

2.3 ETL關鍵技術研究

  數(shù)據(jù)倉庫系統(tǒng)的建立就是要通過數(shù)據(jù)分析來輔助自己決策,把最原始的數(shù)據(jù)資源轉換為信息、知識[24]。不過由于這些數(shù)據(jù)的來源、格式不一樣,導致了系統(tǒng)實施、數(shù)據(jù)整合的難度。要解決數(shù)據(jù)一致性與集成化問題,就需要有一個全面的解決方案來擺脫困境,使其能夠從所有傳統(tǒng)環(huán)境與平臺中采集數(shù)據(jù),并且該解決方案能夠?qū)ζ溥M行高效的轉換,這個解決方案就是ETL[22]。

  ETL是Extraction, Transformation和Loading的縮寫,指數(shù)據(jù)抽取、轉換和清洗、裝載的過程。它是實現(xiàn)數(shù)據(jù)倉庫之前的重要步驟,對于倉庫中數(shù)據(jù)質(zhì)量的保證具有重要意義。它從運作資源中抽取數(shù)據(jù)并按照一定的要求將數(shù)據(jù)進行轉換和清洗,最后將高質(zhì)量的數(shù)據(jù)裝載到數(shù)據(jù)倉庫或數(shù)據(jù)集市中,為更高層次的應用提供決策分析[23]。ETL體系結構如圖2.2所示。

圖2.2 ETL體系結構圖

下面從ETL體系結構出發(fā),由三個方面來詳細研究ETL關鍵技術。

2.3.1 數(shù)據(jù)抽取

  數(shù)據(jù)抽取是指從數(shù)據(jù)源中抽取數(shù)據(jù)倉庫系統(tǒng)所需的數(shù)據(jù)。數(shù)據(jù)抽取采用統(tǒng)一的接口,可以從數(shù)據(jù)庫中抽取數(shù)據(jù),也可以從文件中抽取。對于不同數(shù)據(jù)平臺、源數(shù)據(jù)形式、性能要求的業(yè)務系統(tǒng),或者不同數(shù)據(jù)量的源數(shù)據(jù),可能采用的接口方式就不同。為了保證抽取效率,減少對生產(chǎn)運營的影響,對于大數(shù)據(jù)量的抽取,采取“數(shù)據(jù)分割、縮短抽取周期”的原則,對于直接的數(shù)據(jù)庫抽取,采取協(xié)商接口表的方式,保障生產(chǎn)系統(tǒng)數(shù)據(jù)庫的安全。
從數(shù)據(jù)庫中抽取數(shù)據(jù)一般有全量抽取和增量抽取兩種方式[23]。

1.全量抽取

  全量抽取類似于數(shù)據(jù)遷移或數(shù)據(jù)復制,它將數(shù)據(jù)源中的表或視圖的數(shù)據(jù)原封不動的從數(shù)據(jù)庫中抽取出來,并轉換成自己的ETL工具可以識別的格式?傮w來說,全量抽取比較簡單。

2.增量抽取

  增量抽取只抽取自上次抽取以來數(shù)據(jù)庫中要抽取的表中新增或修改的數(shù)據(jù)。在ETL使用過程中,增量抽取較全量抽取應用更廣。如何捕獲變化的數(shù)據(jù)是增量抽取的關鍵。捕獲變化時,首先要能夠?qū)I(yè)務系統(tǒng)中的變化數(shù)據(jù)按一定的頻率準確地捕獲到;其次不能對業(yè)務系統(tǒng)造成太大的壓力,影響現(xiàn)有業(yè)務。

2.3.2 數(shù)據(jù)轉換和加工

  從數(shù)據(jù)源中抽取的數(shù)據(jù)不一定完全滿足目的數(shù)據(jù)庫的要求,例如數(shù)據(jù)格式的不一致、數(shù)據(jù)輸入錯誤、數(shù)據(jù)不完整等等,因此有必要對抽取出的數(shù)據(jù)進行數(shù)據(jù)轉換和加工。

  數(shù)據(jù)轉換,主要是針對數(shù)據(jù)倉庫建立的模型,實現(xiàn)數(shù)據(jù)從業(yè)務模型到分析模型的轉換。數(shù)據(jù)轉換是將源數(shù)據(jù)變?yōu)槟繕藬?shù)據(jù)的關鍵環(huán)節(jié),它包括數(shù)據(jù)格式轉換、數(shù)據(jù)類型轉換、數(shù)據(jù)清洗、數(shù)據(jù)拆分、數(shù)據(jù)匯總計算、數(shù)據(jù)拼接等,保證來自不同系統(tǒng)、不同格式的數(shù)據(jù)和信息模型具有一致性和完整性,并按要求裝入數(shù)據(jù)倉庫。

  數(shù)據(jù)的轉換和加工可以在ETL引擎中進行,也可以在數(shù)據(jù)抽取過程中利用關系數(shù)據(jù)庫的特性同時進行[23]。

1.ETL引擎中的數(shù)據(jù)轉換和加工

  ETL引擎中一般以組件化的方式實現(xiàn)數(shù)據(jù)轉換。常用的數(shù)據(jù)轉換組件有字段映射、數(shù)據(jù)過濾、數(shù)據(jù)清洗、數(shù)據(jù)替換、數(shù)據(jù)計算、數(shù)據(jù)驗證、數(shù)據(jù)加解密、數(shù)據(jù)合并、數(shù)據(jù)拆分等。這些組件如同一條流水線上的一道道工序,它們是可插拔的,且可以任意組裝,各組件之間通過數(shù)據(jù)總線共享數(shù)據(jù)。

2.在數(shù)據(jù)庫中進行數(shù)據(jù)加工

  關系數(shù)據(jù)庫本身已經(jīng)提供了強大的SQL和函數(shù)來支持數(shù)據(jù)的加工,如在SQL查詢語句中添加where條件進行過濾,查詢中重命名字段名與目的表進行映射,substr函數(shù),case條件判斷等等。

  相比之下,直接在SQL語句中進行轉換和加工更加簡單清晰,性能更高。對于SQL語句無法處理的可以交由ETL引擎處理。

2.3.3 數(shù)據(jù)裝載

  數(shù)據(jù)加載是將轉換后的數(shù)據(jù)加載到數(shù)據(jù)倉庫中,數(shù)據(jù)的加載可以采用數(shù)據(jù)加載工具,也可以采用編程進行數(shù)據(jù)加載。數(shù)據(jù)加載具有加載周期,數(shù)據(jù)加載周期要綜合考慮經(jīng)營分析需求和系統(tǒng)加載的代價,對不同業(yè)務系統(tǒng)的數(shù)據(jù)采用不同的加載周期,但必須保持同一時間業(yè)務數(shù)據(jù)的完整性和一致性。

  將轉換和加工后的數(shù)據(jù)裝載到目的庫中通常是ETL過程的最后步驟。裝載數(shù)據(jù)的最佳方法取決于所執(zhí)行操作的類型以及需要裝入的數(shù)據(jù)量。

2.4 本章小結

  本章對可定制報表系統(tǒng)所涉及的數(shù)據(jù)倉庫和ETL關鍵技術進行了綜述性的研究。該部分主要介紹了數(shù)據(jù)庫概念,研究了數(shù)據(jù)倉庫技術較之傳統(tǒng)數(shù)據(jù)庫的優(yōu)越性,數(shù)據(jù)ETL關鍵技術以及其各步驟的具體流程,為可定制報表系統(tǒng)的解決方案做了關鍵性技術前提。

  本文未經(jīng)許可謝絕轉載!

呼叫中心中可定制報表系統(tǒng)的設計與實現(xiàn)(二)
呼叫中心中可定制報表系統(tǒng)的設計與實現(xiàn)(三)
呼叫中心中可定制報表系統(tǒng)的設計與實現(xiàn)(四)

作者獨家供稿 CTI論壇報道



相關閱讀:
基于VoiceXML可視化IVR系統(tǒng)設計和實現(xiàn)(四) 2010-01-07
基于VoiceXML技術可視化IVR設計和實現(xiàn)(三) 2009-12-29
基于VoiceXML技術可視化IVR設計和實現(xiàn)(二) 2009-12-29
基于VoiceXML的可視化IVR系統(tǒng)設計和實現(xiàn)(一) 2009-09-22
上海易谷與Genesys達成大中華區(qū)長期合作伙伴關系 2009-04-17