王瑋 蔡蓮紅 2001/06/04
數(shù)據(jù)挖掘技術(shù)
數(shù)據(jù)挖掘(data mining)技術(shù)是對數(shù)據(jù)庫采取半自動的方式,尋找特定的模式、關(guān)聯(lián)規(guī)則、變化規(guī)律、異常信息等具有統(tǒng)計意義的結(jié)構(gòu)和事件。自20世紀90年代以來,數(shù)據(jù)挖掘就成為最具活力的研究領(lǐng)域之一,吸引了眾多研究者從事這方面的研究。
1.數(shù)據(jù)挖掘方法的特點
數(shù)據(jù)挖掘方法與統(tǒng)計方法的不同之處主要體現(xiàn)在:通常的統(tǒng)計方法是在已有的假設(shè)基礎(chǔ)上,從大量的數(shù)據(jù)中得到驗證,而數(shù)據(jù)挖掘則是從大量的數(shù)據(jù)中得到嶄新的模式、結(jié)論和假設(shè);數(shù)據(jù)挖掘方法是純粹的給予數(shù)據(jù)驅(qū)動的方式,而統(tǒng)計方法則更多地引入人為因素并加以分析。探索式數(shù)據(jù)分析是統(tǒng)計方法中與數(shù)據(jù)挖掘最相似的分支,但它所面向的數(shù)據(jù)集還是比數(shù)據(jù)挖掘?qū)ο笮〉枚唷?/font>
2.數(shù)據(jù)挖掘的過程
數(shù)據(jù)挖掘過程可粗略地分為:問題定義(task definition)、數(shù)據(jù)準備和預(yù)處理(data preparation and preprocessing)、數(shù)據(jù)挖掘(data mining)以及結(jié)果的解釋和評估(interpretation and evaluation)等階段。
問題定義 在該過程中,數(shù)據(jù)挖掘人員必須與領(lǐng)域?qū)<壹白罱K用戶緊密協(xié)作,一方面明確實際工作對數(shù)據(jù)挖掘的要求,另一方面通過對各種學(xué)習(xí)算法的對比進而確定可用的學(xué)習(xí)算法。后續(xù)的學(xué)習(xí)算法選擇和數(shù)據(jù)集準備都是在此基礎(chǔ)上進行的。
數(shù)據(jù)挖掘 該階段首先根據(jù)對問題的定義明確挖掘的任務(wù)或目的,如分類、聚類、關(guān)聯(lián)規(guī)則發(fā)現(xiàn)或序列模式發(fā)現(xiàn)等。之后要決定使用什么樣的算法。選擇實現(xiàn)算法要考慮兩個因素:一是不同的數(shù)據(jù)有不同的特點,因此,需要用與之相關(guān)的算法來挖掘;二是要根據(jù)用戶或?qū)嶋H運行系統(tǒng)的要求,有的用戶可能希望獲取描述型的(descriptive)、容易理解的知識(采用規(guī)則表示的挖掘方法顯然要好于神經(jīng)網(wǎng)絡(luò)之類的方法),而有的用戶只是希望獲取預(yù)測準確度盡可能高的預(yù)測型(predictive)知識,并不在意獲取的知識是否易于理解。
結(jié)果解釋和評估 數(shù)據(jù)挖掘階段發(fā)現(xiàn)的模式,經(jīng)過評估,可能存在冗余或無關(guān)的模式,這時需要將其剔除;模式也有可能不滿足用戶要求,這時則需要整個發(fā)現(xiàn)過程回退到前續(xù)階段,如重新選取數(shù)據(jù)、采用新的數(shù)據(jù)變換方法、設(shè)定新的參數(shù)值,甚至換一種算法等。
3.挖掘結(jié)果質(zhì)量評價
數(shù)據(jù)挖掘結(jié)果質(zhì)量的好壞有兩個影響因素:一是所采用的數(shù)據(jù)挖掘技術(shù)的有效性,二是用于挖掘的數(shù)據(jù)的質(zhì)量和數(shù)據(jù)量。如果選擇了錯誤的數(shù)據(jù)或不適當?shù)膶傩,或(qū)?shù)據(jù)進行了不適當?shù)霓D(zhuǎn)換,則挖掘結(jié)果不會好。整個挖掘過程是一個不斷反饋的過程。
4.主要模型
(1) 關(guān)聯(lián)規(guī)則模型
發(fā)現(xiàn)數(shù)據(jù)庫中數(shù)據(jù)項之間的相互關(guān)系是十分重要的,根據(jù)這種關(guān)系可以使用戶從數(shù)據(jù)中找到有意義的模式和趨勢。以超級市場為例,每個記錄包含了一次采購商品的列表,其中關(guān)聯(lián)關(guān)系告訴我們兩件或更多商品之間的關(guān)系。如80%的顧客購買了面包和牛奶,其中有60%的顧客在買面包的同時買了牛奶。我們把這種面包和牛奶之間的關(guān)聯(lián)關(guān)系用下列規(guī)則方式表示為:面包→ 牛奶 |(60%,80%)。數(shù)據(jù)項的關(guān)聯(lián)關(guān)系也可以在多個項之間產(chǎn)生,例如:面包、牛奶 → 甜醬 | (60%,40%)等。目前采用的典型關(guān)聯(lián)算法有Aprioir算法和PHP散列表算法等。
(2) 神經(jīng)網(wǎng)絡(luò)模型
神經(jīng)網(wǎng)絡(luò)方法是模擬人腦神經(jīng)元結(jié)構(gòu),以MP模型和Hebb學(xué)習(xí)規(guī)則為基礎(chǔ)而建立的,主要有三大類多種神經(jīng)網(wǎng)絡(luò)模型。
前饋式網(wǎng)絡(luò) 以感知機、反向傳播模型、函數(shù)型網(wǎng)絡(luò)為代表,可用于預(yù)測、模式識別等方面。
反饋式網(wǎng)絡(luò) 以Hopfield的離散模型和連續(xù)模型為代表,分別用于聯(lián)想記憶和優(yōu)化計算。
自組織網(wǎng)絡(luò) 以ART模型、Kohonen模型為代表,用于聚類。
神經(jīng)網(wǎng)絡(luò)的知識體現(xiàn)在網(wǎng)絡(luò)連接的權(quán)值上,是一個分布式矩陣結(jié)構(gòu)。神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí)體現(xiàn)在神經(jīng)網(wǎng)絡(luò)權(quán)值的逐步計算上(包括反復(fù)迭代或累加計算)。
(3) 粗糙集理論模型
粗糙集理論是一種研究不精確、不確定性知識的數(shù)學(xué)工具,由波蘭科學(xué)家Z.Pawlak于1982年首先提出。粗糙集的研究主要基于分類。分類和概念(concept)同義,一種類別對應(yīng)于一個概念(類別一般表示為外延即集合,而概念常以內(nèi)涵的形式表示如規(guī)則描述)。知識由概念組成,如果某知識中含有不精確概念,則該知識不精確。粗糙集對不精確概念的描述方法是:通過上近似概念和下近似概念這兩個精確概念來表示。一個概念(或集合)的下近似(lower approximation)概念(或集合)指的是,其下近似中的元素肯定屬于該概念;一個概念(或集合)的上近似(upper approximation)概念(或集合)指的是,其上近似中的元素可能屬于該概念。粗糙集方法有幾個優(yōu)點:不需要預(yù)先知道額外信息,如統(tǒng)計中要求的先驗概率和模糊集中要求的隸屬度;算法簡單、易于操作。
在語音信號處理中的應(yīng)用
目前,數(shù)據(jù)挖掘研究主要集中在對新的算法及新的類型的研究上。由于對數(shù)據(jù)挖掘方法的研究不僅涉及數(shù)據(jù)挖掘的算法,同時對于需要處理的數(shù)據(jù)類型也有很高的要求,傳統(tǒng)的數(shù)據(jù)挖掘的對象主要是超級市場中貨籃型數(shù)據(jù)及經(jīng)濟型數(shù)據(jù),幾乎很少涉及語音數(shù)據(jù)的挖掘研究。這一方面是由于語音數(shù)據(jù)非常復(fù)雜,包含很多信息,如基頻信息、時長信息、幅度信息、位置信息以及重音信息等,簡單來說就是同一個音節(jié)在不同的語句中會表現(xiàn)出不同的信息特征,即不同的語境會使音節(jié)自身的屬性值發(fā)生變化,且語音數(shù)據(jù)是一種時序數(shù)據(jù),在一句話中音節(jié)的排列是有先后順序的,同時語音音節(jié)之間也存在著很強的音聯(lián)關(guān)系。所有這些信息特征對整個合成系統(tǒng)輸出的可懂度以及自然度會產(chǎn)生很大影響。
另一方面,語音數(shù)據(jù)挖掘的研究需要研究者在語音合成工作積累的基礎(chǔ)上才能有效地進行。由于數(shù)據(jù)挖掘技術(shù)對處理對象的要求很高,因此,直接錄制音節(jié)的波形文件是無法處理的,必須經(jīng)過嚴格的預(yù)處理過程,如對錄音波形進行音節(jié)切分和音節(jié)標注,這需要大量的人力和物力資源。沒有強大的語音處理能力的積累是不可能的。清華大學(xué)語音處理實驗室長期從事語音信號的研究,具有豐富的語音數(shù)據(jù)源,即我們通常所說的“熟語料”,這使基于數(shù)據(jù)驅(qū)動的挖掘研究成為可能。將數(shù)據(jù)挖掘技術(shù)應(yīng)用于語音信號處理可以解決部分現(xiàn)階段較難解決的語音技術(shù)難題,同時盡可能減少人為經(jīng)驗因素對語音處理的影響,完成對語音處理從定性到定量的轉(zhuǎn)變。因此,將數(shù)據(jù)挖掘方法應(yīng)用于語音合成具有重要的意義和廣闊的前景。
1.關(guān)聯(lián)規(guī)則模型獲得漢語韻律參數(shù)之間的關(guān)聯(lián)關(guān)系
語音合成經(jīng)歷了長期的研究發(fā)展過程,完成了從實驗室向市場應(yīng)用的過渡,但是,合成系統(tǒng)輸出的語音機器味仍然比較濃,與人類自然流暢的發(fā)音相比還有較大的差距。這其中主要是受到系統(tǒng)中韻律模塊研究的制約,由于韻律模塊無法對復(fù)雜的韻律特征進行有效描述,因此,合成系統(tǒng)的輸出就受到了很大的影響。
韻律特征主要是指音節(jié)的時長、基頻的包絡(luò)變化、能量的變化及適當?shù)耐nD等眾多參數(shù)屬性,在這些屬性中,對合成系統(tǒng)的自然度影響最顯著的是音節(jié)的基頻變化和音長的變化。目前,合成系統(tǒng)中的基頻變化規(guī)律大多是根據(jù)語言學(xué)的研究得出的一些定性的描述,這些定性規(guī)則能夠為合成過程提供一些參考,但是無法在合成過程中直接使用這些規(guī)則,而且這些規(guī)則也很難覆蓋所有的基頻變化現(xiàn)象,同時對這些規(guī)則的維護和完善也很困難,在具體應(yīng)用中仍存在較大的不足。由于韻律規(guī)則在語音合成中發(fā)揮著重要作用,迫切需要采用新的處理方法加以解決。
數(shù)據(jù)挖掘技術(shù)中關(guān)聯(lián)規(guī)則模型可以很好地發(fā)現(xiàn)數(shù)據(jù)項之間存在的相互關(guān)系,同時有大量的挖掘算法可供選擇,因此,基于關(guān)聯(lián)規(guī)則的模型可以從大規(guī)模語音庫中提取更為全面和準確的語音韻律相互關(guān)系。首先通過對“熟語料”庫中基頻數(shù)據(jù)和時長數(shù)據(jù)進行預(yù)處理,離散化成相應(yīng)的屬性值,獲得前后音節(jié)的基頻信息和時長信息之間的關(guān)聯(lián)關(guān)系,從而加以指導(dǎo)合成系統(tǒng)的選音,滿足在不同語境下音節(jié)參數(shù)變化的需求。
2.數(shù)據(jù)挖掘技術(shù)獲得漢語韻律的變化規(guī)律
在傳統(tǒng)的語音研究中,往往是用手工得到語音的基頻,求出其調(diào)值,然后根據(jù)不同情況下調(diào)值的變化得到連續(xù)變調(diào)規(guī)律,再將其應(yīng)用于語音合成系統(tǒng)中進行韻律控制。這是在定性基礎(chǔ)上進行的研究,存在很多不足之處。一方面,由于語音數(shù)據(jù)的變化隨機性很大,對少量的語音數(shù)據(jù)進行處理不能得到較為全面的變調(diào)規(guī)律,而大量語音數(shù)據(jù)如果完全用人工來處理,工作量會很大;另一方面,用人工進行語音數(shù)據(jù)處理,往往會由于一些先入為主的概念而很難得到較為完全的規(guī)律。
基于語音合成中的基音同步疊加技術(shù),可利用數(shù)據(jù)挖掘技術(shù)進行韻律變化規(guī)律的學(xué)習(xí),采用數(shù)據(jù)挖掘技術(shù)中的神經(jīng)網(wǎng)絡(luò)方法、數(shù)據(jù)項聚類以及粗糙集理論的有機結(jié)合進行綜合評判,利用神經(jīng)網(wǎng)絡(luò)具有的自組織和自學(xué)習(xí)特性,將經(jīng)過聚類處理的語音基頻數(shù)據(jù)和時長數(shù)據(jù)分別轉(zhuǎn)化成神經(jīng)網(wǎng)絡(luò)的輸入和輸出節(jié)點,經(jīng)過網(wǎng)絡(luò)學(xué)習(xí)來獲得一些典型的基頻曲線和時長映射關(guān)系。由于神經(jīng)網(wǎng)絡(luò)自身理論還存在不夠完善的地方,因此,可以輔助以粗糙集理論進行適當?shù)男拚垣@得期望的模式。在這些映射的基礎(chǔ)上,可通過簡單的變換獲得典型模式,利用這些典型模式,就可在定量的基礎(chǔ)上,對基頻的變化規(guī)律從較高層次進行韻律規(guī)則的研究。
3.基于數(shù)據(jù)驅(qū)動方式的重音確定
在連續(xù)語流中,各音節(jié)的響亮程度并不完全相同,有的音節(jié)聽起來比其他音節(jié)重,簡單地說,這就是重音。以詞為考查對象,音位學(xué)可劃分為正常重音、對比重音和弱重音。人們在口語交流中,常把在表情傳意方面較重要的詞讀得重些,把其余的詞讀得輕些。語句重音是指由于句子語法結(jié)構(gòu)、邏輯語義或心理情感表達的需要而產(chǎn)生的句子中的重讀音,它不同于詞重音,因為詞重音只出現(xiàn)在詞結(jié)構(gòu)中。語句重音一般分為三種:語音重音、邏輯重音、心理重音。
通常研究者認為,重音的聲學(xué)征兆主要表現(xiàn)在時長、音高與音強三個方面,也往往是三者的結(jié)合。不同語言的重音特點不一樣,對于漢語,老一輩語音學(xué)家趙元任先生認為,“漢語重音首先是延長持續(xù)時間和擴大調(diào)域,其次才是增加強度!爆F(xiàn)代語音學(xué)家也認為,漢語重音主要表現(xiàn)在時長的增加(或者說是基音周期數(shù)的增加);其次是調(diào)域的擴大和音高的提升,調(diào)型完整地展開;與發(fā)音強度的關(guān)系并不是主要的。
以上都是定性的分析,從定性到定量的轉(zhuǎn)換是采用基于數(shù)據(jù)驅(qū)動的方式進行,從大量語料數(shù)據(jù)本身的特點來分析重音,并且依據(jù)重音的特點輔助以韻律學(xué)規(guī)律,合成更自然的語音信號。
數(shù)據(jù)挖掘是一種在大量數(shù)據(jù)庫中發(fā)現(xiàn)隱藏新知識的計算技術(shù)方法。數(shù)據(jù)挖掘提取的是定性的模型,并且很容易被轉(zhuǎn)化為邏輯規(guī)則或用可視化的形式表達。因此,將數(shù)據(jù)挖掘與人機交互接口緊密聯(lián)系在一起將對計算機語音信號處理的研究工作產(chǎn)生巨大的推動力,為語音信號處理提供了一條嶄新的研究途徑。可以預(yù)見,采用數(shù)據(jù)挖掘方法可以較好地解決目前語音信號處理中部分難點問題,從而進一步提高語音合成和語音識別技術(shù)的實用化程度。
《計算機世界》 2001/06/04