識(shí)別語(yǔ)音的幾種依據(jù)
清華大學(xué) 劉加 2006/07/31
語(yǔ)音識(shí)別技術(shù)就是通過(guò)機(jī)器識(shí)別和理解過(guò)程把語(yǔ)音信號(hào)轉(zhuǎn)變?yōu)橄鄳?yīng)的文本或命令; 說(shuō)話人識(shí)別技術(shù)就是讓機(jī)器通過(guò)你的聲音紋路確定你的身份; 語(yǔ)種識(shí)別技術(shù)就是讓機(jī)器識(shí)別你所說(shuō)的語(yǔ)言的種類,如是英語(yǔ)還是漢語(yǔ)等。
近二十年來(lái),語(yǔ)音識(shí)別技術(shù)取得顯著進(jìn)步,開(kāi)始從實(shí)驗(yàn)室走向市場(chǎng)。專家預(yù)計(jì),未來(lái)10年內(nèi),語(yǔ)音識(shí)別技術(shù)將進(jìn)入工業(yè)、家電、通信、汽車電子、醫(yī)療、家庭服務(wù)、消費(fèi)電子產(chǎn)品等各個(gè)領(lǐng)域。
由于朗讀方式的連續(xù)語(yǔ)音和通常自然口語(yǔ)化語(yǔ)音(Spontaneous)發(fā)音方式有很大的不同,電話語(yǔ)音通常包含更多的環(huán)境噪聲、信道噪聲和語(yǔ)音失真,因此如何有效提高自然口語(yǔ)化語(yǔ)音電話語(yǔ)音和廣播語(yǔ)音識(shí)別性能是目前重要挑戰(zhàn)。目前語(yǔ)音識(shí)別技術(shù)研究開(kāi)始重點(diǎn)向電話語(yǔ)音和廣播語(yǔ)音識(shí)別研究方向發(fā)展。利用目前已經(jīng)比較成熟的技術(shù),開(kāi)發(fā)針對(duì)各種應(yīng)用的語(yǔ)音識(shí)別產(chǎn)品,包括語(yǔ)音專用芯片、嵌入式語(yǔ)音識(shí)別系統(tǒng)、口語(yǔ)對(duì)話系統(tǒng)、聲紋識(shí)別系統(tǒng)等,也是目前語(yǔ)音技術(shù)領(lǐng)域的熱點(diǎn)之一。
語(yǔ)音識(shí)別整體模型
大詞匯量連續(xù)語(yǔ)音識(shí)別系統(tǒng)的研究主要集中在聲學(xué)模型和語(yǔ)言模型兩個(gè)方面。語(yǔ)音信號(hào)本身的特點(diǎn)造成了語(yǔ)音識(shí)別的困難。這些特點(diǎn)包括多變性、動(dòng)態(tài)性、瞬時(shí)性和連續(xù)性等。語(yǔ)音識(shí)別和理解是一項(xiàng)非常困難的任務(wù),必須建立在從聲學(xué)、語(yǔ)音學(xué)到語(yǔ)言學(xué)的知識(shí)為基礎(chǔ)的語(yǔ)音處理機(jī)制上,才有可能獲得高性能的自動(dòng)語(yǔ)音識(shí)別系統(tǒng)。目前主流的語(yǔ)音識(shí)別的理論是基于統(tǒng)計(jì)模式識(shí)別原理。語(yǔ)音識(shí)別系統(tǒng)通常假設(shè)語(yǔ)音信號(hào)是由一系列編碼組成。輸入的語(yǔ)音波形首先被轉(zhuǎn)換為一組離散的參數(shù)矢量。通常用O=o1,o2,∧,or表示語(yǔ)音發(fā)聲一組待識(shí)別的特征參數(shù)矢量(觀察矢量),其中每個(gè)矢量時(shí)間間隔典型取值為10ms~20ms。識(shí)別器的作用是把輸入的語(yǔ)音特征矢量映射為潛在的文字序列。
語(yǔ)音識(shí)別的整體模型就是要把可利用的語(yǔ)音學(xué)和語(yǔ)言學(xué)信息用一個(gè)統(tǒng)一的模型來(lái)進(jìn)行描述,以得到盡可能正確的句子識(shí)別。假設(shè)一句語(yǔ)音可以由字串W=w1,w2,∧,wr組成,識(shí)別系統(tǒng)要完成的任務(wù)是在給定觀察矢量情況下,尋找最大可能(概率最大)的字串W。漢語(yǔ)和西方語(yǔ)言識(shí)別系統(tǒng)不同的地方在于漢語(yǔ)中的同音字和同音詞比較多,漢語(yǔ)語(yǔ)音識(shí)別系統(tǒng)必須包含音字轉(zhuǎn)換的過(guò)程。
建立語(yǔ)音識(shí)別模型的任務(wù)就是要把檢測(cè)到的聲學(xué)層語(yǔ)音信息通過(guò)適當(dāng)?shù)臄?shù)學(xué)公式將識(shí)別結(jié)果W與O的關(guān)系表示出來(lái)。目前被認(rèn)為最有效的語(yǔ)音識(shí)別模型就是基于統(tǒng)計(jì)的隱含馬爾可夫模型。根據(jù)統(tǒng)計(jì)模式識(shí)別理論,在已知特征O的條件下,選擇可以利用各種信息使后驗(yàn)概率最大。具有最大后驗(yàn)概率的結(jié)果為系統(tǒng)最可能的識(shí)別結(jié)果。
語(yǔ)音識(shí)別整體模型反映了實(shí)際中語(yǔ)音識(shí)別系統(tǒng)要解決的四個(gè)具有挑戰(zhàn)的問(wèn)題。首先,一個(gè)穩(wěn)健的特征參數(shù)提取算法是必須的,并且該參數(shù)能很好地適用于語(yǔ)音的聲學(xué)層模型。第二,必須根據(jù)不同語(yǔ)言的發(fā)音特點(diǎn),建立具有很好鑒別力的聲學(xué)層模型。模型參數(shù)必須能夠從并不充分的語(yǔ)音數(shù)據(jù)中訓(xùn)練出來(lái),并表現(xiàn)出穩(wěn)健性。第三,必須建立一個(gè)語(yǔ)言模型,根據(jù)前面的歷史語(yǔ)言模型能夠指導(dǎo)向前搜索的過(guò)程。完善的語(yǔ)言模型還必須包含處理新詞的能力,并且盡可能做到和文本的內(nèi)容無(wú)關(guān)。第四,由于詞匯數(shù)量是巨大的,一個(gè)實(shí)用系統(tǒng)必須有適合聲學(xué)模型和語(yǔ)言模型的剪枝算法。
語(yǔ)音識(shí)別特征
選取語(yǔ)音的識(shí)別特征參數(shù)是語(yǔ)音識(shí)別系統(tǒng)中非常重要的一個(gè)方面。選取的特征應(yīng)該對(duì)發(fā)音模板有較大的區(qū)分度和抗噪聲性能。語(yǔ)音信號(hào)可以看成是準(zhǔn)平穩(wěn)的隨機(jī)過(guò)程。在10~25ms的時(shí)間范圍內(nèi)語(yǔ)音信號(hào)可以被認(rèn)為是平穩(wěn)的,因此可以分幀對(duì)語(yǔ)音信號(hào)進(jìn)行分析。對(duì)語(yǔ)音識(shí)別系統(tǒng),典型幀長(zhǎng)取值為25ms,幀移為10ms。漢明窗(Hamming)通常在分析中使用以提高分析準(zhǔn)確性。預(yù)加重濾波器通常被用于補(bǔ)償由于嘴唇輻射引起的高頻頻譜的衰減。
目前比較有效識(shí)別參數(shù)為Mel頻率倒譜系數(shù)(Mel-Frequency Cepstral Coefficients MFCC)。MFCC參數(shù)都符合人耳的聽(tīng)覺(jué)特性,在有信道噪聲和頻譜失真情況下,該參數(shù)表現(xiàn)的比較穩(wěn)健。由線性預(yù)測(cè)系數(shù)(Linear
Prediction LP)導(dǎo)出倒譜系數(shù)也是一種常用的語(yǔ)音識(shí)別參數(shù),在安靜的環(huán)境下,線性預(yù)測(cè)倒譜系數(shù)和MFCC系數(shù)的性能相差不多。近來(lái)研究表明用感覺(jué)加權(quán)的線性預(yù)測(cè)(Perceptually
Weighted Linear Prediction Cepstral Coefficients PLPCC)倒譜系數(shù)能有更好的識(shí)別穩(wěn)健性。
在語(yǔ)音信號(hào)特征提取過(guò)程中,通常做一個(gè)不精確的假設(shè),即不同幀間的語(yǔ)音是不相關(guān)的,由于人發(fā)音的物理?xiàng)l件限制,不同幀間語(yǔ)音必須是相關(guān)的,變化是連續(xù)的。可以用一階差分系數(shù)和二階差分系數(shù)來(lái)近似描述語(yǔ)音幀間的相關(guān)性。通常把分析得出的語(yǔ)音信號(hào)的倒譜特征稱為語(yǔ)音的靜態(tài)特征,而把這些靜態(tài)特征的差分譜稱為語(yǔ)音信號(hào)的動(dòng)態(tài)特征。這些動(dòng)態(tài)信息和靜態(tài)信息成互補(bǔ),能很大程度提高系統(tǒng)的識(shí)別性能。更好的語(yǔ)音動(dòng)態(tài)特征可以用語(yǔ)音的幀間相關(guān)模型來(lái)描述,但是,其運(yùn)算量較大。
簡(jiǎn)單增加語(yǔ)音特征參數(shù)的數(shù)量并不一定能夠提高系統(tǒng)的識(shí)別率。增加模型參數(shù)的雖然能提高系統(tǒng)的鑒別能力,但同時(shí)也增加了系統(tǒng)的混淆性。因此如何有效的選取特征參數(shù)是一個(gè)重要問(wèn)題。目前一種從多種參數(shù)中選取重要特征的方法是使用線性鑒別分析(Linear
Discriminant Analysis LDA),通過(guò)LDA可以把原始的特征參數(shù)變換到一個(gè)維數(shù)更低的矢量空間,其改進(jìn)方法包括異方差區(qū)分分析(Heteroscedastic
Discriminant Analysis HAD)和混淆數(shù)據(jù)分析(Confusion Data Analysis CDA)。
聲學(xué)模型
識(shí)別系統(tǒng)的聲學(xué)模型是識(shí)別系統(tǒng)的底層模型。聲學(xué)模型是語(yǔ)音識(shí)別系統(tǒng)中最為關(guān)鍵的一部分。聲學(xué)模型的目的是提供一種有效的方法計(jì)算語(yǔ)音的特征矢量序列和每個(gè)發(fā)音模板之間的距離。人的發(fā)音在每一時(shí)刻都受到其前后發(fā)音的影響,為了模仿自然連續(xù)語(yǔ)音中協(xié)同發(fā)音作用和鑒別這些不同發(fā)音,通常要求使用復(fù)雜的聲學(xué)模型。聲學(xué)模型的設(shè)計(jì)和語(yǔ)言發(fā)音特點(diǎn)密切相關(guān)。
漢語(yǔ)的發(fā)音特點(diǎn)和西方語(yǔ)言有很大的不同。漢語(yǔ)的每個(gè)字發(fā)音較短,為帶調(diào)單音節(jié)。它屬于有調(diào)語(yǔ)言,調(diào)對(duì)區(qū)分漢字的意思起了很大的作用。漢語(yǔ)的每個(gè)發(fā)音中的輔音部分發(fā)音相對(duì)較短且詞間的連音程度不如英語(yǔ)那么強(qiáng)。針對(duì)漢語(yǔ)的這些發(fā)音特點(diǎn),目前的研究表明取半音節(jié)作為識(shí)別系統(tǒng)的識(shí)別單元就能夠很好的描述漢語(yǔ)語(yǔ)音的細(xì)節(jié)。這些半音節(jié)通常稱為聲母和韻母,當(dāng)然如果詳細(xì)考慮到聲母的左半連接關(guān)系和韻母的左半和右半連接關(guān)系,還可以細(xì)化為聲韻母的三音子(Triphone)模型。進(jìn)一步考慮前面兩個(gè)和后面兩個(gè)發(fā)音關(guān)系,還可以細(xì)化為五音子。三音子通常比二音子的數(shù)目大很多,可多達(dá)上萬(wàn)個(gè)。太多的模板,則要求非常大量的訓(xùn)練數(shù)據(jù),才能達(dá)到穩(wěn)健的參數(shù)估值。
基于一種語(yǔ)言學(xué)知識(shí)構(gòu)成的判決樹(shù)(Phonetic Decision Trees)方法可以結(jié)合語(yǔ)言學(xué)知識(shí),由數(shù)據(jù)驅(qū)動(dòng)方法根據(jù)語(yǔ)音數(shù)據(jù)多少,針對(duì)由語(yǔ)言學(xué)總結(jié)出來(lái)的發(fā)音特點(diǎn)對(duì)不同三音子構(gòu)成在最大似然準(zhǔn)則下進(jìn)行聚類。保證生成模型在給定的數(shù)據(jù)下,模型參數(shù)能夠穩(wěn)健的估值。該方法收到良好的效果,有效地提高了系統(tǒng)的識(shí)別率。對(duì)統(tǒng)計(jì)模型語(yǔ)音識(shí)別系統(tǒng)來(lái)說(shuō),語(yǔ)音訓(xùn)練的數(shù)據(jù)相對(duì)來(lái)說(shuō)總是不夠的。提高模型參數(shù)估值穩(wěn)健性的另一種辦法是使用捆綁技術(shù),捆綁技術(shù)使一些不同的發(fā)音模型在某些狀態(tài)上共享模型參數(shù),這可以很大程度上減少對(duì)訓(xùn)練數(shù)據(jù)的要求。
目前隱含馬爾可夫模型HMM仍然是大詞匯量語(yǔ)音識(shí)別算法的主流,它能對(duì)語(yǔ)音的時(shí)變性和動(dòng)態(tài)性有很強(qiáng)的模型能力。HMM的從左到右狀態(tài)轉(zhuǎn)移模型,很好地描敘了語(yǔ)音發(fā)音特點(diǎn)。HMM可以分為連續(xù)密度隱含馬爾柯夫模型、半連續(xù)隱含馬爾柯夫模型和離散隱含馬爾柯夫模型。通常連續(xù)密度隱含馬爾柯夫模型精度最高,但計(jì)算量較大。每個(gè)發(fā)音音素通常采用3個(gè)狀態(tài)隱含馬爾柯夫模型。其結(jié)構(gòu)如附圖所示?紤]到在不同的幀上噪聲、清音、濁音的短時(shí)能量和過(guò)零率有重疊的部分,語(yǔ)音信號(hào)的端點(diǎn)檢測(cè)準(zhǔn)確率不可能很高,尤其是在噪聲較大的環(huán)境下。為解決這個(gè)問(wèn)題,還必須設(shè)計(jì)能夠模擬語(yǔ)句開(kāi)頭、結(jié)尾靜音模型,以及句子中詞間短暫停頓靜音模型,要注意的是這兩種靜音模型有不同的統(tǒng)計(jì)特性和模型結(jié)構(gòu),必須分別加以考慮。
語(yǔ)音識(shí)別系統(tǒng)這一層模型通常稱為聲學(xué)模型,它是識(shí)別系統(tǒng)的最基礎(chǔ)部分,對(duì)系統(tǒng)性能起到最關(guān)鍵的作用。近年來(lái)基于概率圖模型和基于隨機(jī)段模型的識(shí)別算法研究也取得顯著進(jìn)展,其識(shí)別率在一定程度上好于隱含馬爾可夫模型的識(shí)別系統(tǒng),并開(kāi)始受到重視。
語(yǔ)言模型
一個(gè)識(shí)別系統(tǒng)必須在每一時(shí)刻檢測(cè)是否遇到語(yǔ)音的發(fā)音邊界,這樣許多不正確字或詞的猜測(cè)將會(huì)從不正確段的語(yǔ)音中識(shí)別出來(lái)。為了消除這些猜測(cè)字詞之間的模糊性,語(yǔ)言模型是必須的。語(yǔ)言模型可以提供字或詞之間的上下文信息和語(yǔ)義信息。由于語(yǔ)音信號(hào)的復(fù)雜性,不同音的發(fā)聲類之間存在著疊接現(xiàn)象,有些單音如果沒(méi)有前后聯(lián)想即使人來(lái)分辨也是很困難的。通過(guò)語(yǔ)言模型可以提高聲學(xué)模型的區(qū)分度,語(yǔ)言模型可以是語(yǔ)言中一些規(guī)則或語(yǔ)法結(jié)構(gòu),也可以是表現(xiàn)字或詞的上下文之間的統(tǒng)計(jì)模型。目前比較成熟的方法是統(tǒng)計(jì)語(yǔ)言模型,它通過(guò)對(duì)大量文本文件的統(tǒng)計(jì),得出了不同字詞之間先后發(fā)生的統(tǒng)計(jì)關(guān)系。
語(yǔ)言模型是近年來(lái)自然語(yǔ)言處理領(lǐng)域研究的熱點(diǎn)之一。雖然語(yǔ)音識(shí)別的聲學(xué)模型可以做到于任務(wù)無(wú)關(guān),但常規(guī)的語(yǔ)言模型目前還做不到這點(diǎn)。由于語(yǔ)言模型都是通過(guò)特定方面內(nèi)容文本訓(xùn)練而成的,因此從新聞?wù)Z料訓(xùn)練出來(lái)的語(yǔ)言模型,不能夠用于識(shí)別文學(xué)方面的有關(guān)內(nèi)容,這是常規(guī)語(yǔ)言模型的主要缺點(diǎn)之一。
語(yǔ)言模型不僅能用于語(yǔ)音識(shí)別,而且在音字轉(zhuǎn)換、漢語(yǔ)分詞、詞性標(biāo)注中也有應(yīng)用。漢語(yǔ)的同音字現(xiàn)象很嚴(yán)重,雖然漢語(yǔ)只有無(wú)調(diào)拼音408個(gè),有調(diào)拼音1254個(gè),但平均一個(gè)有調(diào)拼音要對(duì)應(yīng)5、6個(gè)漢字,有的高達(dá)十幾個(gè)。漢語(yǔ)可讀的文本是漢字形式,所以音字轉(zhuǎn)換是語(yǔ)音識(shí)別的重要步驟。
語(yǔ)言模型不僅可以用于語(yǔ)音識(shí)別系統(tǒng)中,還可以用于一般的音字轉(zhuǎn)換系統(tǒng)中。
在轉(zhuǎn)換中可以用基于詞的語(yǔ)言模型或基于字的語(yǔ)言模型。實(shí)驗(yàn)表明,基于詞的語(yǔ)言模型要比基于字的語(yǔ)言模型更精確。表中對(duì)應(yīng)音字轉(zhuǎn)換的數(shù)據(jù)是在三元文法語(yǔ)言模型下轉(zhuǎn)換字正確率的百分比。
表中的Perplexity通常稱為語(yǔ)言模型困惑度或分支度,它可以用于度量語(yǔ)言模型的性能,表明在語(yǔ)言模型的限制下,每個(gè)詞后面平均能夠連接詞的個(gè)數(shù),其值越小說(shuō)明語(yǔ)言模型越有效。反過(guò)來(lái),如果保持系統(tǒng)識(shí)別率不變,則Perplexity越大,系統(tǒng)對(duì)語(yǔ)言文法的限制也越寬松。從表中可以看出,基于詞的語(yǔ)言模型確實(shí)比基于字的語(yǔ)言模型效果好。基于詞的模型Perplexity低,而且音字轉(zhuǎn)換準(zhǔn)確率高,但是構(gòu)造基于詞的語(yǔ)言模型比較復(fù)雜,構(gòu)造起來(lái)也比較麻煩。
鏈接:說(shuō)話人自適應(yīng)
說(shuō)話人之間的差異對(duì)非特定人語(yǔ)音識(shí)別系統(tǒng)造成的影響主要有兩方面原因: 1.當(dāng)某一使用該系統(tǒng)的說(shuō)話人語(yǔ)音與訓(xùn)練語(yǔ)音庫(kù)中的所有說(shuō)話人的語(yǔ)音都有較大的差別時(shí),對(duì)該使用者的語(yǔ)音識(shí)別將很難進(jìn)行;
2. 訓(xùn)練一個(gè)較好的識(shí)別系統(tǒng)需要采集數(shù)量很大的說(shuō)話人的語(yǔ)音用于訓(xùn)練,讓訓(xùn)練語(yǔ)音庫(kù)覆蓋更為廣泛的語(yǔ)音空間,這樣雖然可以減低原因1中的影響,但同時(shí)會(huì)造成識(shí)別系統(tǒng)參數(shù)分布較廣,而不是較為尖銳的分布,造成識(shí)別性能的普遍下降。
特定人識(shí)別系統(tǒng)雖然可以克服非特定人系統(tǒng)的以上缺點(diǎn),但該系統(tǒng)需要使用者錄入大量的語(yǔ)音用于訓(xùn)練,給使用者帶來(lái)很大的不便,對(duì)于大詞匯量的識(shí)別系統(tǒng),所需的語(yǔ)音訓(xùn)練的數(shù)量是令人無(wú)法忍受的。
近年來(lái),人們采用說(shuō)話人自適應(yīng)(Speaker Adaptation, SA)算法有效地解決了特定人和非特定人系統(tǒng)各自的缺點(diǎn)。該方案利用系統(tǒng)使用者的少量訓(xùn)練語(yǔ)音,調(diào)整系統(tǒng)的參數(shù),使得系統(tǒng)對(duì)于該使用者的性能有明顯的提高。與非特定人識(shí)別系統(tǒng)相比,
說(shuō)話人自適應(yīng)系統(tǒng)由于考慮了用戶的特殊信息,因此識(shí)別性能優(yōu)于非特定人語(yǔ)音識(shí)別系統(tǒng); 而與特定人語(yǔ)音識(shí)別系統(tǒng)相比,說(shuō)話人自適應(yīng)系統(tǒng)納入了非特定人識(shí)別系統(tǒng)的先驗(yàn)信息,需要用戶提供的訓(xùn)練音數(shù)量遠(yuǎn)低于特定人語(yǔ)音識(shí)別系統(tǒng),有更好的實(shí)用性。因此非特定人+自適應(yīng)成為當(dāng)前各語(yǔ)音識(shí)別系統(tǒng)采用的實(shí)用框架。
按照訓(xùn)練語(yǔ)音獲取的不同形式,自適應(yīng)方式可以分為: 批處理式: 訓(xùn)練語(yǔ)音是由用戶一次性錄入,然后進(jìn)行統(tǒng)一的自適應(yīng)訓(xùn)練,更新系統(tǒng)參數(shù); 在線式:
訓(xùn)練語(yǔ)音是用戶使用識(shí)別系統(tǒng)時(shí)所識(shí)別的語(yǔ)音,系統(tǒng)根據(jù)累積的統(tǒng)計(jì)量,按照一定時(shí)間間隔更新系統(tǒng)參數(shù); 立即式: 訓(xùn)練語(yǔ)音是當(dāng)前正在識(shí)別的語(yǔ)音,該模式與在線式模式間的差別在于立即式自適應(yīng)只利用當(dāng)前的語(yǔ)音作自適應(yīng),沒(méi)有在線式自適應(yīng)的累積過(guò)程。
從實(shí)用角度看,在線式和立即式自適應(yīng)模型由于不需要用戶一次性輸入一批訓(xùn)練語(yǔ)音,所以對(duì)用戶的界面更具友好性。從實(shí)現(xiàn)的角度看,批處理式自適應(yīng)的實(shí)現(xiàn)難度低于在線式和立即式。而從自適應(yīng)的性能看,批處理與在線式的算法本質(zhì)是一致的,因此性能也基本一致,立即式自適應(yīng)由于沒(méi)有累積的過(guò)程,利用語(yǔ)音的信息少,所以性能劣于前兩者。
計(jì)算機(jī)世界網(wǎng)(www.ccw.com.cn)
相關(guān)鏈接: