語音識別技術(shù)就是通過機器識別和理解過程把語音信號轉(zhuǎn)變?yōu)橄鄳奈谋净蛎? 說話人識別技術(shù)就是讓機器通過你的聲音紋路確定你的身份; 語種識別技術(shù)就是讓機器識別你所說的語言的種類,如是英語還是漢語等。
近二十年來,語音識別技術(shù)取得顯著進步,開始從實驗室走向市場。專家預計,未來10年內(nèi),語音識別技術(shù)將進入工業(yè)、家電、通信、汽車電子、醫(yī)療、家庭服務、消費電子產(chǎn)品等各個領(lǐng)域。
由于朗讀方式的連續(xù)語音和通常自然口語化語音(Spontaneous)發(fā)音方式有很大的不同,電話語音通常包含更多的環(huán)境噪聲、信道噪聲和語音失真,因此如何有效提高自然口語化語音電話語音和廣播語音識別性能是目前重要挑戰(zhàn)。目前語音識別技術(shù)研究開始重點向電話語音和廣播語音識別研究方向發(fā)展。利用目前已經(jīng)比較成熟的技術(shù),開發(fā)針對各種應用的語音識別產(chǎn)品,包括語音專用芯片、嵌入式語音識別系統(tǒng)、口語對話系統(tǒng)、聲紋識別系統(tǒng)等,也是目前語音技術(shù)領(lǐng)域的熱點之一。
語音識別整體模型
大詞匯量連續(xù)語音識別系統(tǒng)的研究主要集中在聲學模型和語言模型兩個方面。語音信號本身的特點造成了語音識別的困難。這些特點包括多變性、動態(tài)性、瞬時性和連續(xù)性等。語音識別和理解是一項非常困難的任務,必須建立在從聲學、語音學到語言學的知識為基礎(chǔ)的語音處理機制上,才有可能獲得高性能的自動語音識別系統(tǒng)。目前主流的語音識別的理論是基于統(tǒng)計模式識別原理。語音識別系統(tǒng)通常假設(shè)語音信號是由一系列編碼組成。輸入的語音波形首先被轉(zhuǎn)換為一組離散的參數(shù)矢量。通常用O=o1,o2,∧,or表示語音發(fā)聲一組待識別的特征參數(shù)矢量(觀察矢量),其中每個矢量時間間隔典型取值為10ms~20ms。識別器的作用是把輸入的語音特征矢量映射為潛在的文字序列。
語音識別的整體模型就是要把可利用的語音學和語言學信息用一個統(tǒng)一的模型來進行描述,以得到盡可能正確的句子識別。假設(shè)一句語音可以由字串W=w1,w2,∧,wr組成,識別系統(tǒng)要完成的任務是在給定觀察矢量情況下,尋找最大可能(概率最大)的字串W。漢語和西方語言識別系統(tǒng)不同的地方在于漢語中的同音字和同音詞比較多,漢語語音識別系統(tǒng)必須包含音字轉(zhuǎn)換的過程。
建立語音識別模型的任務就是要把檢測到的聲學層語音信息通過適當?shù)臄?shù)學公式將識別結(jié)果W與O的關(guān)系表示出來。目前被認為最有效的語音識別模型就是基于統(tǒng)計的隱含馬爾可夫模型。根據(jù)統(tǒng)計模式識別理論,在已知特征O的條件下,選擇可以利用各種信息使后驗概率最大。具有最大后驗概率的結(jié)果為系統(tǒng)最可能的識別結(jié)果。
語音識別整體模型反映了實際中語音識別系統(tǒng)要解決的四個具有挑戰(zhàn)的問題。首先,一個穩(wěn)健的特征參數(shù)提取算法是必須的,并且該參數(shù)能很好地適用于語音的聲學層模型。第二,必須根據(jù)不同語言的發(fā)音特點,建立具有很好鑒別力的聲學層模型。模型參數(shù)必須能夠從并不充分的語音數(shù)據(jù)中訓練出來,并表現(xiàn)出穩(wěn)健性。第三,必須建立一個語言模型,根據(jù)前面的歷史語言模型能夠指導向前搜索的過程。完善的語言模型還必須包含處理新詞的能力,并且盡可能做到和文本的內(nèi)容無關(guān)。第四,由于詞匯數(shù)量是巨大的,一個實用系統(tǒng)必須有適合聲學模型和語言模型的剪枝算法。
語音識別特征
選取語音的識別特征參數(shù)是語音識別系統(tǒng)中非常重要的一個方面。選取的特征應該對發(fā)音模板有較大的區(qū)分度和抗噪聲性能。語音信號可以看成是準平穩(wěn)的隨機過程。在10~25ms的時間范圍內(nèi)語音信號可以被認為是平穩(wěn)的,因此可以分幀對語音信號進行分析。對語音識別系統(tǒng),典型幀長取值為25ms,幀移為10ms。漢明窗(Hamming)通常在分析中使用以提高分析準確性。預加重濾波器通常被用于補償由于嘴唇輻射引起的高頻頻譜的衰減。
目前比較有效識別參數(shù)為Mel頻率倒譜系數(shù)(Mel-Frequency Cepstral Coefficients MFCC)。MFCC參數(shù)都符合人耳的聽覺特性,在有信道噪聲和頻譜失真情況下,該參數(shù)表現(xiàn)的比較穩(wěn)健。由線性預測系數(shù)(Linear Prediction LP)導出倒譜系數(shù)也是一種常用的語音識別參數(shù),在安靜的環(huán)境下,線性預測倒譜系數(shù)和MFCC系數(shù)的性能相差不多。近來研究表明用感覺加權(quán)的線性預測(Perceptually Weighted Linear Prediction Cepstral Coefficients PLPCC)倒譜系數(shù)能有更好的識別穩(wěn)健性。
在語音信號特征提取過程中,通常做一個不精確的假設(shè),即不同幀間的語音是不相關(guān)的,由于人發(fā)音的物理條件限制,不同幀間語音必須是相關(guān)的,變化是連續(xù)的?梢杂靡浑A差分系數(shù)和二階差分系數(shù)來近似描述語音幀間的相關(guān)性。通常把分析得出的語音信號的倒譜特征稱為語音的靜態(tài)特征,而把這些靜態(tài)特征的差分譜稱為語音信號的動態(tài)特征。這些動態(tài)信息和靜態(tài)信息成互補,能很大程度提高系統(tǒng)的識別性能。更好的語音動態(tài)特征可以用語音的幀間相關(guān)模型來描述,但是,其運算量較大。
簡單增加語音特征參數(shù)的數(shù)量并不一定能夠提高系統(tǒng)的識別率。增加模型參數(shù)的雖然能提高系統(tǒng)的鑒別能力,但同時也增加了系統(tǒng)的混淆性。因此如何有效的選取特征參數(shù)是一個重要問題。目前一種從多種參數(shù)中選取重要特征的方法是使用線性鑒別分析(Linear Discriminant Analysis LDA),通過LDA可以把原始的特征參數(shù)變換到一個維數(shù)更低的矢量空間,其改進方法包括異方差區(qū)分分析(Heteroscedastic Discriminant Analysis HAD)和混淆數(shù)據(jù)分析(Confusion Data Analysis CDA)。
聲學模型
識別系統(tǒng)的聲學模型是識別系統(tǒng)的底層模型。聲學模型是語音識別系統(tǒng)中最為關(guān)鍵的一部分。聲學模型的目的是提供一種有效的方法計算語音的特征矢量序列和每個發(fā)音模板之間的距離。人的發(fā)音在每一時刻都受到其前后發(fā)音的影響,為了模仿自然連續(xù)語音中協(xié)同發(fā)音作用和鑒別這些不同發(fā)音,通常要求使用復雜的聲學模型。聲學模型的設(shè)計和語言發(fā)音特點密切相關(guān)。
漢語的發(fā)音特點和西方語言有很大的不同。漢語的每個字發(fā)音較短,為帶調(diào)單音節(jié)。它屬于有調(diào)語言,調(diào)對區(qū)分漢字的意思起了很大的作用。漢語的每個發(fā)音中的輔音部分發(fā)音相對較短且詞間的連音程度不如英語那么強。針對漢語的這些發(fā)音特點,目前的研究表明取半音節(jié)作為識別系統(tǒng)的識別單元就能夠很好的描述漢語語音的細節(jié)。這些半音節(jié)通常稱為聲母和韻母,當然如果詳細考慮到聲母的左半連接關(guān)系和韻母的左半和右半連接關(guān)系,還可以細化為聲韻母的三音子(Triphone)模型。進一步考慮前面兩個和后面兩個發(fā)音關(guān)系,還可以細化為五音子。三音子通常比二音子的數(shù)目大很多,可多達上萬個。太多的模板,則要求非常大量的訓練數(shù)據(jù),才能達到穩(wěn)健的參數(shù)估值。
基于一種語言學知識構(gòu)成的判決樹(Phonetic Decision Trees)方法可以結(jié)合語言學知識,由數(shù)據(jù)驅(qū)動方法根據(jù)語音數(shù)據(jù)多少,針對由語言學總結(jié)出來的發(fā)音特點對不同三音子構(gòu)成在最大似然準則下進行聚類。保證生成模型在給定的數(shù)據(jù)下,模型參數(shù)能夠穩(wěn)健的估值。該方法收到良好的效果,有效地提高了系統(tǒng)的識別率。對統(tǒng)計模型語音識別系統(tǒng)來說,語音訓練的數(shù)據(jù)相對來說總是不夠的。提高模型參數(shù)估值穩(wěn)健性的另一種辦法是使用捆綁技術(shù),捆綁技術(shù)使一些不同的發(fā)音模型在某些狀態(tài)上共享模型參數(shù),這可以很大程度上減少對訓練數(shù)據(jù)的要求。
目前隱含馬爾可夫模型HMM仍然是大詞匯量語音識別算法的主流,它能對語音的時變性和動態(tài)性有很強的模型能力。HMM的從左到右狀態(tài)轉(zhuǎn)移模型,很好地描敘了語音發(fā)音特點。HMM可以分為連續(xù)密度隱含馬爾柯夫模型、半連續(xù)隱含馬爾柯夫模型和離散隱含馬爾柯夫模型。通常連續(xù)密度隱含馬爾柯夫模型精度最高,但計算量較大。每個發(fā)音音素通常采用3個狀態(tài)隱含馬爾柯夫模型。其結(jié)構(gòu)如附圖所示?紤]到在不同的幀上噪聲、清音、濁音的短時能量和過零率有重疊的部分,語音信號的端點檢測準確率不可能很高,尤其是在噪聲較大的環(huán)境下。為解決這個問題,還必須設(shè)計能夠模擬語句開頭、結(jié)尾靜音模型,以及句子中詞間短暫停頓靜音模型,要注意的是這兩種靜音模型有不同的統(tǒng)計特性和模型結(jié)構(gòu),必須分別加以考慮。
語音識別系統(tǒng)這一層模型通常稱為聲學模型,它是識別系統(tǒng)的最基礎(chǔ)部分,對系統(tǒng)性能起到最關(guān)鍵的作用。近年來基于概率圖模型和基于隨機段模型的識別算法研究也取得顯著進展,其識別率在一定程度上好于隱含馬爾可夫模型的識別系統(tǒng),并開始受到重視。
語言模型
一個識別系統(tǒng)必須在每一時刻檢測是否遇到語音的發(fā)音邊界,這樣許多不正確字或詞的猜測將會從不正確段的語音中識別出來。為了消除這些猜測字詞之間的模糊性,語言模型是必須的。語言模型可以提供字或詞之間的上下文信息和語義信息。由于語音信號的復雜性,不同音的發(fā)聲類之間存在著疊接現(xiàn)象,有些單音如果沒有前后聯(lián)想即使人來分辨也是很困難的。通過語言模型可以提高聲學模型的區(qū)分度,語言模型可以是語言中一些規(guī)則或語法結(jié)構(gòu),也可以是表現(xiàn)字或詞的上下文之間的統(tǒng)計模型。目前比較成熟的方法是統(tǒng)計語言模型,它通過對大量文本文件的統(tǒng)計,得出了不同字詞之間先后發(fā)生的統(tǒng)計關(guān)系。
語言模型是近年來自然語言處理領(lǐng)域研究的熱點之一。雖然語音識別的聲學模型可以做到于任務無關(guān),但常規(guī)的語言模型目前還做不到這點。由于語言模型都是通過特定方面內(nèi)容文本訓練而成的,因此從新聞語料訓練出來的語言模型,不能夠用于識別文學方面的有關(guān)內(nèi)容,這是常規(guī)語言模型的主要缺點之一。
語言模型不僅能用于語音識別,而且在音字轉(zhuǎn)換、漢語分詞、詞性標注中也有應用。漢語的同音字現(xiàn)象很嚴重,雖然漢語只有無調(diào)拼音408個,有調(diào)拼音1254個,但平均一個有調(diào)拼音要對應5、6個漢字,有的高達十幾個。漢語可讀的文本是漢字形式,所以音字轉(zhuǎn)換是語音識別的重要步驟。
語言模型不僅可以用于語音識別系統(tǒng)中,還可以用于一般的音字轉(zhuǎn)換系統(tǒng)中。
在轉(zhuǎn)換中可以用基于詞的語言模型或基于字的語言模型。實驗表明,基于詞的語言模型要比基于字的語言模型更精確。表中對應音字轉(zhuǎn)換的數(shù)據(jù)是在三元文法語言模型下轉(zhuǎn)換字正確率的百分比。
表中的Perplexity通常稱為語言模型困惑度或分支度,它可以用于度量語言模型的性能,表明在語言模型的限制下,每個詞后面平均能夠連接詞的個數(shù),其值越小說明語言模型越有效。反過來,如果保持系統(tǒng)識別率不變,則Perplexity越大,系統(tǒng)對語言文法的限制也越寬松。從表中可以看出,基于詞的語言模型確實比基于字的語言模型效果好。基于詞的模型Perplexity低,而且音字轉(zhuǎn)換準確率高,但是構(gòu)造基于詞的語言模型比較復雜,構(gòu)造起來也比較麻煩。
鏈接:說話人自適應
說話人之間的差異對非特定人語音識別系統(tǒng)造成的影響主要有兩方面原因: 1.當某一使用該系統(tǒng)的說話人語音與訓練語音庫中的所有說話人的語音都有較大的差別時,對該使用者的語音識別將很難進行; 2. 訓練一個較好的識別系統(tǒng)需要采集數(shù)量很大的說話人的語音用于訓練,讓訓練語音庫覆蓋更為廣泛的語音空間,這樣雖然可以減低原因1中的影響,但同時會造成識別系統(tǒng)參數(shù)分布較廣,而不是較為尖銳的分布,造成識別性能的普遍下降。
特定人識別系統(tǒng)雖然可以克服非特定人系統(tǒng)的以上缺點,但該系統(tǒng)需要使用者錄入大量的語音用于訓練,給使用者帶來很大的不便,對于大詞匯量的識別系統(tǒng),所需的語音訓練的數(shù)量是令人無法忍受的。
近年來,人們采用說話人自適應(Speaker Adaptation, SA)算法有效地解決了特定人和非特定人系統(tǒng)各自的缺點。該方案利用系統(tǒng)使用者的少量訓練語音,調(diào)整系統(tǒng)的參數(shù),使得系統(tǒng)對于該使用者的性能有明顯的提高。與非特定人識別系統(tǒng)相比, 說話人自適應系統(tǒng)由于考慮了用戶的特殊信息,因此識別性能優(yōu)于非特定人語音識別系統(tǒng); 而與特定人語音識別系統(tǒng)相比,說話人自適應系統(tǒng)納入了非特定人識別系統(tǒng)的先驗信息,需要用戶提供的訓練音數(shù)量遠低于特定人語音識別系統(tǒng),有更好的實用性。因此非特定人+自適應成為當前各語音識別系統(tǒng)采用的實用框架。
按照訓練語音獲取的不同形式,自適應方式可以分為: 批處理式: 訓練語音是由用戶一次性錄入,然后進行統(tǒng)一的自適應訓練,更新系統(tǒng)參數(shù); 在線式: 訓練語音是用戶使用識別系統(tǒng)時所識別的語音,系統(tǒng)根據(jù)累積的統(tǒng)計量,按照一定時間間隔更新系統(tǒng)參數(shù); 立即式: 訓練語音是當前正在識別的語音,該模式與在線式模式間的差別在于立即式自適應只利用當前的語音作自適應,沒有在線式自適應的累積過程。
從實用角度看,在線式和立即式自適應模型由于不需要用戶一次性輸入一批訓練語音,所以對用戶的界面更具友好性。從實現(xiàn)的角度看,批處理式自適應的實現(xiàn)難度低于在線式和立即式。而從自適應的性能看,批處理與在線式的算法本質(zhì)是一致的,因此性能也基本一致,立即式自適應由于沒有累積的過程,利用語音的信息少,所以性能劣于前兩者。