有專家說,語音識別用途廣泛,潛力巨大,但要真正實現(xiàn)人與計算機的自然交流卻很難,它不僅需要高深的基礎(chǔ)理論的突破,更需要大量的實際工作的積累。
語音交互就要實現(xiàn)?
1996年,IBM公司發(fā)布了VoiceType中文語音識別軟件,首次將其語音識別產(chǎn)品介紹給中國用戶;1997年9月,IBM推出了ViaVoice中文連續(xù)語音識別系統(tǒng),標志著中文語音識別技術(shù)商業(yè)化進程開始啟動。
然而,語音識別技術(shù)并不是一夜之間冒出來的神話,自從有了計算機,人們就開始了語音識別技術(shù)的研究,因此可以說語音識別的歷史和計算機一樣長。特別是在70年代前后,研究的脈絡(luò)日漸清晰,貝爾實驗室和IBM等都先后建立了專門的研究機構(gòu)。今天這兩家公司在這一領(lǐng)域都已取得了顯著的成果,并且在商業(yè)上應用成功,貝爾實驗室主要偏重于電信方面應用的語音識別系統(tǒng),如電話查詢等;而IBM則偏重于商務應用,因而在連續(xù)語音識別上取得了不小的成功。
不談商業(yè)方面的應用,事實上,很多公司都提供語音識別的引擎(Engine),并且都表示能支持微軟的SAPI?匆豢碨API 4.0SUITE就不難發(fā)現(xiàn),微軟在這方面的研究并不遜色,只是很奇怪它居然沒有將成果商業(yè)化。微軟同時提供了一系列引擎,如SpeechRecognition(語音識別)、Command&Control(發(fā)布指令并控制)、PhoneQuery(電話語音識別)、Texttospeech(文本語音轉(zhuǎn)換)等。
今天,許多用戶已能享受到語音技術(shù)的優(yōu)勢了,可以對計算機發(fā)送命令,或者要求計算機記錄用戶所說的話,以及將文本轉(zhuǎn)換成聲音朗讀出來。盡管如此,距離真正的人機自由交流的境界似乎還很遙遠,F(xiàn)在已有商用系統(tǒng)存在的主要問題是:系統(tǒng)魯棒性還有待改進,如對于噪聲環(huán)境下或方言的語言識別率和穩(wěn)健性等都不盡如人意。
不可否認,語音識別技術(shù)還有一段路需要走,要做到真正成功的商業(yè)化,它還需要在很多方面取得突破性進展,這實際上也是其技術(shù)的未來走向。
語音識別難在哪兒?
計算機自動語音識別就是讓計算機能聽懂人說話。這一問題曾經(jīng)被一位知名的美國教授稱之為是“比登月還難”的科學難題。其實,人們很早就認識到語音識別對于人類生活的重要性。世界上第一臺計算機問世之后,馬上就有人想到要讓計算機聽懂人說話。所以說,語音識別的研究歷史與計算機的發(fā)展歷史一樣長。計算機的發(fā)展已經(jīng)經(jīng)歷了好幾代,今天已經(jīng)進入到了普通家庭。但是,語音識別方面的產(chǎn)品卻遲遲未能進入市場。那么,它難在哪兒呢?
計算機語音識別是一個模式識別匹配的過程。在這個過程中,計算機首先要根據(jù)人的語音特點建立語音模型,對輸入的語音信號進行分析,并抽取所需的特征,在此基礎(chǔ)上建立語音識別所需的模板。而計算機在識別過程中要根據(jù)語音識別的整體模型,將計算機中存放的語音模板與輸入的語音信號的特征進行比較,根據(jù)一定的搜索和匹配策略,找出一系列最優(yōu)的與輸入的語音匹配的模板。然后,據(jù)此模板的定義,通過查表就可以給出計算機的識別結(jié)果。顯然,這種最優(yōu)的結(jié)果與特征的選擇、語音模型和語言模型的好壞、模板是否準確等都有直接的關(guān)系。
一個語音識別系統(tǒng)性能好壞的關(guān)鍵首先是它所采用的語音模型能否真實地反映話音的物理變化規(guī)律,所用的語言模型能否表達自然語言所包含的豐富語言學知識。然而無論是語音信號還是人類的自然語言都是隨機、多變和不穩(wěn)定的,很難把握。這就是目前語音識別過程中的最大難點。
其次,模板訓練的好壞也直接關(guān)系到語音識別系統(tǒng)識別率的高低。為了得到一個好的模板,往往需要有大量的原始語音數(shù)據(jù)來訓練語音模型。因此,在開始進行語音識別研究之前,首先要建立起一個龐大的語音數(shù)據(jù)庫和語料數(shù)據(jù)庫。一個好的語音數(shù)據(jù)庫包括足夠數(shù)量、具有不同性別、年齡、口音說話人的聲音,并且必須要有代表性,能均衡地反映實際使用情況。
有了語音數(shù)據(jù)庫及語音特征,就可以建立語音模型,并用語音數(shù)據(jù)庫中的語音來訓練這個語音模型。訓練過程是指選擇系統(tǒng)的某種最佳狀態(tài)(如對語音庫中的所有語音有最好的識別率),不斷地調(diào)整系統(tǒng)模型(或模板)的參數(shù),使系統(tǒng)模型的性能不斷向這種最佳狀態(tài)逼近的過程。這是一個復雜的過程,要求計算機有強大的計算能力,并有很強的理論指導,才能保證得到良好的訓練結(jié)果。
當語音識別系統(tǒng)對語音進行識別時,相對來說,其識別過程要比訓練過程簡單,對計算機的運算能力要求也很低,并且速度較快。這有利于實時地實現(xiàn)語音識別系統(tǒng)和進行商品化開發(fā)應用。
那么,制約語音識別技術(shù)發(fā)展的根本是什么呢?接受記者采訪的清華大學王作英教授認為,語音識別的關(guān)鍵是其依據(jù)的模型和算法,模型算法是計算機描述語音的能力能否抓住人的語音的本質(zhì)的關(guān)鍵。在語音識別領(lǐng)域,固然有資金實力、人力資源等的競爭,但最根本是其關(guān)鍵核心技術(shù)——模型和算法的競爭。
DTW逐漸淡出HMM占據(jù)統(tǒng)治地位
要建立一個語音識別系統(tǒng)僅有一個好的語音特征還不夠,還要有一個好的語音識別的模型和算法。在語音識別系統(tǒng)中通常分為兩個部分:聲學層部分主要研究如何充分利用語音信號中的信息;語音學層部分主要研究如何充分利用已有語音學知識來提高系統(tǒng)的識別率。目前,大家關(guān)注的中心是低層中聲學層部分所涉及的模型和算法。
目前,在研發(fā)語音識別系統(tǒng)時常用的算法有基于神經(jīng)網(wǎng)絡(luò)的訓練和識別算法、基于動態(tài)時間歸整匹配(DTW)的識別算法和基于統(tǒng)計的隱含馬爾可夫模型(HMM)識別和訓練算法。
基于神經(jīng)網(wǎng)絡(luò)的訓練識別算法由于實現(xiàn)起來較復雜,且識別率并不見得比基于統(tǒng)計的語音識別模型好,因此,這種算法目前仍處于實驗室研究階段。
基于動態(tài)時間歸整匹配的DTW算法從目前來看,可能是一個最為小巧的語音識別的算法。其系統(tǒng)開銷小,識別速度快,在對付小詞匯量的語音命令控制系統(tǒng)中是一個非常有效的算法。但是,如果系統(tǒng)稍微復雜一些,這種算法就顯得力不從心了。
基于統(tǒng)計的HMM算法可能是目前最為成功的一種語音識別模型和算法了。目前所能見到的各種性能優(yōu)良的連續(xù)語音識別系統(tǒng)幾乎無一例外地采用了這種模型。這是因為這種數(shù)學模型出現(xiàn)的時間較早,人們對它的研究也比較深入,已建立起了完整的理論框架。從20世紀80年代初人們開始用這種模型來描述語音信號后,就不斷有人對它進行了各種改良和發(fā)展。這種隱含馬爾可夫模型的算法是將語音看成是一連串特定狀態(tài),這種狀態(tài)是不能被直接觀測到的(如這種狀態(tài)可以是語音的某個音素),而是以某種隱含的關(guān)系與語音的觀測量(或特征)相關(guān)聯(lián)。而這種隱含關(guān)系在HMM模型中通常以概率形式表現(xiàn)出來,模型的輸出結(jié)果也以概率形式給出。這為系統(tǒng)最后給出一個穩(wěn)健的判決創(chuàng)造了條件。
如今,各種形式的HMM模型和算法已日趨成熟,以它為基礎(chǔ)已經(jīng)形成了語音識別的整體框架模型,它統(tǒng)一了語音識別中聲學層和語音學層的算法結(jié)構(gòu),制定了最佳的搜索和匹配算法,以概率的形式將聲學層中得到的信息和語音學層中已有的信息完美地結(jié)合在一起。因此,HMM語音識別模型與算法是迄今為止最為完美的一個語音識別模型,從中也可看出好的理論體系對研究工作所起的重要的指導作用。
HMM的“內(nèi)傷”
許多從事語音識別技術(shù)研究的公司都把HMM當做“救命稻草”,對其展開了大量的研究開發(fā),隨著語音識別研究工作的深入開展,HMM語音識別方法愈來愈受到人們的重視,但與此同時,人們也愈來愈認識到經(jīng)典HMM語音識別模型在一些重要方面存在嚴重的缺陷,這就是:
- 經(jīng)典HMM是一個齊次的Markov模型,狀態(tài)轉(zhuǎn)移概率與狀態(tài)駐留長度無關(guān),與語音的實際過程不符;
- 經(jīng)典HMM現(xiàn)有的模型訓練算法和識別算法都是假設(shè)語音特征是相互獨立的,這也不符合語音信號的實際情況;
- 經(jīng)典HMM模型用于大詞匯表的識別系統(tǒng)時,其模型的訓練量是災難性的;
- 模型的存儲量太大。
任何一個成功的語音識別模型,都是基于其參數(shù)具有聚類性這一基礎(chǔ)上的。HMM模型之所以能達到很高的識別率,是由于反映其狀態(tài)的特征參數(shù)具有聚類性,從而它必然是對應于語音學中的語音單位(如音素),聲學上則必然是對應于某種聲學單元或發(fā)聲器官的某種結(jié)構(gòu)狀態(tài)。語音學的研究表明,語音單位(如音素)在詞中的長度有一個相對平穩(wěn)的分布。正是這種狀態(tài)長度分布的相對平穩(wěn)性破壞了HMM模型的齊次性結(jié)構(gòu)。
DDBHMM浮出水面
王作英教授1988年年底向“863”計劃提交的“語音識別的改進隱含馬爾可夫模型”,可以說是對語音識別模型算法的一次重大革新。它指出了傳統(tǒng)的HMM模型在語音識別應用中存在的問題,得到了一個基于段長分布的非齊次隱含馬爾可夫模型(Duration Distribution Based Hidden Markov Model,DDBHMM)。以此理論為指導所設(shè)計的語音識別聽寫機系統(tǒng)在1994年~1998年的全國語音識別系統(tǒng)評測中取得三連冠,從而顯示了這一新模型的生命力和在這一研究領(lǐng)域內(nèi)的領(lǐng)先水平。
HMM模型是在國際上在語音識別系統(tǒng)中被廣泛引用的一種模型,但是它有一個主要的缺點,即根據(jù)詞模型推出的狀態(tài)段長分布是指數(shù)分布,這不符合語音的本質(zhì)屬性。而王作英教授提出的DDBHMM(基于段長分布的HMM)模型解決了這一缺陷。它是一個非齊次的HMM語音識別模型。在此模型中用狀態(tài)的段長分布函數(shù)替代了齊次HMM中的狀態(tài)轉(zhuǎn)移矩陣,徹底拋棄了“平穩(wěn)的假設(shè)”,而從非平穩(wěn)的角度考慮問題,使模型成為一種基于狀態(tài)段長分布的隱含Markov模型。段長分布函數(shù)的引入澄清了經(jīng)典HMM語音識別模型的許多矛盾。
同時,由于非齊次HMM是一個有后效過程,不能用Bellman的動態(tài)規(guī)劃求最大似然路徑,也不能用Baum的重新估值算法對模型參數(shù)進行訓練。對于這類有后效的多階段決策問題,如果用完全搜索算法求解最佳路徑,其計算復雜性太大,甚至在現(xiàn)有硬件水平上無法實時運行。因而,必須建立新的非齊次HMM訓練算法和識別算法。DBBHMM比國際上流行的HMM語音識別模型有更好的識別性能和更低的計算復雜度(訓練算法比流行的Baum算法復雜度低兩個數(shù)量級)。由于該模型解除了對語音信號狀態(tài)的齊次性和對語音特征的非相關(guān)性的限制,因此為語音識別研究的深入發(fā)展提供了一個和諧的框架。
有好的模型只是一個開始,還需要做大量的工作。以前的模型可以借助其他技術(shù)如神經(jīng)網(wǎng)絡(luò)技術(shù)改進模型的不足,而DBBHMM模型的出現(xiàn)促進了語音識別模型與算法的競爭與發(fā)展。未來,在語音識別領(lǐng)域,基于HMM和DBBHMM兩種模型的語音識別系統(tǒng)將齊頭并進,展開競爭;贖MM的系統(tǒng)“走得早”,且有大量資金和技術(shù)力量的支持;后發(fā)的DBBHMM系統(tǒng)有理論優(yōu)勢,但需要做的工作卻很多,短期內(nèi)兩種系統(tǒng)將共存。另外會不會出現(xiàn)更好的第三種模型算法,現(xiàn)在還不能斷定。
計算機世界網(wǎng)