聲紋識別 聽聲辨人
北京大學(xué)信息科學(xué)中心視覺與聽覺信息處理國家重點實驗室 吳璽宏
2001/08/23
近年來,在生物識別技術(shù)領(lǐng)域中,聲紋識別技術(shù)以其獨特的方便性、經(jīng)濟性和準確性等優(yōu)勢受到世人矚目,并日益成為人們?nèi)粘I詈凸ぷ髦兄匾移占暗陌踩炞C方式。
聲紋識別屬于生物識別技術(shù)的一種,是一項根據(jù)語音波形中反映說話人生理和行為特征的語音參數(shù),自動識別說話人身份的技術(shù)。與語音識別不同的是,聲紋識別利用的是語音信號中的說話人信息,而不考慮語音中的字詞意思,它強調(diào)說話人的個性;而語音識別的目的是識別出語音信號中的言語內(nèi)容,并不考慮說話人是誰,它強調(diào)共性。
歷史與現(xiàn)狀
對聲紋識別的研究始于20世紀30年代。早期的工作主要集中在人耳聽辨實驗和探討聽音識別的可能性方面。隨著研究手段和工具的改進,研究工作逐漸脫離了單純的人耳聽辨。Bell實驗室的L.G. Kesta目視觀察語譜圖進行識別,提出了“聲紋(voiceprint)”的概念。之后,電子技術(shù)和計算機技術(shù)的發(fā)展,使通過機器自動識別人的聲音成為可能。Bell實驗室的S. Pruzansky提出了基于模式匹配和概率統(tǒng)計方差分析的聲紋識別方法,而引起信號處理領(lǐng)域許多學(xué)者的注意,形成了聲紋識別研究的一個高潮,其間的工作主要集中在各種識別參數(shù)的提取、選擇和實驗上,并將倒譜和線性預(yù)測分析等方法應(yīng)用于聲紋識別。
70年代末至今,聲紋識別的研究重點轉(zhuǎn)向?qū)Ω鞣N聲學(xué)參數(shù)的線性或非線性處理以及新的模式匹配方法上,如動態(tài)時間規(guī)整、主成分分析、隱馬爾可夫模型、神經(jīng)網(wǎng)絡(luò)和多特征組合等技術(shù)。如今,聲紋識別技術(shù)已逐漸走入實際應(yīng)用,AT&T應(yīng)用聲紋識別技術(shù)研制出了智慧卡(smart card),已應(yīng)用于自動提款機。歐洲電信聯(lián)盟在電信與金融結(jié)合領(lǐng)域應(yīng)用聲紋識別技術(shù),于1998年完成了CAVE (Caller Verification in Banking and Telecommunication) 計劃,并于同年又啟動了PICASSO(Pioneering Call Authentication for Secure Service Operation) 計劃,在電信網(wǎng)上完成了聲紋識別。同時,Motorola和Visa等公司成立了V-commerce聯(lián)盟,希望實現(xiàn)電子交易的自助化,其中通過聲音確定人的身份是此項目的重要組成部分。其他的一些商用系統(tǒng)還包括:ITT公司的SpeakerKey、Keyware公司的VoiceGuardian、T-NETIX公司的SpeakEZ等。
國內(nèi)開展聲紋識別研究比較早的機構(gòu)有北京大學(xué)、中科院聲學(xué)所、中科院自動化所、清華大學(xué)等,并先后得到了國家自然科學(xué)基金重大和重點項目、攀登計劃等基金的支持,取得了豐碩的研究成果。
說話人識別系統(tǒng)的典型結(jié)構(gòu)圖
物理基礎(chǔ)
語音是由發(fā)聲器官運動產(chǎn)生的。發(fā)聲器官包括喉、聲道和嘴。氣流通過喉中的聲門,引起聲帶的周期性振動,形成周期性的脈沖串并進入聲道,周期性脈沖的周期稱為基音周期。氣流從喉向上經(jīng)過口腔或鼻腔后從嘴或鼻孔向外輻射,其間的傳輸通道稱為聲道。聲道是具有某種諧振特性的腔體,當氣流通過時,輸出的氣流頻率特性,即聲門脈沖串的特性,取決于聲道的特性。嘴的作用是完成氣流的向外輻射,嘴張開時的形狀對語音頻譜有影響,但較聲道次之。
發(fā)聲的器官和過程確定了語音中特定說話人信息的形式,其中聲道的形狀是最重要的生理因素。另外,發(fā)聲的習(xí)慣,包括發(fā)聲速度、韻律和口音構(gòu)成了語音中特定說話人信息的后天行為因素。語音中的特定說話人信息構(gòu)成了聲紋識別的物理基礎(chǔ)。
技術(shù)原理
基于不同的應(yīng)用環(huán)境,聲紋識別分為說話人辨識和說話人確認。說話人辨識是指識別說話人是否已經(jīng)注冊,是哪一個注冊人;說話人確認是指識別說話人的身份與其聲明的是否一致。
用戶在使用聲紋識別系統(tǒng)時,需要向系統(tǒng)提供一段語音,根據(jù)發(fā)音材料,可分為文本有關(guān)(text-dependent)和文本無關(guān)(text-independent)兩種。與文本有關(guān)的識別系統(tǒng)要求用戶按照規(guī)定的內(nèi)容發(fā)音,并根據(jù)特定的發(fā)音內(nèi)容建立精確的模型,從而達到較好的識別效果,但系統(tǒng)需要用戶配合,如果用戶的發(fā)音與規(guī)定的內(nèi)容不符合,則無法正確識別該用戶。而與文本無關(guān)的識別系統(tǒng)則不規(guī)定說話人的發(fā)音內(nèi)容,因而要建立精確的模型較為困難,識別效果較差。另外,與其他生物識別技術(shù)類似,若考慮待識別的說話人是否在注冊的說話人集合內(nèi),則說話人辨識分為開集(open-set)辨識和閉集(close-set)辨識,顯而易見,閉集辨識的結(jié)果要好于開集辨識,但開集辨識與實際情況更為一致。
無論是與文本有關(guān)還是無關(guān),系統(tǒng)都面臨一個共同的問題,即無法區(qū)分一個發(fā)音是現(xiàn)場發(fā)音還是錄音回放。但文本提示的說話人識別系統(tǒng)可以有效地防止這種情況發(fā)生。具體實現(xiàn)時,可采用隨機或其他方法來生成提示文本,如隨機的數(shù)字串,以使假冒者無法事先錄音。
文本有關(guān)聲紋識別系統(tǒng)的一種典型結(jié)構(gòu)如圖所示,它包括訓(xùn)練和識別兩個階段。訓(xùn)練時,每個說話人重復(fù)一定次數(shù)的發(fā)音,然后檢測并分析每次發(fā)聲的語音段,以提取特征,并利用動態(tài)時間規(guī)整技術(shù),在時間上對齊特征序列且多次平均,形成每個說話人的參考模板。識別時,對語音信號進行特征分析,然后計算與參考模板的距離,選取其中的最小值作為結(jié)果輸出。說話人確認系統(tǒng)則是計算待識特征與聲明說話人模板的距離,并與設(shè)定的閾值比較,若高于閾值則拒絕判決,低于閾值則接受判決。
聲紋識別系統(tǒng)主要包括兩部分,即特征檢測和模式匹配。特征檢測的任務(wù)是選取唯一表現(xiàn)說話人身份的有效且穩(wěn)定可靠的特征,模式匹配的任務(wù)是對訓(xùn)練和識別時的特征模式做相似性匹配。
1.特征提取
聲紋識別系統(tǒng)中的特征檢測即提取語音信號中表征人的基本特征,此特征應(yīng)能有效地區(qū)分不同的說話人,且對同一說話人的變化保持相對穩(wěn)定?紤]到特征的可量化性、訓(xùn)練樣本的數(shù)量和系統(tǒng)性能的評價問題,目前的聲紋識別系統(tǒng)主要依靠較低層次的聲學(xué)特征進行識別。說話人特征大體可歸為下述幾類:
譜包絡(luò)參數(shù)語音信息通過濾波器組輸出,以合適的速率對濾波器輸出抽樣,并將它們作為聲紋識別特征。
基音輪廓、共振峰頻率帶寬及其軌跡 這類特征是基于發(fā)聲器官如聲門、聲道和鼻腔的生理結(jié)構(gòu)而提取的參數(shù)。
線性預(yù)測系數(shù)使用線性預(yù)測系數(shù)是語音信號處理中的一次飛躍,以線性預(yù)測導(dǎo)出的各種參數(shù),如線性預(yù)測系數(shù)、自相關(guān)系數(shù)、反射系數(shù)、對數(shù)面積比、線性預(yù)測殘差及其組合等參數(shù),作為識別特征,可以得到較好的效果。主要原因是線性預(yù)測與聲道參數(shù)模型是相符合的。
反映聽覺特性的參數(shù)模擬人耳對聲音頻率感知的特性而提出了多種參數(shù),如美倒譜系數(shù)、感知線性預(yù)測等。
此外,人們還通過對不同特征參量的組合來提高實際系統(tǒng)的性能,當各組合參量間相關(guān)性不大時,會有較好的效果,因為它們分別反映了語音信號的不同特征。
2.模式匹配
目前針對各種特征而提出的模式匹配方法的研究越來越深入。這些方法大體可歸為下述幾類:
語音中說話人信息在短時內(nèi)較為平穩(wěn),通過對穩(wěn)態(tài)特征如基音、聲門增益、低階反射系數(shù)的統(tǒng)計分析,可以利用均值、方差等統(tǒng)計量和概率密度函數(shù)進行分類判決。其優(yōu)點是不用對特征參量在時域上進行規(guī)整,比較適合文本無關(guān)的說話人識別。
說話人信息不僅有穩(wěn)定因素(發(fā)聲器官的結(jié)構(gòu)和發(fā)聲習(xí)慣),而且有時變因素(語速、語調(diào)、重音和韻律)。將識別模板與參考模板進行時間對比,按照某種距離測定得出兩模板間的相似程度。常用的方法是基于最近鄰原則的動態(tài)時間規(guī)整DTW。
矢量量化最早是基于聚類分析的數(shù)據(jù)壓縮編碼技術(shù)。Helms首次將其用于聲紋識別,把每個人的特定文本編成碼本,識別時將測試文本按此碼本進行編碼,以量化產(chǎn)生的失真度作為判決標準。Bell實驗室的Rosenberg和Soong用VQ進行了孤立數(shù)字文本的聲紋識別研究。這種方法的識別精度較高,且判斷速度快。
隱馬爾可夫模型是一種基于轉(zhuǎn)移概率和傳輸概率的隨機模型,最早在CMU和IBM被用于語音識別。它把語音看成由可觀察到的符號序列組成的隨機過程,符號序列則是發(fā)聲系統(tǒng)狀態(tài)序列的輸出。在使用HMM識別時,為每個說話人建立發(fā)聲模型,通過訓(xùn)練得到狀態(tài)轉(zhuǎn)移概率矩陣和符號輸出概率矩陣。識別時計算未知語音在狀態(tài)轉(zhuǎn)移過程中的最大概率,根據(jù)最大概率對應(yīng)的模型進行判決。HMM不需要時間規(guī)整,可節(jié)約判決時的計算時間和存儲量,在目前被廣泛應(yīng)用。缺點是訓(xùn)練時計算量較大。
人工神經(jīng)網(wǎng)絡(luò)在某種程度上模擬了生物的感知特性,它是一種分布式并行處理結(jié)構(gòu)的網(wǎng)絡(luò)模型,具有自組織和自學(xué)習(xí)能力、很強的復(fù)雜分類邊界區(qū)分能力以及對不完全信息的魯棒性,其性能近似理想的分類器。其缺點是訓(xùn)練時間長,動態(tài)時間規(guī)整能力弱,網(wǎng)絡(luò)規(guī)模隨說話人數(shù)目增加時可能大到難以訓(xùn)練的程度。
把以上分類方法與不同特征進行有機組合可顯著提高聲紋識別的性能,如NTT實驗室的T. Matsui和S. Furui使用倒譜、差分倒譜、基音和差分基音,采用VQ與HMM混和的方法得到99.3%的說話人確認率。
對于說話人確認系統(tǒng),表征其性能的最重要的兩個參量是錯誤拒絕率和錯誤接受率。前者是拒絕真實的說話人而造成的錯誤,后者是接受假冒者而造成的錯誤,二者與閾值的設(shè)定相關(guān)。說話人確認系統(tǒng)的錯誤率與用戶數(shù)目無關(guān),而說話人辨認系統(tǒng)的性能與用戶數(shù)目有關(guān),并隨著用戶數(shù)目的增加,系統(tǒng)的性能會不斷下降。
總的說來,一個成功的說話人識別系統(tǒng)應(yīng)該做到以下幾點:
聲紋識別應(yīng)用前景
與其他生物識別技術(shù),諸如指紋識別、掌形識別、虹膜識別等相比較,聲紋識別除具有不會遺失和忘記、不需記憶、使用方便等優(yōu)點外,還具有以下特性:
由于與其他生物識別技術(shù)相比,聲紋識別具有更為簡便、準確、經(jīng)濟及可擴展性良好等眾多優(yōu)勢,可廣泛應(yīng)用于安全驗證、控制等各方面,特別是基于電信網(wǎng)絡(luò)的身份識別。
比爾·蓋茨認為:“以人類生物特征(指紋、語音、臉像等)進行身份驗證的生物識別技術(shù),在今后數(shù)年內(nèi)將成為IT產(chǎn)業(yè)最為重要的技術(shù)革命。”
在世界范圍內(nèi),聲紋識別技術(shù)正廣泛應(yīng)用于諸多領(lǐng)域。截止到去年初,聲紋識別產(chǎn)品的市場占有率為15.8%,僅次于指紋識別和掌形識別。目前,我國市場尚屬啟動階段,其發(fā)展空間更為廣闊,在金融、證券、社保、公安、軍隊及其他民用安全認證等行業(yè)和部門有著廣泛的需求。
1.用于銀行、證券系統(tǒng)
隨著電話銀行、遠程炒股等業(yè)務(wù)的不斷增加,這些業(yè)務(wù)對用戶所做的身份認證只是采用密碼方式,其安全性令人擔憂。如果采用說話人確認技術(shù)并結(jié)合原來的密碼,可安全有效地實現(xiàn)用戶身份的確認,這對用戶來說并沒有增加任何負擔。
2.為網(wǎng)絡(luò)安全出力
現(xiàn)在人們越來越多地依賴于口令和密碼,隨著不同場合的頻繁應(yīng)用其缺陷越發(fā)明顯。在聲紋識別過程中,每次發(fā)音都由隨機產(chǎn)生的提示文本來控制,可有效地防止復(fù)制和剽竊,可以說,聲紋識別技術(shù)與其他生物識別技術(shù)相比有著明顯的優(yōu)勢,可以為日益發(fā)展的電子購物、電子商務(wù)、國際貿(mào)易保駕護航,且操作方便、簡潔,很容易為廣大計算機使用者接受。
3.為破案立功
對于各種電話勒索、綁架、電話人身攻擊等案件,聲紋識別技術(shù)可以在一段錄音中查找出嫌疑人,幫助對嫌疑人的查證。在美國,有關(guān)機構(gòu)還利用這一技術(shù)來判斷監(jiān)外執(zhí)行人員是否在其寓所中。
4.在軍隊安全系統(tǒng)中的應(yīng)用
聲紋識別技術(shù)可以辨認出電話交談過程中是否有關(guān)鍵說話人出現(xiàn),繼而對交談的內(nèi)容進行處理。另外,在通過電話發(fā)出軍事指令時,可以對發(fā)出命令的人的身份進行確認。
《計算機世界》2001/08/23
高端人聲識別技術(shù)的研究與應(yīng)用 2001-08-02 |
用你的聲音來激活信息 2001-07-23 |
無限商機的VoiceXML解決方案 2001-07-19 |
利用聲音在網(wǎng)上檢索信息 2001-07-19 |
全新體驗Office XP中的語音識別和手寫識別功能 2001-07-17 |