首頁>>廠商>>軟件開發(fā)商>>南京北極星軟件

高端人聲識別技術(shù)的研究與應(yīng)用

2001/08/02

一、 技術(shù)背景

是否有過這樣的經(jīng)歷?已經(jīng)是某某企業(yè)呼叫中心的?土耍珦芡ㄔ摵艚兄行牡奶柎a時,還是必須向客服人員解釋你是他們某某產(chǎn)品的用戶,而今你必須獲得他們的維修服務(wù)。這個自報家門的工作其實足夠繁瑣到令你放棄這次呼叫。

但有一種新型的技術(shù)可以讓你在撥通電話、發(fā)出第一個音節(jié)時就被“驗明身份”。設(shè)想你撥打一個很久以前曾撥打過的呼叫中心號碼,準(zhǔn)備詢問呼叫中心的客服人員你罷工的油煙機該找誰修理。根據(jù)語音提示進入服務(wù)區(qū)后,“hi,我…”你的請求還沒有說完,客服小姐已經(jīng)在向你問候了:“王女士,您的油煙機用的怎么樣了?”

在這個過程中,客服小姐是利用呼叫中心的SR系統(tǒng),根據(jù)王女士的聲音,對其身份進行鑒別的。所以無需浪費任何時間,客服小姐在第一時間知道電話請求者是王女士。至于她有一臺該呼叫中心所屬企業(yè)售出的油煙機的事情,客服小姐是從系統(tǒng)的數(shù)據(jù)庫里知道的。

人聲識別技術(shù)(SR——Speaker Recognition)是一種以話音對說話人進行區(qū)分,從而進行身份鑒別與認證的技術(shù)。墜落在中國海南的美國EP-3飛機被宣稱藏有大量說話人識別技術(shù)的機密,據(jù)說其技術(shù)水平已經(jīng)可以區(qū)分出“是誰打的嗝兒”。在國外,說話人識別技術(shù)被廣泛研究,也已有少量成熟產(chǎn)品問世。AT&T、TI(美國德州儀器公司)與美國著名的通訊公司Sprint已經(jīng)開始在聲音識別領(lǐng)域的實驗和實際的應(yīng)用。

說話人識別技術(shù)有著廣闊的市場應(yīng)用前景。通過SR技術(shù),可以利用人本身的生物特性進行身份鑒別,如給公安部門進行語音驗證、對一般用戶進行防盜門開啟等。在互聯(lián)網(wǎng)應(yīng)用及通信領(lǐng)域,SR技術(shù)可以應(yīng)用于諸如聲音撥號、電話銀行、電話購物、數(shù)據(jù)庫訪問、信息服務(wù)、語音Email、安全控制、計算機遠程登陸等。

在呼叫中心應(yīng)用上,SR技術(shù)同樣可以提供更加個性化的人機交互界面。當(dāng)顧客以電話方式對呼叫中心進行請求時,系統(tǒng)能夠根據(jù)話音判斷出來者的身份,從而提供更個性化、更貼心的服務(wù)。在國內(nèi)的SR研究中,已經(jīng)處于怎樣的進展水平?據(jù)了解,南京北極星軟件公司的研究走在了國內(nèi)其他廠商的前列,其采用SR技術(shù)構(gòu)造的呼叫中心產(chǎn)品也即將推出。

二、技術(shù)原理

SR有著深刻的技術(shù)背景。其基本原理是通過分析人的發(fā)聲和聽覺,為每個人構(gòu)造一個獨一無二的數(shù)學(xué)模型,由計算機對模型和實際輸入的語音進行精確匹配,根據(jù)匹配結(jié)果辨認出說話人是誰。該原理同說話人的生理特性和行為特性密切相關(guān)。“人”的生物特性既存在于聲譜表面(聲道特性),也存在于聲音的來源或數(shù)個不連續(xù)的聲音片斷。從人的這些特性中提取出有效的音頻特征,進行數(shù)學(xué)建模,并將與之相關(guān)的資料存進數(shù)據(jù)庫。SR服務(wù)器根據(jù)輸入的音頻特征在數(shù)據(jù)庫里進行檢索,從而進行精確匹配。

在北極星公司的研究中,構(gòu)造了“訓(xùn)練模塊”和“識別模塊”,兩種模塊使用同樣的數(shù)學(xué)算法和模型。

訓(xùn)練模塊

訓(xùn)練模塊又由兩個部分組成:音頻特征提取部分和構(gòu)造數(shù)學(xué)模型部分。

音頻特征提取時,根據(jù)人的發(fā)聲原理和聽覺原理,采用了MFCC和LPCC的特征提出算法。該算法可以將人的聲音提取出能量分布譜。這種算法能從聲音數(shù)據(jù)中獲得說話人的獨特特征。但是當(dāng)人說不同的話時,分布譜會受到影響。也就是說即使是同一個人,如果說的話不同,聲音分布譜也是不同的。為解決這個問題,必須進行第二部分,構(gòu)造數(shù)學(xué)模型。

構(gòu)造數(shù)學(xué)模型時,使用了GMM和CHMM的算法。它可以將人在多個短時間內(nèi)的能量分布譜構(gòu)造成多個高斯分布。通過EM算法進行訓(xùn)練,找出最為合理的高斯分布組。實驗中,北極星為每個接受訓(xùn)練者構(gòu)造一個獨一無二的數(shù)學(xué)模型。

 

識別模塊

識別模塊也由兩個部分組成:音頻特征提取部分和數(shù)學(xué)模型的概率估計部分。

音頻特征提取時,采用的方法和訓(xùn)練模塊相同。

做概率估計時,將特征提取的結(jié)果帶入原來訓(xùn)練出來的數(shù)學(xué)模型中,計算出概率,將多個特征譜的概率取對數(shù)求和,即計算出該人符合這個數(shù)學(xué)模型的概率。概率較大時即可進行身份確認和檢驗。

三、技術(shù)應(yīng)用

SR技術(shù)的應(yīng)用在國際上已經(jīng)比較成熟。Sprint的聲音電話卡(Voice Phone Card)擁有眾多的用戶。電話卡的擁有者只需對著電話念出對方的電話,智能卡根據(jù)聲音進行鑒權(quán),判斷說話人是否是電話卡的合法使用者,從而做出撥通與否的決定。在這種方式中,SR技術(shù)創(chuàng)造出的增值業(yè)務(wù)為運營商帶來豐厚的收益,也為我們的日常生活帶來便利。

在我國,由于漢語言的獨特性,國外SR研究的技術(shù)成果無法直接使用。國內(nèi)眾多廠商也缺少語音方面的技術(shù)積累,進入該領(lǐng)域的步伐相對滯后。為了將這種尖端的技術(shù)引入中國,北極星軟件已經(jīng)開始了自己的研究歷程,并致力于將現(xiàn)有的研究成果產(chǎn)業(yè)化,結(jié)合到其呼叫中心產(chǎn)品FineSupport IP Contact Center中來,增加產(chǎn)品的實用性和科技含量。

SR技術(shù)的這種特性應(yīng)用在呼叫中心等語音產(chǎn)品上時,能為之帶來前所未有的變革。

目前幾乎所有的呼叫中心都采用來電顯示的方法來對發(fā)起呼叫請求的用戶進行身份鑒別。這種方法有極大的不確定性。當(dāng)不同的用戶使用同一個電話號碼進行呼叫時,呼叫中心系統(tǒng)無法對之進行相應(yīng)的區(qū)分;另一個問題,同一個客戶不會也不可能僅使用一個電話同呼叫中心進行聯(lián)絡(luò),如果客戶更換電話,呼叫中心同樣不能認出這是“老朋友”,從而無法迅捷地提供個性化的服務(wù)。

北極星軟件公司將SR的研究應(yīng)用到呼叫中心產(chǎn)品,在原有的系統(tǒng)中加入了語音鑒別設(shè)備SR Server(說話人識別服務(wù)器),從而能夠通過客戶的聲音進行檢索,解決了一個客戶使用多個電話和多個客戶使用一個電話、不同客戶交叉使用不同電話的問題,為客戶提供真正“一對一”個性化的服務(wù)。這種新型FineSupport IP Contact Center的結(jié)構(gòu)圖如下:

其工作過程如下:

1. 用戶撥打呼叫中心的電話號碼;

2. 由ACD響應(yīng),并將電話接入IVR(交互語音應(yīng)答系統(tǒng)),詢問客戶需要幫助的類型,并將客戶的語音應(yīng)答傳送到SR Server;

3. SR Server根據(jù)原有的語音訓(xùn)練模型對該用戶進行識別,并到數(shù)據(jù)庫進行認證和檢索;

4. 如果此時有接線人員處于空閑狀態(tài),ACD將這個呼叫轉(zhuǎn)移,并同SR Server識別的結(jié)果傳送到接線人員的計算機上;

5. 如果SR的識別結(jié)果為空(此前該用戶沒有撥打過本呼叫中心的電話),系統(tǒng)可以為該用戶建立模型,以供下次識別時使用。

四、未來方向

SR未來的發(fā)展方向包含兩方面的內(nèi)容:研究方法和市場應(yīng)用。

在SR的研究方法上,盡管北極星已經(jīng)取得不錯的進展,尋找更加優(yōu)良的研究方法仍然有相當(dāng)艱巨的路要走。由于技術(shù)條件所限,目前所采用的抽樣建模方法等還存在著不足。對SR最有影響的因素是在不同實驗中聲音特性信號的變更,包括說話者生理上的變動性,以及實驗條件的不穩(wěn)定性等。這就對SR識別系統(tǒng)形成嚴(yán)峻的挑戰(zhàn)。它必須能適應(yīng)這些變化。SR的未來研究中將包含提取聲音長期穩(wěn)定的特征參數(shù)的問題。另外,在兩個人進行交談時,能自動從中提取出每個人的聲音特性并加以區(qū)分的技術(shù)也是值得研究的方向。在下一步的研究中,北極星將繼續(xù)提高系統(tǒng)的識別率,同時進行更大規(guī)模的電話語音測試。

SR的市場應(yīng)用也是一個重要的課題。毫無疑問,隨著研究技術(shù)的日臻完善,SR的市場應(yīng)用也將趨于成熟。FineSupport的崛起打開了SR在中國應(yīng)用的缺口,為企業(yè)建立個性化的呼叫中心提供了更多的選擇,增加了可行性。在相關(guān)法律、金融等領(lǐng)域,SR技術(shù)也將是其嘗試運作嶄新工作方式的契機。

摘自計算機世界網(wǎng)



相關(guān)鏈接:
北極星軟件與廣東聯(lián)通共建165WebPhone 2003-03-12
英特爾與北極星軟件攜手打造寬帶新應(yīng)用 2003-03-12
北極星CEO出席ITU TELECOM Asia 2002-12-26
北極星推出固網(wǎng)預(yù)付費系統(tǒng) 2002-12-17
北極星參加Intel解決方案全國巡展 2002-11-12