首頁>>>技術(shù)>>>語音應(yīng)用>>>語音識別(ASR)  語音識別產(chǎn)品

聲紋識別的分類

2011/01/05

  聲紋識別(Voiceprint Recognition, VPR),也稱為說話人識別(Speaker Recognition),有兩類,即說話人辨認(rèn)(Speaker Identification)和說話人確認(rèn)(Speaker Verification)。前者用以判斷某段語音是若干人中的哪一個所說的,是“多選一”問題;而后者用以確認(rèn)某段語音是否是指定的某個人所說的,是“一對一判別”問題。不同的任務(wù)和應(yīng)用會使用不同的聲紋識別技術(shù),如縮小刑偵范圍時可能需要辨認(rèn)技術(shù),而銀行交易時則需要確認(rèn)技術(shù)。不管是辨認(rèn)還是確認(rèn),都需要先對說話人的聲紋進行建模,這就是所謂的“訓(xùn)練”或“學(xué)習(xí)”過程。
聲紋識別

  從另一方面,聲紋識別有文本相關(guān)的(Text-Dependent)和文本無關(guān)的(Text-Independent)兩種。與文本有關(guān)的聲紋識別系統(tǒng)要求用戶按照規(guī)定的內(nèi)容發(fā)音,每個人的聲紋模型逐個被精確地建立,而識別時也必須按規(guī)定的內(nèi)容發(fā)音,因此可以達到較好的識別效果,但系統(tǒng)需要用戶配合,如果用戶的發(fā)音與規(guī)定的內(nèi)容不符合,則無法正確識別該用戶。而與文本無關(guān)的識別系統(tǒng)則不規(guī)定說話人的發(fā)音內(nèi)容,模型建立相對困難,但用戶使用方便,可應(yīng)用范圍較寬。根據(jù)特定的任務(wù)和應(yīng)用,兩種是有不同的應(yīng)用范圍的。比如,在銀行交易時可以使用文本相關(guān)的聲紋識別,因為用戶自己進行交易時是愿意配合的;而在刑偵或偵聽?wèi)?yīng)用中則無法使用文本相關(guān)的聲紋識別,因為你無法要求犯罪嫌疑人或被偵聽的人配合。

  在說話人辨認(rèn)方面,根據(jù)待識別的說話人是否在注冊的說話人集合內(nèi),說話人辨認(rèn)可以分為開集(open-set)辨認(rèn)和閉集(close-set)辨認(rèn)。前者假定待識別說話人可以在集合外,而后者假定待識別說話人在集合內(nèi)。顯然,開集辨認(rèn)需要有一個對集外說話人的“拒識問題”,而且閉集辨認(rèn)的結(jié)果要好于開集辨認(rèn)結(jié)果。本質(zhì)上講,說話人確認(rèn)和開集說話人辨認(rèn)都需要用到拒識技術(shù),為了達到很好的拒識效果,通常需要訓(xùn)練一個假冒者模型或背景模型,以便拒識時有可資比較的對象,閾值容易選定。而建立背景模型的好壞直接影響到拒識甚至聲紋識別的性能。一個好的背景模型,往往需要通過預(yù)先采集好的若干說話人的數(shù)據(jù),通過某種算法去建立。

  如果技術(shù)達到一定的水平,可以把文本相關(guān)識別并入文本無關(guān)識別,把閉集辨認(rèn)并入開集辨認(rèn),從而提供更為方便的使用方法。比如北京得意音通技術(shù)有限公司的“得意”身份證就是文本無關(guān)的、開集方式的說話人辨認(rèn)和確認(rèn),“得意”身份證SDK還提供建立背景模型的工具。

CTI論壇報道



相關(guān)閱讀:
聲紋識別技術(shù):利用人體生物特征進行身份認(rèn)證 2011-01-05
聲紋識別的原理及其應(yīng)用 2011-01-05
Nuance:車載信息平臺邁入語音時代 2010-12-27
臺達語音:讓消費者使用科技就像呼吸般簡單自然 2010-12-27
什么是語音云? 2010-11-26

熱點專題:  語音合成TTS 語音識別ASR  
相關(guān)頻道:  聲紋識別