1.1 什么是VPR?
1.1 什么是VPR?
VPR是聲紋識(shí)別(Voiceprint Recognition)的縮寫,有時(shí)也稱為說話人識(shí)別(Speaker Recognition)。每個(gè)人的指紋都是唯一的,數(shù)百萬人之間才會(huì)發(fā)現(xiàn)有兩個(gè)人有相同的指紋;與此類似,聲紋也是人的個(gè)性特征,很難找到兩個(gè)聲紋完全一樣的人。聲紋識(shí)別,就是要根據(jù)人的發(fā)音特征,識(shí)別出某段語音是誰說的。
從對(duì)用戶所說內(nèi)容的要求上來看,可以分為文本相關(guān)的(Text Dependent)和文本無關(guān)的(Text Independent),前者要求用戶在識(shí)別過程中說出和用來訓(xùn)練的語音相同內(nèi)容的一段話,后者則無此限制;從識(shí)別的目的來看,可分為聲紋辨認(rèn)(Voiceprint Identification)和聲紋確認(rèn)(Voiceprint Verification),前者要判斷出某段語音是若干人中的哪一個(gè)所說的;后者則確認(rèn)某段語音是否是指定的某個(gè)人所說的;在聲紋辨認(rèn)應(yīng)用中對(duì)集外說話人的處理方式上,又可分為閉集識(shí)別和開集識(shí)別,前者要求待識(shí)別語音一定是某個(gè)已知的說話人之一,而后者允許待識(shí)別語音可以是某個(gè)未知的說話人,因此識(shí)別系統(tǒng)具有一定的"拒識(shí)"的功能,顯然后者具有更廣的應(yīng)用范圍。
1.2 "得意聲紋識(shí)別"技術(shù)及軟件開發(fā)工具的介紹
1.2.1 "得意聲紋識(shí)別"技術(shù)的特點(diǎn)及優(yōu)勢
1.2.2 文本相關(guān)的聲紋確認(rèn)識(shí)別引擎的說明
"得意文本相關(guān)的聲紋確認(rèn)"識(shí)別引擎及其API的最新版本為3.0。
系統(tǒng)要求為:Intel PII 400 MHz以上配置的 PC或服務(wù)器;128 MB 或更多的內(nèi)存;微軟Windows 9X/ME/NT/2000/XP;微軟Visual C++ Version 6.0 或更高版本;蛘呤牵篈RM兼容的Pocket PC(WinCE 3.0或更高版本);Embedded Visual C++ v3.0或更高版本(適用于Pocket PC版的文本相關(guān)聲紋確認(rèn)識(shí)別引擎)。
軟件開發(fā)包的內(nèi)容有:函數(shù)說明頭文件(*.h)、靜態(tài)鏈接庫(*.lib)、動(dòng)態(tài)鏈接庫(*.dll)、初始模型文件、編程參考手冊(*.doc/*.PDF)、參考示例源程序等。
文本相關(guān)的聲紋確認(rèn)識(shí)別API v3.0的特點(diǎn)有:工作在說話人(聲紋)文本相關(guān)的方式;對(duì)訓(xùn)練次數(shù)要求低,并可累積訓(xùn)練;對(duì)用戶無口音和語言的使用限制;運(yùn)行于開集方式(即具備拒識(shí)功能);可調(diào)整的拒識(shí)嚴(yán)格程度閾值;內(nèi)嵌對(duì)并發(fā)操作的控制,支持多線程調(diào)用;具有高效率與高準(zhǔn)確度下的可靠性與靈活性。
1.2.3 文本無關(guān)的聲紋辨認(rèn)和聲紋確認(rèn)識(shí)別引擎的說明
系統(tǒng)要求為:Intel PII 400 MHz以上配置的 PC或服務(wù)器;128 MB 或更多的內(nèi)存;微軟Windows 9X/ME/NT/2000/XP;微軟Visual C++ Version 6.0 或更高版本。
軟件開發(fā)包的內(nèi)容有:函數(shù)說明頭文件(*.h)、靜態(tài)鏈接庫(*.lib)、動(dòng)態(tài)鏈接庫(*.dll)、初始模型文件、編程參考手冊(*.doc/*.PDF)、參考示例源程序等。
文本無關(guān)的聲紋辨認(rèn)和聲紋確認(rèn)識(shí)別API v3.0的特點(diǎn)有:同時(shí)支持話者身份識(shí)別與話者身份認(rèn)證;與文本(內(nèi)容)、語言無關(guān);運(yùn)行于開集方式(即具備拒識(shí)功能);可調(diào)整的聲紋識(shí)別閾值與自適應(yīng)適應(yīng)性功能;無監(jiān)督的開集拒識(shí)閾值估計(jì);話者識(shí)別與認(rèn)證的增量方式識(shí)別;高效率與高準(zhǔn)確度下的可靠性與靈活性;基于客戶端/服務(wù)器的框架(多線程與多實(shí)例)。
1.3 VPR的應(yīng)用范圍舉例
聲紋辨認(rèn):刑偵破案、罪犯跟蹤、國防監(jiān)聽、個(gè)性化應(yīng)用等等;聲紋確認(rèn):證券交易、銀行交易、公安取證、個(gè)人電腦聲控鎖、汽車聲控鎖、身份證、信用卡的認(rèn)證等。
1.4得意VPR技術(shù)的使用方法
得意的聲紋辨認(rèn)和聲紋確認(rèn)技術(shù)均提供一組方便易用的編程接口(API)和運(yùn)行文件,可供應(yīng)用開發(fā)者直接編程調(diào)用。其中API部分采用標(biāo)準(zhǔn)的純C風(fēng)格,提供函數(shù)說明的頭文件,可供多種編程語言和環(huán)境調(diào)用,運(yùn)行文件包括動(dòng)態(tài)鏈接庫和預(yù)先訓(xùn)練好的初始數(shù)據(jù)文件等。對(duì)具體應(yīng)用對(duì)應(yīng)的特殊信道,我們可以為其進(jìn)行特定的參數(shù)調(diào)整和信道初始模型的定制化工作。
1.5得意聲紋識(shí)別引擎支持的語音格式
與ASR引擎相同,得意的各個(gè)聲紋識(shí)別引擎均支持PC聲卡信道和電話信道上采集的語音,它們的采樣率分別為16kHz和8kHz,其它采樣率的語音流需要先進(jìn)行轉(zhuǎn)換之后才能被使用,采樣點(diǎn)可以是8bit或16bit的PCM格式,也可以是用A率或μ率壓縮的。
如果語音流是存儲(chǔ)在語音文件(例如*.wav)中的,那么應(yīng)用程序在調(diào)用識(shí)別引擎的API之前,需要先將文件中的語音流讀入內(nèi)存中,然后調(diào)用相應(yīng)的編程接口把語音數(shù)據(jù)送入識(shí)別引擎。
1.6 編程者是否需要對(duì)語音進(jìn)行預(yù)處理?
在我們現(xiàn)有的聲紋識(shí)別接口中,已包含了對(duì)語音進(jìn)行預(yù)處理的功能。例如識(shí)別前,要求先將語音數(shù)據(jù)放入某個(gè)內(nèi)部數(shù)據(jù)結(jié)構(gòu)內(nèi),在這個(gè)過程中就自動(dòng)完成了拋除靜音、噪音、提取語音特征等工作,并為后續(xù)的識(shí)別只保留真正"有效"的語音部分。當(dāng)然如果需要的話,系統(tǒng)開發(fā)者在這個(gè)過程之前再加上一些額外的預(yù)處理也是可以的,例如可對(duì)某些已知具有特殊分布規(guī)律的低信噪比語音進(jìn)行專門的去噪操作,以保證后續(xù)的建模和識(shí)別過程具有更好的綜合性能。
1.7 什么是多機(jī)協(xié)調(diào)的工作方式?
在進(jìn)行聲紋辨認(rèn)時(shí),由于進(jìn)行比對(duì)的時(shí)間與語音長度和聲紋數(shù)據(jù)庫的規(guī)模基本上是成正比的,所以當(dāng)語音較長且聲紋數(shù)據(jù)庫巨大時(shí),單一線程內(nèi)部的比對(duì)會(huì)變得非常耗時(shí)。此時(shí)可以采用多臺(tái)機(jī)器協(xié)調(diào)工作的方式。例如,采用五臺(tái)機(jī)器,由總控程序?qū)⒁粋(gè)待比對(duì)的語音數(shù)據(jù)流分發(fā)到各個(gè)機(jī)器上,每臺(tái)機(jī)器只負(fù)責(zé)比對(duì)數(shù)據(jù)庫中五分之一的聲紋模型;之后將各自檢出的候選提交給總控程序,進(jìn)行統(tǒng)一的排序和輸出,于是總體的識(shí)別時(shí)間就降為原來單機(jī)的五分之一。這就是多機(jī)協(xié)調(diào)工作的方式。
1.8 什么是信道的通用背景模型?
在進(jìn)行文本無關(guān)的、開集的聲紋辨認(rèn)和確認(rèn)時(shí),我們利用了一種由海量數(shù)據(jù)訓(xùn)練得到的"通用背景模型"來對(duì)各個(gè)聲紋模型的得分進(jìn)行歸一化和拒識(shí);對(duì)不同的信道(例如PC聲卡、固定電話、GSM或CDMA的移動(dòng)電話、錄音筆、磁帶、監(jiān)控設(shè)備、電視、無線電設(shè)備等,嚴(yán)格說來都分別屬于不同信道),不同信道的"背景模型"間的參數(shù)差異很大,這與識(shí)別器的性能是有一定的相關(guān)性的。目前我們的引擎中缺省僅內(nèi)嵌了一個(gè)背景模型。因此當(dāng)需要同時(shí)識(shí)別來自多個(gè)信道(例如手機(jī)、固話、錄音筆、磁帶等)的語音時(shí),我們可訓(xùn)練出針對(duì)不同信道的背景模型,在識(shí)別時(shí)與這些語音對(duì)應(yīng)起來使用即可。當(dāng)然,現(xiàn)有的編程接口也可以根據(jù)用戶的具體情況為此進(jìn)行一些定制或調(diào)整。
得意音通公司供稿 CTI論壇編輯