首頁(yè)>>>技術(shù)>>>語(yǔ)音應(yīng)用>>>語(yǔ)音識(shí)別(ASR)  語(yǔ)音識(shí)別產(chǎn)品

聲紋識(shí)別的關(guān)鍵問(wèn)題

2011/01/05

   聲紋識(shí)別可以說(shuō)有兩個(gè)關(guān)鍵問(wèn)題,一是特征提取,二是模式匹配(模式識(shí)別)。

  特征提取的任務(wù)是提取并選擇對(duì)說(shuō)話人的聲紋具有可分性強(qiáng)、穩(wěn)定性高等特性的聲學(xué)或語(yǔ)言特征。與語(yǔ)音識(shí)別不同,聲紋識(shí)別的特征必須是“個(gè)性化”特征,而說(shuō)話人識(shí)別的特征對(duì)說(shuō)話人來(lái)講必須是“共性特征”。雖然目前大部分聲紋識(shí)別系統(tǒng)用的都是聲學(xué)層面的特征,但是表征一個(gè)人特點(diǎn)的特征應(yīng)該是多層面的,包括:
  1. 與人類的發(fā)音機(jī)制的解剖學(xué)結(jié)構(gòu)有關(guān)的聲學(xué)特征(如頻譜、倒頻譜、共振峰、基音、反射系數(shù)等等)、鼻音、帶深呼吸音、沙啞音、笑聲等;
  2. 受社會(huì)經(jīng)濟(jì)狀況、受教育水平、出生地等影響的語(yǔ)義、修辭、發(fā)音、言語(yǔ)習(xí)慣等;
  3. 個(gè)人特點(diǎn)或受父母影響的韻律、節(jié)奏、速度、語(yǔ)調(diào)、音量等特征。

  從利用數(shù)學(xué)方法可以建模的角度出發(fā),聲紋自動(dòng)識(shí)別模型目前可以使用的特征包括:

  1. 聲學(xué)特征(倒頻譜);
  2. 詞法特征(說(shuō)話人相關(guān)的詞n-gram,音素n-gram);
  3. 韻律特征(利用n-gram描述的基音和能量“姿勢(shì)”);
  4. 語(yǔ)種、方言和口音信息;
  5. 通道信息(使用何種通道);等等。

  根據(jù)不同的任務(wù)需求,聲紋識(shí)別還面臨一個(gè)特征選擇或特征選用的問(wèn)題。例如,對(duì)“信道”信息,在刑偵應(yīng)用上,希望不用,也就是說(shuō)希望弱化信道對(duì)說(shuō)話人識(shí)別的影響,因?yàn)槲覀兿M还苷f(shuō)話人用什么信道系統(tǒng)它都可以辨認(rèn)出來(lái);而在銀行交易上,希望用信道信息,即希望信道對(duì)說(shuō)話人識(shí)別有較大影響,從而可以剔除錄音、模仿等帶來(lái)的影響。

  總之,較好的特征,應(yīng)該能夠有效地區(qū)分不同的說(shuō)話人,但又能在同一說(shuō)話人語(yǔ)音發(fā)生變化時(shí)保持相對(duì)的穩(wěn)定;不易被他人模仿或能夠較好地解決被他人模仿問(wèn)題;具有較好的抗噪性能;……。當(dāng)然,這些問(wèn)題也可以通過(guò)模型方法去解決。

CTI論壇報(bào)道



相關(guān)閱讀:
聲紋識(shí)別技術(shù):利用人體生物特征進(jìn)行身份認(rèn)證 2011-01-05
聲紋識(shí)別的原理及其應(yīng)用 2011-01-05
聲紋識(shí)別的分類 2011-01-05
Nuance:車載信息平臺(tái)邁入語(yǔ)音時(shí)代 2010-12-27
臺(tái)達(dá)語(yǔ)音:讓消費(fèi)者使用科技就像呼吸般簡(jiǎn)單自然 2010-12-27

熱點(diǎn)專題:  語(yǔ)音合成TTS 語(yǔ)音識(shí)別ASR  
相關(guān)頻道:  聲紋識(shí)別