首頁>>廠商>>語音識別與合成>>得意音通

"得意關(guān)鍵詞檢出器"API

2003/11/24

  "得意關(guān)鍵詞檢出器"技術(shù)是一種自動語音識別(ASR)技術(shù)。它應(yīng)用于一些具有特定要求的場合, 由于速度、高檢出率或其他特定的要求,人們并不需要系統(tǒng)識別出整個句子,更不需要理解整個句子,而只關(guān)注那些包含特定詞(稱為"關(guān)鍵詞")的句子。比如,對一些特殊人名、地名和詞語進(jìn)行電話監(jiān)聽,又比如通過人名進(jìn)行自動分機(jī)接駁服務(wù),等等。

  根據(jù)一些應(yīng)用的特殊需要,關(guān)鍵詞檢出器有一些有別于其他自動語音識別的地方。包括:
  (1) 有的應(yīng)用需要限定或假設(shè)一個句子只能含有一個關(guān)鍵詞(如自動分機(jī)接駁),而有的應(yīng)用則不希望有這樣的限定(如電話監(jiān)聽)。
  (2) 有的應(yīng)用希望"寧錯勿漏"( 如電話監(jiān)聽),而有的應(yīng)用則希望"寧漏勿錯"(如自動分機(jī)接駁)。關(guān)鍵詞集內(nèi)的詞沒有被檢出,稱為"漏識",而關(guān)鍵詞集外的詞識別成一個集內(nèi)詞,稱為"誤警"或"虛報(bào)"。 對一個特定的關(guān)鍵詞檢出器,漏識率和誤警率兩者不可能同時達(dá)到其最低點(diǎn)。因而相對于其他語音識別器,關(guān)鍵詞檢出器需要在漏識率和誤警率之間找到需要的平衡點(diǎn),稱為"操作點(diǎn)"。

  "得意關(guān)鍵詞檢出器"的應(yīng)用編程接口(API)有如下的特征:

  (1) 非特定人。得意關(guān)鍵詞檢出器對不同人的說話有一定的適應(yīng)能力,不管是誰,只要說的是標(biāo)準(zhǔn)普通話即可,帶一些輕微的口音沒有任何影響。
  (2) 詞表可隨意定制。開發(fā)者可以利用API接口,方便地提供詞表定制工具,使得使用者無需具備專業(yè)知識就可以方便地定義自己的詞表;對新定義的詞表,系統(tǒng)無需重新訓(xùn)練,立刻可以使用。
 。3) 句中關(guān)鍵詞個數(shù)可以設(shè)定。開發(fā)者可以根據(jù)具體的應(yīng)用情況,方便地指定一句話中僅含一個關(guān)鍵詞(只報(bào)出最可能的關(guān)鍵詞),還是允許多個關(guān)鍵詞(檢出多少關(guān)鍵詞就報(bào)多少)。
 。4) 良好的拒識性能。利用性能良好的拒識功能,檢出器將根據(jù)具體情況報(bào)出所檢出關(guān)鍵詞,不會因使用者設(shè)定的句子中可以含有的關(guān)鍵詞數(shù)目而強(qiáng)行虛報(bào)。
  (5) 得意關(guān)鍵詞檢出器具有很低的漏識率和很低的誤警率。
  (6) 操作點(diǎn)易于調(diào)整。開發(fā)者可以根據(jù)具體應(yīng)用需要,方便地設(shè)定操作點(diǎn),以在漏識率和誤警率之間達(dá)到很好的平衡。


 。7) 得意關(guān)鍵詞檢出器利用很好的通道歸一技術(shù)可以在各種不同的信道(如固定電話或手機(jī))中使用,而不影響其性能。
 。8) 得意關(guān)鍵詞檢出器聲學(xué)模型所需存儲<40MB。
  應(yīng)用舉例:"得意智能語音總機(jī)"產(chǎn)品

  得意智能語音總機(jī)是利用得意關(guān)鍵詞檢出器的API開發(fā)出來的一個具體應(yīng)用。具體技術(shù)設(shè)定為:
 。1) 詞表為人名,并附帶分機(jī)號碼信息。
 。2) 每句話中最多含一個關(guān)鍵詞。
 。3) 操作點(diǎn)靠近低誤警率一端。

  一個實(shí)際應(yīng)用范例如下。
  下表是由某公司人事部門的管理人員輸入的用戶詞表:


  修改完畢后,得意智能語音總機(jī)的內(nèi)部詞表編譯器將自動把上述詞表轉(zhuǎn)換成內(nèi)部詞表。轉(zhuǎn)換過程主要用拼音標(biāo)出每個姓名的發(fā)音,同時對一人多名和多人同名進(jìn)行檢查。當(dāng)有多人同名并且沒有"確認(rèn)信息"或確認(rèn)信息不能分出這些人時,內(nèi)部詞表編譯器將提示管理人員輸入可以互相區(qū)分這些人的確認(rèn)信息。在發(fā)生重名時,確認(rèn)信息用以與用戶進(jìn)行對話以便確認(rèn)要找的人。
  對話示例:
  a. 系統(tǒng):請于嗶聲后說出要找的人的姓名,按#跨過該提示,按0進(jìn)入人工服務(wù)…嗶…
  b. 用戶:你好,我找張總。
  c. 系統(tǒng):轉(zhuǎn)接張三,請稍后… [轉(zhuǎn)接1001分機(jī)]。
  a. 系統(tǒng):請于…
  b. 用戶:[按#]
  c. 系統(tǒng):嗶
  d. 用戶:王…王五在嗎?
  e. 系統(tǒng):轉(zhuǎn)接王五,請稍后…[轉(zhuǎn)接1003分機(jī)]。
  a. 系統(tǒng):請于…
  b. 用戶:[按#]
  c. 系統(tǒng):嗶
  d. 用戶:麻煩你給我轉(zhuǎn)接李四先生。
  e. 系統(tǒng):請問你找市場部的還是財(cái)務(wù)部的?
  f. 用戶:市場部的李四。【注:由于系統(tǒng)已經(jīng)自動轉(zhuǎn)換為用戶確認(rèn)詞表,因此不會檢出"李四"!
  g. 系統(tǒng):轉(zhuǎn)接市場部李四,請稍后…[轉(zhuǎn)接1002]。
  a. 系統(tǒng):請于…
  b. 用戶:[按#]
  c. 系統(tǒng):嗶
  d. 用戶:請接張山。
  e. 系統(tǒng):如果您是找張三,按1;按#可重說;按0可轉(zhuǎn)人工服務(wù)
  f. 用戶:[按1]。
  g. 系統(tǒng):轉(zhuǎn)接張三,請稍后…[轉(zhuǎn)接1001]。

  應(yīng)用舉例:"得意導(dǎo)航員"產(chǎn)品

  利用得意關(guān)鍵詞API,可以設(shè)計(jì)一個用聲音對Windows操作系統(tǒng)進(jìn)行"發(fā)號施令"的"得意導(dǎo)航員"產(chǎn)品。在這里,用戶只需口呼命令就可以直接控制Windows,如口呼"我的電腦"、"打開字處理(即Word)"等可以打開相應(yīng)的資源或應(yīng)用,而且應(yīng)用程序運(yùn)行后,導(dǎo)航系統(tǒng)可以自動提取那些當(dāng)前活動的菜單項(xiàng),甚至是活動菜單的隱藏菜單子項(xiàng),供用戶口呼使用。這個過程是自動的,是對用戶透明的。
  與利用得意命令SDK開發(fā)的語音命令導(dǎo)航員不同,得意導(dǎo)航員允許用戶的命令更靈活,可以夾雜一些其他的字詞。

得意音通公司供稿 CTI論壇編輯



相關(guān)鏈接:
得意珠三角綜合智能信息增值平臺項(xiàng)目中標(biāo) 2009-08-20
北京軟件產(chǎn)品質(zhì)量檢測檢驗(yàn)中心對《海量語音文件的目標(biāo)說話人篩選系統(tǒng)》進(jìn)行測試 2009-06-25
廣東政府和清華大學(xué)舉行了全面開展產(chǎn)學(xué)研合作協(xié)議簽約儀式 2009-06-25
得意中文整句輸入法V1.0開源for Windows Mobile5.0 2009-01-23
得意聲紋識別VPR4.0_b20080808新版本發(fā)布 2008-08-27

分類信息:     技術(shù)_語音識別_解決方案