Nuance 7.0技術(shù)白皮書
2001/12/29
Nuance簡介
Nuance 公司是為電信、企業(yè)和基于互聯(lián)網(wǎng)的系統(tǒng)提供自然語音接口軟件的企業(yè),處于全球領(lǐng)先地位。成功的應(yīng)用例子包括:United Parcel Service (UPS)公司的包裹跟蹤系統(tǒng)、美國航空公司的航班信息系統(tǒng)、Charles Schwab公司提供股票投資和報(bào)價(jià)語音查詢的 VoiceBroker系統(tǒng)。
Nuance系統(tǒng)的獨(dú)特性和成功要?dú)w功于多個(gè)因素。其中,軟件的結(jié)構(gòu)、技術(shù)和實(shí)施方法對開發(fā)商有特別意義。
系統(tǒng)結(jié)構(gòu)概述
系統(tǒng)結(jié)構(gòu)準(zhǔn)確度高、伸縮空間大、質(zhì)量穩(wěn)定可靠,是創(chuàng)建高質(zhì)量的語音識別系統(tǒng)的理想之選
結(jié)構(gòu)
Nuance是采用基于分布式的結(jié)構(gòu),因此系統(tǒng)靈活、可靠,成本效率高。
先進(jìn)的核心功能
本系統(tǒng)具有內(nèi)容豐富的功能集,其中有些功能是Nuance獨(dú)有的,可完成復(fù)雜的語音應(yīng)用程序,能隨時(shí)隨地向呼叫者提供高質(zhì)量的服務(wù)。
配置選擇
Nuance擁有眾多的合作伙伴,且涉及面廣,能提供可與Nuance系統(tǒng)集成的平臺和開發(fā)工具,因而顧客有廣闊的開發(fā)空間和配置選擇余地。
本白皮書將幫助語音識別應(yīng)用程序開發(fā)商、集成商和技術(shù)決策者對Nuance結(jié)構(gòu)獲得全面的理解。如要對Nuance產(chǎn)品、服務(wù)、工具、配置選擇有更多、更系統(tǒng)的了解,請參考《Nuance系統(tǒng)指南》介紹部分。
Nuance 系統(tǒng)結(jié)構(gòu)概述
Nuance系統(tǒng)的客戶/服務(wù)機(jī)的結(jié)構(gòu)可在Windows NT 及很多UNIX系統(tǒng)上運(yùn)行。它可靈活伸縮,支持很小到很大的應(yīng)用程序。利用這個(gè)結(jié)構(gòu),Nuance系統(tǒng)可在高效而節(jié)約成本地利用計(jì)算資源的同時(shí),支持特殊的交互式語音要求。下圖展示了Nuance系統(tǒng)的主要組件,隨后是每個(gè)部分的說明。
Figure圖 1:Nuance的分布式結(jié)構(gòu)
Nuance API:Nuance系統(tǒng)提供了一系列應(yīng)用編程接口(API)。開發(fā)者可利用這些API創(chuàng)建語音應(yīng)用程序或與第三方平臺集成。這些語音應(yīng)用程序和Nuance系統(tǒng)的組件可以進(jìn)行交互,例如通過其中的一個(gè)API和識別客戶端(RecClient) 進(jìn)行交互。Nuance系統(tǒng)提供的API包括SpeechObjects、RCEngine、VRecServer C++ API、RCAPI和Dialog Builder(對話框構(gòu)造器)等。
Java SpeechChannel和SpeechObjects:SpeechObjects屬于Java類,它封裝了對話框單元,利用SpeechChannel這個(gè)Java對象進(jìn)行識別并提供音頻功能。這一Nuance 應(yīng)用編程接口(API)讓您將應(yīng)用程序的開發(fā)集中在對話框?qū)哟,而不是客戶端的識別層次。
識別客戶端:RecClient是處理應(yīng)用程序和Nuance系統(tǒng)間交互的過程,它處理音頻輸入和輸出,并支持有限的電話控制。音頻輸入可選擇取消回音然后作斷句。音頻輸出支持預(yù)錄音提示回放,為第三方的文本到語音轉(zhuǎn)換(TTS)系統(tǒng)提供了一個(gè)框架。
在特定配置下,呼叫控制和提示回放由Nuance系統(tǒng)外的組件控制,RecClient也可用于偷聽模式。最后,RecClient將音頻傳給識別服務(wù)器(RecServer),并將事件和結(jié)果回傳給應(yīng)用程序。
識別服務(wù)器:RecServer對從RecClient接收來的終端音頻進(jìn)行語音識別和自然語言理解。如果安裝了Verifier, 在需要校驗(yàn)時(shí),RecServer同時(shí)對音頻執(zhí)行聲紋鑒別。
為識別語音并為表達(dá)內(nèi)容返回自然語言的解釋,RecServer需要一系列的聲學(xué)模型和語法。聲學(xué)模型和語法幫助服務(wù)器確定說話內(nèi)容。語法也用于解釋口頭詞匯的意思。應(yīng)用程序?qū)ecServer加載包中的聲學(xué)模型和語法進(jìn)行指定。語法也可在運(yùn)行時(shí)動態(tài)地加載到RecServer上。
資源管理器:Nuance資源管理器執(zhí)行實(shí)時(shí)載入平衡功能,以保證識別任務(wù)平均分配到可用的識別服務(wù)器,從而降低硬件需求,改善服務(wù)質(zhì)量。
數(shù)據(jù)庫:Nuance系統(tǒng)的應(yīng)用程序使用數(shù)據(jù)庫來保存動態(tài)語法和用戶資料。對于Nuance Verifier應(yīng)用程序,數(shù)據(jù)庫還保存鑒別音紋。對于某些Nuance功能,視其應(yīng)用程序情況,可能不需要數(shù)據(jù)庫。Nuance支持Oracle及符合ODBC(開放數(shù)據(jù)接口)標(biāo)準(zhǔn)的數(shù)據(jù)庫。另外,通過定做的數(shù)據(jù)庫提供軟件,任何關(guān)系型數(shù)據(jù)庫均可集成到Nuance應(yīng)用程序中。
編譯服務(wù)器:編譯服務(wù)器用于運(yùn)行時(shí)動態(tài)地編譯語法。編譯服務(wù)器只有在應(yīng)用程序中使用了動態(tài)語法功能或SpeechObjects對象才需要。為了避免最終用戶等待,動態(tài)語法通常在改變時(shí)重新編譯,而不是在使用時(shí)編譯。動態(tài)語法可在RecClient控制下重新編譯。另外,管理程序中獨(dú)立的編譯服務(wù)器API也支持動態(tài)語法的編譯。
許可管理器:Nuance系統(tǒng)許要在多個(gè)機(jī)器上浮動,必須有許可管理器。運(yùn)行許可管理器過程的機(jī)器充當(dāng)許可服務(wù)器,負(fù)責(zé)向分布在網(wǎng)絡(luò)上的Nuance過程發(fā)放許可。
文本到語音轉(zhuǎn)換(TTS)服務(wù)器(可選):文本到語音轉(zhuǎn)換(TTS)服務(wù)器為RecClient提供了播放來自第三方TTS產(chǎn)品音頻的框架,它在RecClient和第三方TTS軟件間充當(dāng)橋梁作用。在使用TTS服務(wù)器時(shí),應(yīng)用程序可播放基于文本的動態(tài)合成的音頻輸出,代替或者配合預(yù)錄音提示。Nuance APIs
語音識別過程
為了理解Nuance的結(jié)構(gòu),最重要的是大致了解識別過程,重點(diǎn)在客戶端、服務(wù)器和應(yīng)用程序。請注意,本篇試圖展現(xiàn)的是一個(gè)典型的簡單過程,和實(shí)際過程可能有出入,實(shí)際情況則視集成伙伴實(shí)施的電話功能而定。下圖為過程的步驟,隨后是每個(gè)步驟的說明。
圖2:語音識別過程Figure 2
在進(jìn)行語音識別之前,每個(gè)應(yīng)用實(shí)例必須建立一個(gè)從應(yīng)用程序到客戶端的音頻輸入輸出的連接。
注:每條電話線必須總有一個(gè)應(yīng)用實(shí)例和一個(gè)音頻連接。
當(dāng)應(yīng)用實(shí)例和語音通道就緒后,系統(tǒng)經(jīng)過下列步驟(如上圖所示):
1.RecClient端有電話到達(dá),RecClient通知應(yīng)用程序,系統(tǒng)接電話。
2.系統(tǒng)要求RecClient播放第一個(gè)提示,呼叫者作出反應(yīng)。對文本到語音轉(zhuǎn)換提示,RecClient將要合成文本通過一個(gè)套接字發(fā)送到TTS服務(wù)器,并接收回傳的樣本。
3.為識別呼叫方的反應(yīng),RecClient向資源管理器發(fā)送服務(wù)器請求(同時(shí)緩存音頻數(shù)據(jù)),資源管理器將RecClient指向最合適的RecServer。
4.RecClient向RecServer發(fā)送一條識別請求。每個(gè)請求由音頻流和在應(yīng)用中的語法條目組成。
該語法條目暗含了聲學(xué)模型,因?yàn)閮烧弑粌?nèi)置于RecServer加載的識別包里。
1.RecServer接收到請求后,執(zhí)行識別任務(wù),然后將識別結(jié)果返回給RecClient。
2.在此期間,資源管理器對RecServer的當(dāng)前載入的內(nèi)容進(jìn)行監(jiān)視。
3.RecClient將識別結(jié)果發(fā)送給應(yīng)用程序。
4.應(yīng)用程序作出相應(yīng)的響應(yīng),例如,進(jìn)行數(shù)據(jù)庫查詢或請求RecClient播放另一個(gè)提示,作為對用戶的響應(yīng)。
5.呼叫者作出反應(yīng);RecClient發(fā)送下一個(gè)識別請求(見步驟4)。
識別結(jié)果
每個(gè)識別完成后,Nuance系統(tǒng)將識別結(jié)果傳給應(yīng)用程序,應(yīng)用程序根據(jù)結(jié)果相應(yīng)做出響應(yīng)。識別結(jié)果包含豐富的信息供應(yīng)用程序使用,包括:
下圖是識別結(jié)果的示意圖,包括被識別的文本、置信級別及自然語言解釋。
圖3:識別結(jié)果Figure 3
可以要求識別引擎產(chǎn)生一個(gè)可能的結(jié)果集,來代替單獨(dú)的最佳結(jié)果。辦法是使用Nuance系統(tǒng)的N-best識別處理方法,它提供可能性由高到低排列的可能識別結(jié)果列表。要求識別器返回的結(jié)果最大數(shù)目可以自己設(shè)定。運(yùn)行時(shí),應(yīng)用程序會對每個(gè)結(jié)果相應(yīng)決定接受、拒絕、或者要求確認(rèn)。
也可使用外部的應(yīng)用知識內(nèi)容來確定多結(jié)果中的哪一個(gè)是有效的。例如,經(jīng)紀(jì)業(yè)務(wù)應(yīng)用程序,它的用戶投資隨時(shí)間變化而變化。系統(tǒng)可使用簡單的語法來識別股票證券的名稱。識別時(shí),系統(tǒng)產(chǎn)生一個(gè)最佳前N個(gè)股票名稱的清單,標(biāo)明假設(shè)的股票證券名稱。應(yīng)用程序然后將每個(gè)清單項(xiàng)目(由最佳到最差)和現(xiàn)有股票證券名稱進(jìn)行比較,從而為該用戶找到可能性最大的一個(gè)。下圖展示的是這些多結(jié)果情況,每個(gè)結(jié)果都可能有它自身的已被識別的文本、NL解釋和置信度分值。在這一例中,請求了五個(gè)識別結(jié)果。
圖4:多識別結(jié)果Figure 4
識別客戶端
現(xiàn)在我們仔細(xì)地看看系統(tǒng)結(jié)構(gòu)中的各個(gè)組件。本部分由語音獲取過程的概述開始,然后對識別客戶端主要功能進(jìn)行深入探討。
獲取語音
RecClient是處理應(yīng)用程序和Nuance系統(tǒng)之間的交互的過程。RecClient管理音頻輸入輸出(一般是通過電話線)。RecClient支持有限的呼叫控制功能,為呼叫者提供激活Nuance識別服務(wù)的接口。語音應(yīng)用程序開發(fā)商通過API使用RecClient。重要的是,Nuance系統(tǒng)允許啟動和運(yùn)行多通道、多線程的RecClient。
下圖顯示了RecClient的主要特點(diǎn)。
圖5:識別客戶端Figure 5
在語音獲取過程中,識別客戶端主要負(fù)責(zé)下列的任務(wù):
也可選擇讓 RecClient執(zhí)行諸如應(yīng)答、轉(zhuǎn)接、掛機(jī)等電話控制。這些功能也可有IVR(交互語音響應(yīng))平臺來完成。
音頻提供器
音頻提供器是RecClient的一個(gè)主要組件,用于連接Nuance系統(tǒng)和音頻輸入輸出設(shè)備。基于電話的音頻提供器,同時(shí)也負(fù)責(zé)呼叫控制功能。Nuance支持各種不同的音頻提供器,包括:
對于Nuance的集成伙伴,您選擇的接口決定了所需的音頻提供器。如果要使用RCEngine接口,處理音頻輸入輸出由Nuance系統(tǒng)處理。在這種情況下:
電話功能
電話功能由Nuance系統(tǒng)或集成的IVR(交互式語音響應(yīng))平臺完成,視選擇哪一種配置方法而定。如果選擇和Nuance的IVR伙伴合作,電話由IVR平臺處理。如果選擇Dialogic、NMS、或 Aculab板卡,需使用Nuance接口來激活板上的電話功能。Nuance的電話功能包括:
1.打電話
2.回電話
3.檢測掛機(jī)
4.檢測 DTMF 撥號音
5.呼叫轉(zhuǎn)移
6.長線連接(有限電話會議)
識別服務(wù)器
RecServer是根據(jù)來自RecClient的應(yīng)用程序的請求,進(jìn)行語音識別和自然語言解釋的處理模塊。語音應(yīng)用程序開發(fā)商不能直接操縱RecServer,而是向它請求服務(wù)。開發(fā)商也可使用IVR接口與Nuance系統(tǒng)聯(lián)絡(luò)。多數(shù)情況下,集成開發(fā)商使用一種RecClient接口直接與RecServer聯(lián)系。如果集成應(yīng)用程序必須直接操縱服務(wù)器,比如在使用舊式電話環(huán)境的情況下,則可使用VRSAPI將音頻直接傳給RecServer。
RecServer的任務(wù)
和RecClient一樣,RecServer的運(yùn)作過程是在后臺完成運(yùn)行的。RecServer是共享資源,由資源管理器進(jìn)行管理,主要執(zhí)行三個(gè)任務(wù):語音識別、自然語言理解和聲紋鑒別。
RecServer響應(yīng)來自RecClient的應(yīng)用程序請求,執(zhí)行語音識別功能。每個(gè)RecServer根據(jù)啟動時(shí)加載的識別包中的一個(gè)或多個(gè)語法進(jìn)行識別。當(dāng)應(yīng)用程序請求識別時(shí),指定使用的識別語法。資源管理器跟蹤每個(gè)RecServer支持的語法并將識別請求轉(zhuǎn)向相應(yīng)的服務(wù)器。
Nuance系統(tǒng)的最重要的功能之一是RecServer的自然語言理解能力。在應(yīng)用程序開發(fā)過程中,開發(fā)商指定多個(gè)檔位和一個(gè)特定語法。運(yùn)行時(shí),RecServer不僅識別講話的內(nèi)容(抄本), 而且通過在各個(gè)檔位中填入給定值來識別講話的意思(意義提取)。這種任務(wù)的分配簡化了開發(fā)過程,因?yàn)閼?yīng)用程序不負(fù)責(zé)解釋識別結(jié)果。
如果應(yīng)用程序中使用了Nuance Verifier,RecServer在識別處理的同時(shí)執(zhí)行聲紋鑒別。
RecServer和其它系統(tǒng)組件
下圖說明RecServer和其它Nuance系統(tǒng)組件之間的交互情況。在每個(gè)交互過程中,由資源管理器建立連接,但RecServer和其它組件間的交互是直接進(jìn)行的。
圖6:識別服務(wù)器Figure 6
在啟動時(shí),RecServer和資源管理器建立連接,并不斷地接受RecClient連接。當(dāng)RecClient向資源管理器請求RecServer時(shí),資源管理器根據(jù)當(dāng)前的負(fù)載、可用的識別包及其它因素選擇最合適的RecServer。
RecClient在通話時(shí)間內(nèi)必須一直連接著電話線路,因?yàn)镽ecClient必須獲取并處理完整的講話內(nèi)容,并在整個(gè)通話中不斷適應(yīng)講話者。相反,RecServer只在識別處理時(shí)才被使用。因此,RecServer是共享的資源,他們可以有效地利用CPU和系統(tǒng)的內(nèi)存資源。
資源管理器
資源管理器執(zhí)行實(shí)時(shí)載入平衡,保證識別和校驗(yàn)任務(wù)平均分布到可用的RecServer上,從而降低硬件要求,提高服務(wù)質(zhì)量。資源管理器也是容錯(cuò)的關(guān)鍵組件。當(dāng)一個(gè)RecServer失效時(shí),資源管理器停止向其發(fā)送請求。
圖7:資源管理器Figure 7
所有的RecClient和RecServer均與資源管理器連接。資源管理器跟蹤每個(gè)服務(wù)器支持的識別包,監(jiān)視服務(wù)器負(fù)載,對各個(gè)識別請求分配合適的服務(wù)器。
注:多數(shù)應(yīng)用程序使用一個(gè)主資源管理器和一個(gè)輔資源管理器,以避免在某一點(diǎn)上的失效引起整個(gè)系統(tǒng)的關(guān)閉。一個(gè)資源管理器作為主要管理器,另一個(gè)作為后備,監(jiān)視所有的RecServer并對所有請求作出響應(yīng)。如果主資源管理器失效,另一個(gè)立即接管,不會降低系統(tǒng)的性能。
資源管理器還管理多個(gè)編譯服務(wù)器、TTS服務(wù)器和其它系統(tǒng)組件。
資源管理器和其它系統(tǒng)組件
資源管理器和其它系統(tǒng)組件的交互情形如下:
1.RecClient請求使用某個(gè)語法進(jìn)行識別
2.資源管理器找到具有該語法的最空閑的RecServer并通知RecClient。
3.RecClient動態(tài)地連接該服務(wù)器并傳入斷句后的講話。
4.RecServer執(zhí)行識別并將結(jié)果發(fā)送給RecClient。
RecClient和資源管理器間的磋商只需要很短時(shí)間,對應(yīng)用程序是透明的。在此期間,RecClient將語音緩存,所以音頻不會丟失。資源管理器連接是動態(tài)的,所以當(dāng)RecClient和RecServer處理啟動時(shí),他們各自和資源管理器連接,結(jié)果,每個(gè)RecClient和RecServer立即就緒,可以發(fā)出或者處理識別請求。這種設(shè)置允許在資源管理器連續(xù)運(yùn)行的情況下,按需要增加或減少客戶或服務(wù)機(jī)。
動態(tài)語法
是Nuance結(jié)構(gòu)的一個(gè)重要部分,它能被運(yùn)行應(yīng)用程序動態(tài)創(chuàng)建和修改。動態(tài)語法使系統(tǒng)能識別其它的類型��因?yàn)橛行┫到y(tǒng)中要識別的項(xiàng)目必須等到運(yùn)行時(shí)才能確定,這些例子有:
1.在某些應(yīng)用程序中,要根據(jù)數(shù)據(jù)庫中可變化的項(xiàng)目或者其它只有運(yùn)行時(shí)才能知道的動態(tài)數(shù)據(jù)來創(chuàng)建、更新語法。
2.為個(gè)別用戶定做的應(yīng)用程序,比如帶有每個(gè)人的私人地址表的撥號系統(tǒng),或帶有可定做收款人清單的帳單結(jié)算系統(tǒng)。
可以通過程序或者利用語音和基于文本的接口由用戶輸入,將新的短語加到動態(tài)語法中。通過語音接口,即念出短語來增加短語的過程,叫登記。通過這種機(jī)制創(chuàng)建的語法對講話者有依賴性,因?yàn)榘l(fā)音是依據(jù)用戶的口頭輸入產(chǎn)生的,只能用于對該講話者的識別。由GSL或基于文本接口創(chuàng)建的動態(tài)語法不依賴于講話者:發(fā)音通過詞典和自動發(fā)音生成器生成,適用于任何講話者。
動態(tài)語法的工作方式
本部分詳述動態(tài)語法和其它Nuance系統(tǒng)組件之間的交互。下圖說明處理的各個(gè)步驟,隨后是每個(gè)步驟的說明。
圖8:動態(tài)語法Figure 9
1.語音應(yīng)用程序通過RecClient將識別請求發(fā)送給RecServer。
2.RecServer從數(shù)據(jù)庫中讀取適當(dāng)?shù)膭討B(tài)語法,和時(shí)間戳一起存入緩沖區(qū)。
3.如果用戶輸入要求增加語法,例如,用戶在個(gè)人撥號器中加了人名,RecClient將該信息發(fā)送到編譯服務(wù)器。
4.編譯服務(wù)器進(jìn)行必要的語法更新。
5.當(dāng)RecServer接收到另外的請求時(shí),使用動態(tài)語法時(shí)間戳檢查數(shù)據(jù)庫中的語法是否已經(jīng)更新。如果該語法已經(jīng)改變,則RecServer更新其本地副本。否則,它利用緩存的副本處理識別請求。
除了由語音應(yīng)用程序進(jìn)行動態(tài)更新外,有的系統(tǒng)通過其它方式接收輸入,例如,交互性的互聯(lián)網(wǎng)址。在這種情況下,單獨(dú)運(yùn)行一個(gè)管理過程,當(dāng)輸入引起變化時(shí)更新語法。和前面一樣,RecServer將緩存語法的時(shí)間戳和數(shù)據(jù)中的當(dāng)前語法進(jìn)行比較,并作必要的信息更新。
動態(tài)語法存儲
每個(gè)動態(tài)語法均作為一條記錄存放,在修改時(shí)增量編譯。這種存儲機(jī)制使應(yīng)用程序可以快速地加載動態(tài)語法,同時(shí)提供了更新語法內(nèi)容和保存修改的方便接口。例如,在個(gè)人快速撥號應(yīng)用程序中,可為每個(gè)呼入的用戶,加載經(jīng)常通話的個(gè)性化名單;用戶可以修改該名單,變動存入數(shù)據(jù)庫,以供下次用戶呼叫時(shí)使用。
Nuance產(chǎn)品完全兼容Oracle 和 ODBC(開放數(shù)據(jù)接口) (Microsoft Windows NT版)。Nuance系統(tǒng)也包括API,用于創(chuàng)建定做的數(shù)據(jù)接口,以存取未直接支持的其它類型的關(guān)系型數(shù)據(jù)庫。為了方便使用,Nuance系統(tǒng)也附帶了一個(gè)文件系統(tǒng)型數(shù)據(jù)庫,供開發(fā)、原型化和演示用。文件型數(shù)據(jù)庫不支持分發(fā)。
系統(tǒng)結(jié)構(gòu)的優(yōu)點(diǎn)
Nuance 7.0的分布式結(jié)構(gòu)具有伸縮性強(qiáng)、成本效率高和配置靈活等優(yōu)點(diǎn),具有支持?jǐn)?shù)百萬呼叫的能力;Nuance健壯的客戶/服務(wù)機(jī)結(jié)構(gòu)使語音識別應(yīng)用程序威力強(qiáng)大,具有極其高效的容錯(cuò)性和載入平衡能力,保證了應(yīng)用程序的可靠性。Nuance結(jié)構(gòu)具有如下結(jié)構(gòu)上的優(yōu)點(diǎn):
1.分布式結(jié)構(gòu)。資源管理器在RecServer間進(jìn)行載入均衡,從而保證硬件的利用效率。對CPU強(qiáng)度大的識別可以由非運(yùn)行應(yīng)用程序和音頻接口的遠(yuǎn)程機(jī)器來執(zhí)行。這種結(jié)構(gòu)優(yōu)化了內(nèi)存和CPU資源的使用,因?yàn)槊總(gè)RecServer可以支持多個(gè)客戶端,資源管理器可以將呼叫平均分布到幾個(gè)RecServer上。另外,對于小型系統(tǒng)或者原型,可在同一臺機(jī)上運(yùn)行RecClient和RecServer。
2.高密度接口。將客戶端的少量處理從CPU密集型的服務(wù)器處理隔離,允許客戶端端有高密度的接口又能提高服務(wù)器端CPU的使用效率。
3.容錯(cuò)和可靠性。即使個(gè)別服務(wù)器失效,也不會使系統(tǒng)崩潰,甚至不會錯(cuò)過一個(gè)電話。當(dāng)一個(gè)RecServer失效時(shí),資源管理器自動停止向其發(fā)送請求,當(dāng)服務(wù)器恢復(fù)時(shí),自動開始向它發(fā)送請求。呼叫者不會被斷線,最多是系統(tǒng)要求其重復(fù)最后一句話,并轉(zhuǎn)向另外一個(gè)可用的服務(wù)器。
4.維護(hù)方便?梢躁P(guān)閉一個(gè)RecServer進(jìn)行維修,而對整個(gè)系統(tǒng)的性能沒有影響,或者影響很小。一些類型的維護(hù)甚至可以不關(guān)閉RecServer進(jìn)行。
5.無縫的鑒別功能。Nuance系統(tǒng)將識別過程和鑒別處理集成在一起。所以資源管理器不僅對所有RecServer的識別負(fù)載,同時(shí)還有鑒別負(fù)載,進(jìn)行均衡。這個(gè)方案比分開進(jìn)行校驗(yàn)和識別處理的方案具有更高的效率、需要更少的硬件。
6.可伸縮性。隨著呼叫量的增加,可增加RecServer、RecClient和應(yīng)用的實(shí)例,無須停止任何運(yùn)行著的應(yīng)用程序或關(guān)閉IVR系統(tǒng)。
Nuance公司簡介
Nuance公司是自然語音接口軟件的佼佼者。使用自然語音接口軟件,人們可以通過電話方便安全地獲取信息、服務(wù)并進(jìn)行交易。每天,千千萬萬的人通過撥打運(yùn)行Nuance公司語音識別、語言理解和聲紋鑒別軟件的電話,進(jìn)行出游預(yù)訂、股票交易、與其它通訊媒體、企業(yè)和互聯(lián)網(wǎng)系統(tǒng)進(jìn)行交往等活動。美國航空、Bell Atlantic、Charles Schwab、家庭購物網(wǎng)絡(luò)、Lloyds TSB、Sears、UPS等大公司使用Nuance的軟件來為客戶提供更好的服務(wù),同時(shí)也大幅度降低了成本。Nuance公司是語音商務(wù)聯(lián)盟的發(fā)起成員,并領(lǐng)導(dǎo)創(chuàng)建了語音應(yīng)用程序開發(fā)的開放標(biāo)準(zhǔn)。Nuance公司的總部設(shè)在加州硅谷的Menlo Park,世界各地均有分部和合作伙伴,提供多語種支持的解決方案。來體驗(yàn)Nuance公司最新的技術(shù)吧,請打電話1-888-NUANCE-8或?yàn)g覽公司的網(wǎng)址www.nuance.com。
NDN - Nuance開發(fā)商網(wǎng)絡(luò)
Nuance Developer Network (NDN - Nuance開發(fā)商網(wǎng)絡(luò)) 是語音識別行業(yè)第一個(gè)開發(fā)商網(wǎng)絡(luò),它向成員提供最新的產(chǎn)品發(fā)布信息、培訓(xùn)、在線技術(shù)論壇,以及和其它開發(fā)商進(jìn)行想法和方案共享的機(jī)會。通過www.nuance.com or extranet.nuance.com 網(wǎng)址,可以下載最新的Nuance產(chǎn)品和工具。
附錄A:部分功能一覽
海量詞匯、獨(dú)立于講話者的健壯識別功能
Nuance系統(tǒng)能可靠地對多種語言進(jìn)行大詞匯量的識別,并可提供識別結(jié)果的置信度。該系統(tǒng)對商業(yè)上使用的大量詞匯提供最準(zhǔn)確的語音識別技術(shù)。利用Nuance系統(tǒng)開發(fā)的應(yīng)用程序,在市場上具有最高的準(zhǔn)確率。生產(chǎn)中的應(yīng)用程序經(jīng)測試,準(zhǔn)確性超過96%。
內(nèi)建的自然語言理解
通過Nuance系統(tǒng)可以開發(fā)自然語言理解系統(tǒng),它以句子為輸入,返回句子意義的解釋性表達(dá)。應(yīng)用程序可以根據(jù)用戶的請求采取相應(yīng)的動作。Nuance系統(tǒng)也提供基于檔次的置信評分,它能更加接近地判別可能準(zhǔn)確(或不準(zhǔn)確)識別的短語各部分。然后可更加自然和有效地修改應(yīng)用程序,處理錯(cuò)誤檢查或重新提示。
基于主機(jī)的客戶/服務(wù)機(jī)結(jié)構(gòu)
Nuance系統(tǒng)基于開放式客戶/服務(wù)機(jī)結(jié)構(gòu),特別為大型應(yīng)用程序所需的健壯性和可伸縮性而設(shè)計(jì)。呼叫者的講話由客戶端收集,而識別和鑒別處理的負(fù)載被平均分配到網(wǎng)絡(luò)上的多個(gè)分開的服務(wù)器上。
集成的講話人校驗(yàn)
聲紋鑒別使用戶可通過其聲音的生物學(xué)統(tǒng)計(jì)特征進(jìn)行校驗(yàn)。Nuance的Verifier允許同時(shí)進(jìn)行講話識別和用戶甄別。Nuance系統(tǒng)可對多種講話進(jìn)行校驗(yàn),包括自定義口令、數(shù)字和應(yīng)用程序命令。系統(tǒng)檢查要求的話是否已講,同時(shí)根據(jù)以前保存的音紋對用戶進(jìn)行辨別。
動態(tài)語法
動態(tài)語法是由運(yùn)行的應(yīng)用程序創(chuàng)建和修改的語法。這在應(yīng)用程序詞匯必須在運(yùn)行時(shí)才能完全確定的情況下是必不可少的。
無線和免提準(zhǔn)確性
Nuance 7.0提供強(qiáng)壯的無線和免提電話處理功能,在噪雜環(huán)境下有特別高的準(zhǔn)確率,語音識別高質(zhì)可靠。
單個(gè)詞匯校正
也叫按檔置信評分,如果一個(gè)長句中的一個(gè)詞語未被識別,應(yīng)用程序可提示用戶重復(fù)該片段,而不是整個(gè)句子。
熱詞識別
熱詞識別使系統(tǒng)能對講話者進(jìn)行偷聽,等待特定的詞匯或短語,將控制交還該應(yīng)用程序?稍趹(yīng)用程序使用該功能,使識別器能夠靜靜傾聽,直到用戶說出特定的短語進(jìn)行請求時(shí)才與用戶交互。
智能斷句
斷句是對進(jìn)來的樣本流確定語句的起始和終止的處理過程。當(dāng)找到語句的起始和終止點(diǎn)后,語句區(qū)向前后分別延伸預(yù)先確定的長度。一旦檢測到語句的起始點(diǎn),樣本開始流向RecServer,直到發(fā)現(xiàn)語句的終止點(diǎn)。通過這種方式,RecServer在用戶仍在講話的同時(shí),實(shí)際上已經(jīng)開始處理講話的內(nèi)容,而又不處理講話的起止處多余的空白,從而節(jié)約CPU時(shí)間和網(wǎng)絡(luò)帶寬。
打斷功能
打斷功能使用戶可以打斷提示、作出響應(yīng),無需等到提示結(jié)束播放。打斷功能使用戶和系統(tǒng)間的交流更加快捷、自然,特別是系統(tǒng)的經(jīng)常用戶。
N-Best處理
對于有些應(yīng)用程序,可能需要識別引擎產(chǎn)生可能的識別結(jié)果集,而不是一個(gè)最好的結(jié)果。Nuance系統(tǒng)的N-best識別處理方法便有這個(gè)功能,它提供了可能的識別結(jié)果列表,并按可能性從高到低排列。
語法概率
Nuance系統(tǒng)允許對呼叫者所講的特定詞語或短語的在語法中的概率進(jìn)行指定。當(dāng)被講的詞語或短語的概率可根據(jù)實(shí)際使用進(jìn)行估計(jì)時(shí),非常有用。對語法增加概率可提高識別的準(zhǔn)確率和速度。
降低噪音
當(dāng)進(jìn)來的呼叫包含穩(wěn)定的背景噪音時(shí),Nuance系統(tǒng)通過一種機(jī)制,使識別服務(wù)器更準(zhǔn)確地進(jìn)行識別。識別服務(wù)器將進(jìn)來的話語進(jìn)行增強(qiáng),以有效地將語氣、嗡嗡聲、哼叫聲、噓噓聲等噪聲過濾。如果相當(dāng)數(shù)量的電話均含有穩(wěn)定的背景噪聲,比如在汽車上免提打電話時(shí),這個(gè)機(jī)制效果較理想。
提示回放
Nuance系統(tǒng)允許播放預(yù)先錄好的提示和由文本到語音轉(zhuǎn)換系統(tǒng)產(chǎn)生的提示。如果應(yīng)用程序使用多個(gè)文本到語音轉(zhuǎn)換服務(wù)器,資源管理器將對這些服務(wù)器的轉(zhuǎn)換負(fù)載進(jìn)行平衡,以提高硬件效率。
SNMP支持
系統(tǒng)為遠(yuǎn)程監(jiān)控提供了簡單網(wǎng)絡(luò)管理協(xié)議(SNMP)支持,獨(dú)具可視化工具,便于進(jìn)行配置、管理和操作。
用戶資料
用戶資料將特定呼叫者的所有有關(guān)信息結(jié)合在一條數(shù)據(jù)庫記錄里,從而提供了一個(gè)方便的機(jī)制?纱鎯Φ男畔暭y鑒別的聲紋或您想增加的任何特定應(yīng)用的數(shù)據(jù)。
Nuance公司供稿 CTI論壇編輯
Nuance發(fā)布Vocalizer 5.0文本語音轉(zhuǎn)換方案 2009-09-04 |
化繁為簡,讓手機(jī)“一切行動聽指揮” 2009-08-13 |
Nuance語音識別技術(shù)助力醫(yī)學(xué)中心節(jié)省開支 2009-08-12 |
Nuance攜手IBM提供先進(jìn)的語音識別解決方案 2009-08-05 |
Nuance語音識別技術(shù)將進(jìn)軍中國 2009-06-17 |