IBM ViaVoice Telephony技術
語音識別技術一直是計算機領域研究的重點。IBM ViaVoice Telephony技術是IBM公司的中文ViaVoice語音識別技術在電話通信領域中的延伸和發(fā)展,它提供了一個開放式的語音識別引擎和一系列應用工具,使得語音識別功能可以被方便快速地集成到電話系統(tǒng)中。
具體說來,普通話ViaVoice Telephony技術的特點包括:
1、與說話人無關,任何人都可以使用;
2、高識別率,內(nèi)部的語音識別引擎是使用真實的電話信道語音數(shù)據(jù)訓練得到的,在正常的電話信道(包括普通電話和手機)的噪音下具有很高的識別率;
3、無限詞匯量,由于語音識別內(nèi)核是比音節(jié)還要小的單元,所以對于開發(fā)人員定義的任何詞表,它都可以很好地辨識;
4、連續(xù)發(fā)音,使用者不需要在詞匯間有任何停頓,可以同系統(tǒng)連續(xù)交談;
5、多語種支持,除了支持中文普通話和粵語之外,系統(tǒng)同時支持美國英語、英國英語、法語和德語;
6、多候選集的輸出,可以輸出不同候選結果的相似度得分;
7、支持聲學加詞,說話人只需輸入語音信號即可完成加詞;
8、支持動態(tài)加詞,系統(tǒng)在運行狀態(tài)下也可以動態(tài)地擴大可識別的詞匯集;
9、支持語音合成,高自然度、高清晰度、高可懂度的文語轉(zhuǎn)換系統(tǒng)是普通話ViaVoice Telephony技術的重要構件;
10、信道自適應,系統(tǒng)可以自動適應不同信噪比的電話信道;
11、與硬件無關的標準C/C++接口,可讓系統(tǒng)方便地掛接語音識別和語音合成引擎;12、自然語言理解模塊,提供更加人性化的人機對話接口;
13、出色的可伸縮性,提供從小型辦公室到企業(yè)級電話語音系統(tǒng)解決方案,并提供全自動的動態(tài)負載平衡。
此外,IBM中國研究中心在IBM美國Watson研究中心的支持下,已經(jīng)在語音識別的電話應用領域積累了多年的經(jīng)驗和技術。該項技術提供的語音識別引擎和語音合成引擎可以客戶機/服務器的方式同IVR(Interactive
Voice Responding)系統(tǒng)對話,共同組成一個先進的和智能化的分布式電話語音系統(tǒng),支持單機和多機模式。
同時,IBM ViaVoice電話語音內(nèi)核和工具庫還為開發(fā)人員提供了開發(fā)電話語音識別應用程序的工具。其中,前者為應用程序提供了運行平臺;后者則為開發(fā)和測試應用程序提供了一套實用程序。該工具庫對Tcl/Tk腳本語言進行了擴展,簡化了應用程序的開發(fā)和定制過程,并提供了與硬件無關的語音識別和語音合成引擎的C/C++接口,使得開發(fā)人員可以開發(fā)面向?qū)ο蟮慕鉀Q方案。工具庫中還包括了兩個示例程序,可以幫助用戶理解如何將語音識別集成到電話語音應用程序中。另外,軟件中還附帶了幾個實用程序,來協(xié)助開發(fā)人員開發(fā)、測試和管理電話語音識別應用程序。
普通話ViaVoice Telephony技術具有廣泛的應用前景,任何VRU(Voice Responding Unit)應用都可以同語音識別功能相結合,提供人性化的交互界面。不久前,我們杭州三匯數(shù)字信息技術有限公司和IBM公司就關于ViaVoice Telephony的應用簽訂了合作協(xié)議,從而使得我公司成為率先應用這一新技術的國內(nèi)語音卡生產(chǎn)商及ISV。在與ViaVoice Telephony技術結合之后,我公司開發(fā)生產(chǎn)的語音卡可以徹底解決以前按鍵無法解決的地名、人名、股票名稱等漢字詞語輸入問題,且具備高識別率、無限詞匯量、連續(xù)發(fā)音、與說話人無關等特點。
目前,我公司已成功地完成了股票語音查詢系統(tǒng)、機器人接線員、鐵路自動票務中心、民航語音呼叫中心、郵政184自動查詢系統(tǒng)等項目。其中,江蘇省諫壁電廠經(jīng)過嚴格測試,已決定使用機器人總機接線員,任何人都可以通過有線或無線電話用自然語言直接叫機器人接線員接通某人的手機、辦公室或家庭電話。
相信,隨著ViaVoice Telephony技術在通信、金融、旅游以及醫(yī)療等領域的進一步推廣和應用,人們的生活必將更加多姿多彩。