IBM ViaVoice Telephony——完善的中文電話語音技術(shù)
2001/11/14
語音技術(shù),雖然在國外出現(xiàn)得很早,但在國內(nèi)開始步入實用領(lǐng)域,還是最近的事情。尤其是語音技術(shù)在智能電話系統(tǒng)中的應(yīng)用,國外已經(jīng)有了不少較大規(guī)模的語音識別IVR系統(tǒng)或者呼叫中心的應(yīng)用,然而在國內(nèi),雖然有將語音識別和呼叫中心結(jié)合起來的趨勢,但仍沒有多少應(yīng)用。目前電話高度普及,如果通過最便捷的電話方式就能查詢到所需信息,無疑將給人們的日常生活帶來極大方便。雖然影響語音技術(shù)在電話系統(tǒng)中應(yīng)用的因素很多,但重要的一點就是漢語語音識別技術(shù)還不夠完善。
基于電話的語音識別技術(shù)與基于電腦的有很多不同之處。電腦錄入使用的是非自然語言,而電話是自然語言。要做好對電話語音的識別,就需要系統(tǒng)能夠?qū)δ信仙,甚至是帶有一些地方口音的各種語言進行識別。并且,電話語音識別系統(tǒng)必須具有處理插入的能力。即允許用戶在系統(tǒng)提示時中斷系統(tǒng),但系統(tǒng)依然能知道用戶的請求。因為人們在說話時,總是在不自覺地思考,經(jīng)常會打斷語言的連續(xù)性,而插入一些補充性的語言。這樣的語言,在語法上來說經(jīng)常是不正確的,常規(guī)的語音識別系統(tǒng)很難處理這些語音。
經(jīng)過多年的研究,IBM公司已經(jīng)突破了漢語語音識別技術(shù)上的重重難關(guān),為智能電話系統(tǒng)提供了IBM ViaVoice Telephony電話語音系統(tǒng)開發(fā)工具。作為IBM公司中文語音識別技術(shù)的最新成果,IBM ViaVoice Telephony電話語音系統(tǒng)開發(fā)工具提供了一個開放式的電話語音識別引擎和完善的應(yīng)用開發(fā)環(huán)境,使語音功能可以方便快捷地被集成到電話系統(tǒng)中,為網(wǎng)上聲訊服務(wù)、電子商務(wù),以及涉及電話通信的應(yīng)用系統(tǒng)提供語音交互界面。
IBM ViaVoice Telephony中文電話語音技術(shù)是IBM ViaVoice中文語音識別技術(shù)在電話通信領(lǐng)域中的延伸和發(fā)展。它的語音識別引擎采用實際電話信道的語音樣本,對于普通電話和移動電話均能獲得很高的識別率。由于語音識別引擎沒有特定授話人的限制,任何能講標(biāo)準(zhǔn)漢語普通話的人都可以使用。并且電話語音的應(yīng)用不但可以運行在單機系統(tǒng)上,更可以擴展為多引擎、多服務(wù)器的大型企業(yè)級應(yīng)用,動態(tài)的負(fù)載平衡能力可以令系統(tǒng)時刻保持最優(yōu)的效能。
同時,IBM ViaVoice Telephony 電話語音系統(tǒng)開發(fā)工具庫還為程序員開發(fā)和測試電話語音識別應(yīng)用程序提供了一套完善的實用程序。該工具庫對TCL/TK腳本語言進行了擴展,簡化了應(yīng)用程序的開發(fā)和定制過程,并提供了與硬件無關(guān)的語音識別和語音合成引擎C/C++接口,使得開發(fā)人員可以開發(fā)面向?qū)ο蟮慕鉀Q方案。工具庫中還包括了若干示例程序,可以幫助用戶理解如何將語音識別集成到電話語音應(yīng)用程序中。另外,軟件中還附帶了幾個實用程序,來協(xié)助開發(fā)人員開發(fā)、測試和管理電話語音識別應(yīng)用程序。
通過IBM ViaVoice Telephony電話語音識別技術(shù),在許多領(lǐng)域已可以很方便的實現(xiàn)人機語音自動交互服務(wù),例如:信息查詢,尋呼臺、電話轉(zhuǎn)接中心;金融領(lǐng)域,如家庭銀行或股票信息查詢;旅游服務(wù)領(lǐng)域,如飛機定票或旅館預(yù)定,等。另外隨著互聯(lián)網(wǎng)的迅猛發(fā)展,電話輕松上網(wǎng)獲取信息,更是廣大用戶的迫切希望。通過電話上網(wǎng),用戶只需說出想得到的網(wǎng)上信息,機器自動識別,將用戶的請求送到互聯(lián)網(wǎng)上,并把返回的相關(guān)信息用語音合成技術(shù)回放給用戶,提供人性化的語音應(yīng)答交互界面。
目前,基于IBM電話語音技術(shù),tom.com開發(fā)了第一個商用中文語音門戶——Tom及時語(http://cn.tom.com/tomvoice)。通過電話語音識別技術(shù),可以使用戶用電話訪問原來只能通過因特網(wǎng)或內(nèi)部網(wǎng)的應(yīng)用;在任何時間,任何地點快速便捷獲取所需信息和進行在線交易。
隨著中文電話語音應(yīng)用的推廣和深入,針對實際應(yīng)用的需求,一系列新技術(shù)被開發(fā)出來。例如,關(guān)鍵詞辯識技術(shù)可使用戶更加自然地和遠端服務(wù)器交互;針對字母及數(shù)字串專用聲學(xué)模型的建立,為在線語音驅(qū)動的電子商務(wù)、個性化信息服務(wù)提供了有力的保證;針對許多應(yīng)用中有中英文混合使用的情況,開發(fā)了同時支持普通話、臺灣普通話、粵語和英語的混合語音技術(shù),進一步拓展了應(yīng)用的廣度。
相信,隨著IBM ViaVoice Telephony技術(shù)在通訊、金融、旅游以及醫(yī)療等領(lǐng)域的進一步推廣和應(yīng)用,將會給人們的工作和生活帶來質(zhì)的變化。有專家預(yù)測,隨著技術(shù)的快速發(fā)展,再過10~20年的時間,我們將可以做到非常自然的人機交互式對話。那時,人們的生活必將更加多姿多彩。
IBM供稿 CTI論壇編輯
ViaVoice語音上網(wǎng)新概念 2001-11-14 |
IBM ViaVoice更方便更健康 2001-11-14 |
語音識別重在應(yīng)用 2001-11-14 |
CRM中的IBM語音技術(shù) 2001-10-10 |
IBM Viavoice:掛在嘴邊的輸入法 2001-10-10 |