語(yǔ)音識(shí)別技術(shù)一直是計(jì)算機(jī)領(lǐng)域研究的重點(diǎn)。IBM ViaVoice
Telephony技術(shù)是IBM公司的中文ViaVoice語(yǔ)音識(shí)別技術(shù)在電話通信領(lǐng)域中的延伸和發(fā)展,它提供了一個(gè)開放式的語(yǔ)音識(shí)別引擎和一系列應(yīng)用工具,使得語(yǔ)音識(shí)別功能可以被方便快速地集成到電話系統(tǒng)中。
具體說(shuō)來(lái),普通話ViaVoice Telephony技術(shù)的特點(diǎn)包括:1、與說(shuō)話人無(wú)關(guān),任何人都可以使用;2、高識(shí)別率,內(nèi)部的語(yǔ)音識(shí)別引擎是使用真實(shí)的電話信道語(yǔ)音數(shù)據(jù)訓(xùn)練得到的,在正常的電話信道(包括普通電話和手機(jī))的噪音下具有很高的識(shí)別率;3、無(wú)限詞匯量,由于語(yǔ)音識(shí)別內(nèi)核是比音節(jié)還要小的單元,所以對(duì)于開發(fā)人員定義的任何詞表,它都可以很好地辨識(shí);4、連續(xù)發(fā)音,使用者不需要在詞匯間有任何停頓,可以同系統(tǒng)連續(xù)交談;5、多語(yǔ)種支持,除了支持中文普通話和粵語(yǔ)之外,系統(tǒng)同時(shí)支持美國(guó)英語(yǔ)、英國(guó)英語(yǔ)、法語(yǔ)和德語(yǔ);6、多候選集的輸出,可以輸出不同候選結(jié)果的相似度得分;7、支持聲學(xué)加詞,說(shuō)話人只需輸入語(yǔ)音信號(hào)即可完成加詞;8、支持動(dòng)態(tài)加詞,系統(tǒng)在運(yùn)行狀態(tài)下也可以動(dòng)態(tài)地?cái)U(kuò)大可識(shí)別的詞匯集;9、支持語(yǔ)音合成,高自然度、高清晰度、高可懂度的文語(yǔ)轉(zhuǎn)換系統(tǒng)是普通話ViaVoice
Telephony技術(shù)的重要構(gòu)件;10、信道自適應(yīng),系統(tǒng)可以自動(dòng)適應(yīng)不同信噪比的電話信道;11、與硬件無(wú)關(guān)的標(biāo)準(zhǔn)C/C++接口,可讓系統(tǒng)方便地掛接語(yǔ)音識(shí)別和語(yǔ)音合成引擎;12、自然語(yǔ)言理解模塊,提供更加人性化的人機(jī)對(duì)話接口;13、出色的可伸縮性,提供從小型辦公室到企業(yè)級(jí)電話語(yǔ)音系統(tǒng)解決方案,并提供全自動(dòng)的動(dòng)態(tài)負(fù)載平衡。此外,IBM中國(guó)研究中心在IBM美國(guó)Watson研究中心的支持下,已經(jīng)在語(yǔ)音識(shí)別的電話應(yīng)用領(lǐng)域積累了多年的經(jīng)驗(yàn)和技術(shù)。該項(xiàng)技術(shù)提供的語(yǔ)音識(shí)別引擎和語(yǔ)音合成引擎可以客戶機(jī)/服務(wù)器的方式同IVR(Interactive
Voice Responding)系統(tǒng)對(duì)話,共同組成一個(gè)先進(jìn)的和智能化的分布式電話語(yǔ)音系統(tǒng),支持單機(jī)和多機(jī)模式。
同時(shí),IBM ViaVoice電話語(yǔ)音內(nèi)核和工具庫(kù)還為開發(fā)人員提供了開發(fā)電話語(yǔ)音識(shí)別應(yīng)用程序的工具。其中,前者為應(yīng)用程序提供了運(yùn)行平臺(tái);后者則為開發(fā)和測(cè)試應(yīng)用程序提供了一套實(shí)用程序。該工具庫(kù)對(duì)Tcl/Tk腳本語(yǔ)言進(jìn)行了擴(kuò)展,簡(jiǎn)化了應(yīng)用程序的開發(fā)和定制過(guò)程,并提供了與硬件無(wú)關(guān)的語(yǔ)音識(shí)別和語(yǔ)音合成引擎的C/C++接口,使得開發(fā)人員可以開發(fā)面向?qū)ο蟮慕鉀Q方案。工具庫(kù)中還包括了兩個(gè)示例程序,可以幫助用戶理解如何將語(yǔ)音識(shí)別集成到電話語(yǔ)音應(yīng)用程序中。另外,軟件中還附帶了幾個(gè)實(shí)用程序,來(lái)協(xié)助開發(fā)人員開發(fā)、測(cè)試和管理電話語(yǔ)音識(shí)別應(yīng)用程序。
普通話ViaVoice Telephony技術(shù)具有廣泛的應(yīng)用前景,任何VRU(Voice Responding Unit)應(yīng)用都可以同語(yǔ)音識(shí)別功能相結(jié)合,提供人性化的交互界面。不久前,我們杭州三匯數(shù)字信息技術(shù)有限公司和IBM公司就關(guān)于ViaVoice
Telephony的應(yīng)用簽訂了合作協(xié)議,從而使得我公司成為率先應(yīng)用這一新技術(shù)的國(guó)內(nèi)語(yǔ)音卡生產(chǎn)商及ISV。在與ViaVoice Telephony技術(shù)結(jié)合之后,我公司開發(fā)生產(chǎn)的語(yǔ)音卡可以徹底解決以前按鍵無(wú)法解決的地名、人名、股票名稱等漢字詞語(yǔ)輸入問(wèn)題,且具備高識(shí)別率、無(wú)限詞匯量、連續(xù)發(fā)音、與說(shuō)話人無(wú)關(guān)等特點(diǎn)。目前,我公司已成功地完成了股票語(yǔ)音查詢系統(tǒng)、機(jī)器人接線員、鐵路自動(dòng)票務(wù)中心、民航語(yǔ)音呼叫中心、郵政184自動(dòng)查詢系統(tǒng)等項(xiàng)目。其中,江蘇省諫壁電廠經(jīng)過(guò)嚴(yán)格測(cè)試,已決定使用機(jī)器人總機(jī)接線員,任何人都可以通過(guò)有線或無(wú)線電話用自然語(yǔ)言直接叫機(jī)器人接線員接通某人的手機(jī)、辦公室或家庭電話。
相信,隨著ViaVoice Telephony技術(shù)在通信、金融、旅游以及醫(yī)療等領(lǐng)域的進(jìn)一步推廣和應(yīng)用,人們的生活必將更加多姿多彩。
摘自《中國(guó)計(jì)算機(jī)用戶》2000年1月31日
IBM推出Linux版本的ViaVoice 2002-01-30 |
Intel推出語(yǔ)音軟件項(xiàng)目 2002-01-30 |
國(guó)內(nèi)電腦語(yǔ)音識(shí)別技術(shù)屢獲突破 2002-01-30 |
IBM公司舉行ViaVoice電話語(yǔ)音識(shí)別新技術(shù)發(fā)布會(huì) 2002-01-30 |
語(yǔ)音識(shí)別用于國(guó)內(nèi)呼叫中心 2002-01-30 |