首頁>>廠商>>語音識別與合成>> 北京無限商機(jī)

語音系統(tǒng)開發(fā)的新平臺:VoiceXML瀏覽器

張欣 2001/10/19

VoiceXML將語音交互引入了數(shù)據(jù)瀏覽的世界,使電話等以語音為主要形式的設(shè)備成為新型的網(wǎng)絡(luò)終端,其自然、簡單,具備了更為廣泛的普及性和友好性。本文對無限商機(jī)公司的VoiceXML語音瀏覽器的介紹,將幫助讀者進(jìn)一步了解它的功能和用途。

無限商機(jī)公司的VoiceXML語音瀏覽器是為解決用戶的多種需求而設(shè)計的,在實現(xiàn)過程中,分別設(shè)計了控制層、安全層、事務(wù)層、會話層和應(yīng)用層,并開放了除控制層之外的所有層的接口。

1.VoiceXML語音瀏覽器的組成部分

一個完整的VoiceXML語音瀏覽器,由VoiceXML 解析器、語音識別引擎、語音合成引擎、語音通道等幾個部分組成。

(1)VoiceXML 解析器

VoiceXML解析器是整個語音瀏覽器的核心部分,在語音瀏覽器中擔(dān)負(fù)控制中心的角色。VoiceXML解析器通過網(wǎng)絡(luò)協(xié)議,如HTTP協(xié)議等,獲取VoiceXML 腳本語言所描述的應(yīng)用文檔;解析該應(yīng)用文檔,解釋其中各個標(biāo)志,生成相應(yīng)的控制命令,控制其他部件進(jìn)行相應(yīng)的動作,并獲取結(jié)果;根據(jù)結(jié)果決定應(yīng)用的執(zhí)行方向和順序流。

(2)語音識別引擎

語音識別引擎是VoiceXML語音瀏覽器的生命力所在,它使計算機(jī)能理解用戶的語音命令,將產(chǎn)生的相應(yīng)的文字結(jié)果送回VoiceXML解析器進(jìn)行處理。

在VoiceXML語音瀏覽器中,語音識別引擎為命令式的識別引擎,其根據(jù)有限的語法來識別用戶的語音信號,產(chǎn)生對應(yīng)語法定義的識別結(jié)果。所以,語法便成為了VoiceXML語音瀏覽器中的重要概念。在VoiceXML語音瀏覽器中,語法決定了用戶能說什么、如何說。好的語法能帶給用戶良好的交互感覺,也能從邏輯上提高語音識別引擎的識別率,使整個語音應(yīng)用的瀏覽流暢而輕松。

在VoiceXML語音瀏覽器中,語音識別引擎不僅需要處理對用戶語音信號的識別,同時也需要處理對用戶按鍵的識別,按鍵和語音以同樣的機(jī)制被處理和傳遞。

(3)語音合成引擎

VoiceXML語音合成引擎可以將文字轉(zhuǎn)換成語音文件,也可以轉(zhuǎn)換成語音數(shù)據(jù)流,或者直接將事先錄制好的語音文件直接播放或以流的方式播放給語音通道。

語音合成引擎將文字轉(zhuǎn)化為聲音的品質(zhì),決定了用戶對系統(tǒng)的直接感覺。因此,如何提高語音合成引擎的合成品質(zhì),已成為影響語音應(yīng)用效果的重要因素。

(4)語音通道

語音通道是在VoiceXML語音瀏覽器中傳輸用戶語音數(shù)據(jù)信號和由合成引擎所產(chǎn)生的聲音數(shù)據(jù)信號的傳遞通道,它在物理上連接語音采集和播放設(shè)備、語音識別引擎的語音輸入端和語音合成引擎的語音輸出端。

在基于電信平臺的語音應(yīng)用系統(tǒng)中,語音通道的物理設(shè)備主要是語音卡、語音信道或是以數(shù)字編碼形式存在的虛擬通道,如IP的語音編碼數(shù)據(jù)包等;而在PC平臺上,聲卡則成為主要的語音通道。

對不同平臺的語音通道物理設(shè)備的支持,決定了VoiceXML語音瀏覽器是一個可實際應(yīng)用的平臺。

2.VoiceXML語音瀏覽器各部分的協(xié)作

VoiceXML語音瀏覽器的協(xié)作核心是VoiceXML解析器,其通過建立應(yīng)用和會話,獲取包含控制命令的文檔,根據(jù)文檔中的標(biāo)志建立對話,從而解釋各個對話,控制語音識別、語音合成引擎以及語音通道的觸發(fā)、開啟關(guān)閉和掛起等,實現(xiàn)與用戶的會話式的交互,并根據(jù)對用戶反饋的識別結(jié)果進(jìn)行導(dǎo)向判斷,進(jìn)行文檔之間的轉(zhuǎn)移和應(yīng)用之間的轉(zhuǎn)移。

3.VoiceXML語音瀏覽器的開放機(jī)制

在無限商機(jī)公司的VoiceXML語音瀏覽器中,對識別引擎和合成引擎進(jìn)行了開放性的接口設(shè)計,實現(xiàn)了與引擎無關(guān)的設(shè)計。根據(jù)此接口,開發(fā)商可以開發(fā)用于其他識別或合成引擎的封裝模塊,從而在無限商機(jī)的VoiceXML語音瀏覽器中使用其他的識別或合成引擎。其可建立于電話服務(wù)器、PC 、嵌入式設(shè)備中,支持國內(nèi)外語音卡,支持IP等語音信道。

無限商機(jī)公司VoiceXML語音瀏覽器中,所有開發(fā)接口是以CORBA規(guī)范設(shè)計的,開發(fā)商可以用各種編程語言,如C、C++、Java等,在不同的平臺和操作系統(tǒng)上實現(xiàn),從而實現(xiàn)對各種操作系統(tǒng)平臺的支持。并且,利用CORBA強(qiáng)大的分布式機(jī)制,整個VoiceXML語音瀏覽器可以建立于跨越各種物理平臺、操作系統(tǒng)之上的分布式網(wǎng)絡(luò)中。

4.在VoiceXML語音瀏覽器上開發(fā)語音應(yīng)用

在VoiceXML語音瀏覽器上開發(fā)語音應(yīng)用,如同開發(fā)Web應(yīng)用一樣輕松簡單,只需要有XML的知識,就可以開發(fā)VoiceXML應(yīng)用;赩oiceXML的語音應(yīng)用系統(tǒng),可以很好地與其他已有的Web 應(yīng)用系統(tǒng)或數(shù)據(jù)應(yīng)用系統(tǒng)實現(xiàn)良好結(jié)合。

在VoiceXML語音瀏覽器基礎(chǔ)上的應(yīng)用開發(fā),改變了傳統(tǒng)的CTI系統(tǒng)的開發(fā)概念。開發(fā)人員不必關(guān)心復(fù)雜的流程和模塊,不必為數(shù)據(jù)接口編寫程序模塊,不必重新建立已有系統(tǒng)的邏輯實現(xiàn),也不必一次次地重復(fù)某個模塊的開發(fā)。

計算機(jī)世界網(wǎng) 2001/10/19



相關(guān)鏈接:
融合通訊還有多遠(yuǎn)? 2003-04-15
我國語音互聯(lián)網(wǎng)產(chǎn)業(yè)的發(fā)展和統(tǒng)一標(biāo)準(zhǔn)規(guī)范VAP探討 2002-03-04
北京無限商機(jī) 2002-03-04
北郵UBO共建實驗室致力語音數(shù)據(jù)兩網(wǎng)融合 2002-01-23
企業(yè)服務(wù)新形象——UBO Tel-win智能總機(jī) 2001-12-20