認清VoiceXML
黃偉峰 2001/11/22
隨著CTI(Computer and Telephone Integrated)技術(shù)和語音技術(shù)的發(fā)展,IBM,LUCENT,AT&T和MOTOROLA四大通信公司成立了VoiceXml(Voice Extensible Markup Language)的論壇,通過使用這種新的語言,能使用戶通過電話和語音來訪問INTERNET。這項技術(shù)能夠幫助企業(yè),電信公司,互連網(wǎng)公司增加網(wǎng)絡使用率,提高用戶忠誠度,開發(fā)新市場,增強企業(yè)的競爭力。
VoiceXml的起源
Voice XML 是一個新的 XML schema 用來制定通過語音對話訪問Web 的內(nèi)容和其交互語音應答的傳遞標準。在 1999
年初,IBM, 摩托羅拉, 朗訊, 和 AT&T 成立了 Voice XML 論壇, 來協(xié)調(diào)現(xiàn)有的語音技術(shù)使得可以通過聲音和電話訪問因特網(wǎng)。語音技術(shù)不但讓那些由于環(huán)境或生理限制無法使用圖形化瀏覽器的人得以訪問
Web,也為所有的用戶提供了更為便捷的 Web 訪問功能。
新的語音技術(shù)可以創(chuàng)建出對話驅(qū)動的應用程序,例如語音識別技術(shù)(ASR),語音合成技術(shù)(TTS)以及記錄和回放數(shù)字化語音在 PC 和服務器(分發(fā)到客戶端設備)上
。Voice XML 提供了一種與技術(shù)語言,可無關的以用在語音應用程序。這些應用程序?qū)⒑蠖颂幚碚Z音的服務和處理機制與前端基于 Voice
XML 的表示層分離開。例如,一個精心設計的 Web 站點可以輕而易舉地支持語音驅(qū)動的瀏覽器(比如您很可能在移動電話上會使用的那種),同時它有能支持其它的瀏覽器(比如一個
WAP 瀏覽器或 HTML 瀏覽器)。當接受到來自瀏覽器的最初請求時,服務器將監(jiān)測出瀏覽器的類型。如果瀏覽器被確認為一個語音瀏覽器,服務器將返回對應的
Voice XML 頁面。
由于VoiveXml技術(shù)和語音技術(shù)的快速發(fā)展,已經(jīng)有超過150個公司和組織加入和Voice Xml(http://www.voicexml.org)論壇,其中包括一些非常有名的通信公司,如AT&T,
LUCENT, MOTOROLA, ALCATEL,CISCO,HITACHI,以及我國的華為通信公司。
VoiceXml的系統(tǒng)結(jié)構(gòu)及其應用舉例
VoiceXml 1.0規(guī)范基于W3C的工業(yè)標準XML,為語音和電話應用的開發(fā)者,服務提供商和設備制造商提供了一個智能化的API。VoiceXml的標準將簡化WEB上具有語音響音服務的個性化界面的創(chuàng)建,使人們能夠通過語音和電話訪問網(wǎng)站上的信息和服務,同時與CGI(PERL,PHP,C,JAVA SERVLET等)的腳本結(jié)合在一起來檢索后臺數(shù)據(jù)庫,訪問企業(yè)內(nèi)部網(wǎng),從而最終將語音瀏覽器與微型瀏覽器融合在一起,實現(xiàn)計算機網(wǎng)絡與電話技術(shù)的完美結(jié)合。其具體系統(tǒng)結(jié)構(gòu)如下:
從圖中我們可以看出,同傳統(tǒng)的INTERNET網(wǎng)站相比,在不需要太大的改動前提下,只要增加一個VoiceXml的服務器處理來自PSTN的應用即可。在VoiceXml的服務器中,包含了VoiceXml的解釋器(VoiceXml解釋程序語境),VoiceXml自帶的瀏覽器,自動語音識別(ASR)及文本到語音(TTS)的轉(zhuǎn)換設備。
VoiceXml解釋程序是一個計算機程序,它解釋一個VoiceXml文件,引導和控制用戶與執(zhí)行平臺之間的交互作用。VoiceXml解釋程序語境也是一個計算機程序,用一個VoiceXml解釋程序解釋一個VoiceXml文件,并且可以與執(zhí)行平臺相互作用而與VoiceXml解釋程序無關。
其具體流程如下圖所示:
比如說,用戶想知道INTEL公司的當前股價,就打電話到提供該服務的公司,通過DN—URL的映射,到達了該網(wǎng)站的VOICEXML的服務器,VoiceXml的服務器馬上調(diào)出相應的VoiceXml文件,在由VoiceXml解釋程序處理,通過TTS產(chǎn)生語音輸出,來回復用戶的請求。當然,在處理VoiceXml文件的過程中,有時還需交給后臺的CGI程序處理,處理后的結(jié)果再由WEB SERVER交給VoiceXml SERVER處理。處理后用戶可能會聽到的回答是“Welcome to the stock market,which stock price would you like to know?”,其對應的VoiceXml文件為Welcome.vxml(見資源)。用戶只需回答他(她)所感興趣的股票,如”INTEL“,從而擺脫了傳統(tǒng)IVR令人模糊不清的一大堆選擇。這時用戶的回答通過VOICEXML SERVER的處理,交給后臺的CGI程序查詢數(shù)據(jù)庫中的有關INTEL股票的價格,在由VOICEXML SERVER的處理,用戶聽到的可能是”$55“。
VoiceXml的特點和應用范圍
VoiceXml作為一種標記語言,主要有以下特點:
。、VoiceXml作為一種通過每一文件里指定的多重的交互作用,最小化客戶機/服務器之間的交互工作
2、實現(xiàn)應用開發(fā)者與低層的軟件和系統(tǒng)平臺上的軟、硬件細節(jié)無關
。、將用戶交互作用的代碼(在VoiceXML中)從服務邏輯(CGI 腳本)中分離出來
。、要使提供的服務能隨處可得,要求這些服務能夠跨越不同的執(zhí)行平臺。對于內(nèi)容服務商、工具提供商和平臺提供商來說,VoiceXML是一個公共語言。
。、使簡單的交互作用非常易于使用,要求所提供的語音界面能支持復雜的對話
VoiceXML語言描述的通過語音應答系統(tǒng)實現(xiàn)人機交互通信,其范圍包括:合成語音的輸出(TTS)、音頻文件的輸出、話音輸入的識別、DTMF輸入的識別、語音輸入的錄音、電話功能像呼叫轉(zhuǎn)移等。
VoiceXML提供字符和語音輸入收集,將輸入分配給文件定義的請求變量,并且在用戶回答后做出決定的方法。VoiceXML確定文件可能被連接到其他的文件通過通用資源標示符(URI)。
VoiceXml在以下的領域內(nèi)有著廣泛的應用。
1、信息的獲取。如股票信息,天氣情況,體育消息,交通信息等。
2、電子交易(包括電子商務,電子零售)。如銀行的帳戶查詢,存取,股票交易等。
。场㈦娦蓬I域的服務。如UNIFIED MESSAGE,CALL CENTER(呼叫中心)等。
有關VoiceXml的部分產(chǎn)品介紹
1、IBM
IBM主要開發(fā)了VIAVOICE的VOICEXML的服務器,以及VOICEXML的開發(fā)包,從而能與WEBSPHERE結(jié)合,實現(xiàn)計算機網(wǎng)絡與電話的完美結(jié)合。但是該服務器只支持英語,法語和德語。
。病OTOROLA
MOTOROLA也有自己的VOICEXML的網(wǎng)關及開發(fā)VOICEXML的開發(fā)包。但是也不支持 中文。
。、NUANCE
NUANCE是一個專門開發(fā)語音的廠商。他有開發(fā)和構(gòu)架VOICEXML的一整套工具。其中包括VOICE WEB SERVER,V-Builder(開發(fā)VOICEXML的可使化工具),Secure
Verifier 。尤其是他對超過20種語言(包括中文及廣東話)的支持及其優(yōu)良的穩(wěn)定性贏得了很多市場分額,其中包括American
Airlines,Bell Atlantic,UPS等大公司都已成為他的客戶。
天極網(wǎng)
基于VoiceXML的可視化IVR系統(tǒng)設計和實現(xiàn)(一) 2009-09-22 |
VoiceXML刷新CTI的開發(fā)模式 2009-02-11 |
VoiceXML論壇官方認證平臺 2008-12-10 |
Voxeo Prophecy平臺開發(fā)VoiceXML應用 2008-11-20 |
基于VoiceXML的語音應用系統(tǒng)開發(fā) 2008-10-30 |