世界上現(xiàn)在有十億的電話終端,另外,有超過(guò)2億的移動(dòng)電話已經(jīng)銷(xiāo)售到世界上。而就人的自身習(xí)慣來(lái)看,通過(guò)言談的交流,利用聽(tīng)和說(shuō)是人們更愿意接受的交流和獲取信息的方式。
移動(dòng)通信技術(shù)與數(shù)據(jù)通信的結(jié)合,提供給人們隨處接入網(wǎng)絡(luò)的可能,但是只有WAP才是我們構(gòu)建移動(dòng)商務(wù)的唯一平臺(tái)嗎?CTI技術(shù)的發(fā)展給我們提供了一條新的途徑。
經(jīng)過(guò)努力文本語(yǔ)音轉(zhuǎn)換器(TTS,Text to Speech)已經(jīng)取得了很大的進(jìn)步,實(shí)現(xiàn)了自動(dòng)的語(yǔ)言分析理解,并允許TTS的使用者增加更多的韻律、音調(diào)在講話中,使TTS系統(tǒng)的發(fā)聲更接近人聲。
在自動(dòng)語(yǔ)音識(shí)別系統(tǒng)(ASR)領(lǐng)域里,自動(dòng)語(yǔ)音識(shí)別系統(tǒng)在從整個(gè)詞的模仿匹配,向音素層次的識(shí)別系統(tǒng)方向發(fā)展。整個(gè)詞的模仿匹配系統(tǒng),或多或少要依賴(lài)講話者,而且只有很少的詞匯量。現(xiàn)在的做法是,自動(dòng)語(yǔ)音識(shí)別系統(tǒng)的詞匯表,由一個(gè)基于聲音片斷的字母表構(gòu)成。要指出的是,這種詞匯表是受不同語(yǔ)言限制的。基于這種方式,在一個(gè)寬廣的聲音行列里,講話能被識(shí)別系統(tǒng)發(fā)現(xiàn)和挑揀出來(lái),并加以識(shí)別。在識(shí)別一個(gè)詞的時(shí)候,每一個(gè)音素將從系統(tǒng)的輸入中挑揀出來(lái),拼接組合后與已經(jīng)有的音素和詞語(yǔ)模板進(jìn)行比較。而這樣的模板能夠非?斓谋籘TS產(chǎn)生出來(lái),也就是說(shuō)通過(guò)文字的輸入,來(lái)產(chǎn)生需要的模板,并且非常經(jīng)濟(jì)的被存儲(chǔ)起來(lái),F(xiàn)在許多系統(tǒng)甚至能夠支持識(shí)別模板的“熱插拔",比如說(shuō)將一個(gè)雇員的名字加入雇員識(shí)別系統(tǒng)的數(shù)據(jù)庫(kù),不用將整個(gè)系統(tǒng)停下來(lái)。
通過(guò)這些努力,音素的識(shí)別大大的減輕了ASR對(duì)講話者的依賴(lài)性,并且使得它非常容易去建立大型的和容易修改的語(yǔ)音識(shí)別字典,從而滿足不同應(yīng)用市場(chǎng)的需求。在這一方面取得成功以后,今天的開(kāi)發(fā)者正在加入更多的精密復(fù)雜的、智能的、高水平的語(yǔ)言學(xué)方面的處理到ASR系統(tǒng)中,同時(shí)在ASR中增加了對(duì)語(yǔ)言上下文環(huán)境的考慮。而通過(guò)鑒別輸入的文法結(jié)構(gòu)和前后關(guān)系,以及確定某些詞(詞窗)出現(xiàn)在談話中特定位置的概率并制定相應(yīng)的適用規(guī)則,將更加加強(qiáng)系統(tǒng)的精確性。
5月23日,萬(wàn)維網(wǎng)協(xié)會(huì)(World Wide Web Consortium,W3C)接受了語(yǔ)音可擴(kuò)展標(biāo)記語(yǔ)言(Voice Extensible Markup Language)規(guī)范1.0版(VoiceXML 1.0)作為實(shí)例。
VoiceXML源自于AT&T、IBM、Lucent和Motorola多年的研究和開(kāi)發(fā)。自從3月份VoiceXML 1.0 的發(fā)布,論壇成員已經(jīng)擴(kuò)展到150多家公司。
VoiceXML 1.0規(guī)范基于W3C的工業(yè)標(biāo)準(zhǔn)XML,為語(yǔ)音和電話應(yīng)用的開(kāi)發(fā)者、服務(wù)提供商和設(shè)備制造商提供了一個(gè)智能化的API。VoiceXML的標(biāo)準(zhǔn)化將簡(jiǎn)化Web上具有語(yǔ)音響應(yīng)服務(wù)的個(gè)性化界面的創(chuàng)建,使人們能夠通過(guò)語(yǔ)音和電話訪問(wèn)網(wǎng)站上的信息和服務(wù),像今天通過(guò)CGI腳本一樣檢索中心數(shù)據(jù)庫(kù),訪問(wèn)企業(yè)內(nèi)部網(wǎng),制造新的語(yǔ)音訪問(wèn)設(shè)備。
最終將語(yǔ)音瀏覽器與微型瀏覽器融合在一起,可以實(shí)現(xiàn)多種形式的交互性。比如一個(gè)旅行的應(yīng)用,使用者講出他的起始點(diǎn)和終點(diǎn)及其首選的航班時(shí)間,這些對(duì)于PDA來(lái)說(shuō)是非常不容易輸入的。融合的微型瀏覽器對(duì)輸入做出反應(yīng),給他一個(gè)航班選擇的菜單。他選擇預(yù)約的航班只需說(shuō)“第三個(gè)”……實(shí)現(xiàn)語(yǔ)音輸入,圖形界面輸出。
首先我們來(lái)看一看VoiceXML的模型。(見(jiàn)圖1)
一個(gè)文件服務(wù)器比如說(shuō)一個(gè)Web服務(wù)器,處理一個(gè)來(lái)自終端應(yīng)用的請(qǐng)求,這一請(qǐng)求經(jīng)過(guò)了VoiceXML解釋程序和VoiceXML解釋程序語(yǔ)境處理。作為響應(yīng),服務(wù)器產(chǎn)生出VoiceXML文件,在回復(fù)當(dāng)中,要經(jīng)過(guò)VoiceXML解釋程序的處理。
執(zhí)行平臺(tái)是被VoiceXML解釋程序語(yǔ)境和VoiceXML解釋程序控制的。例如,在一個(gè)交互式語(yǔ)音應(yīng)答應(yīng)用中,VoiceXML解釋程序語(yǔ)境能可靠的監(jiān)測(cè)到呼叫,獲得初始的VoiceXML文件,并且回答這一呼叫,在回答之后VoiceXML解釋程序引導(dǎo)這一對(duì)話。執(zhí)行平臺(tái)產(chǎn)生事件響應(yīng)用戶的動(dòng)作(說(shuō)話或者字符輸入)和系統(tǒng)事件(例如計(jì)時(shí)器溢出)。這些事件中的一部分依照相應(yīng)的VoiceXML文件按照VoiceXML解釋程序的解釋加以執(zhí)行,其他的被VoiceXML解釋程序語(yǔ)境控制。
VoiceXML解釋程序是一個(gè)計(jì)算機(jī)程序,它解釋一個(gè)VoiceXML文件,引導(dǎo)和控制用戶與執(zhí)行平臺(tái)之間的交互作用。VoiceXML解釋程序語(yǔ)境也是一個(gè)計(jì)算機(jī)程序,用一個(gè)VoiceXML解釋程序解釋一個(gè)VoiceXML文件,并且可以與執(zhí)行平臺(tái)相互作用而與VoiceXML解釋程序無(wú)關(guān)。
執(zhí)行平臺(tái),是指一個(gè)能支持VoiceXML定義的交互作用的計(jì)算機(jī),它上面要加載相應(yīng)的軟件和硬件,比如,ASR、TTS。
VoiceXML的主要目標(biāo)是要將Web上已經(jīng)有的大量應(yīng)用、豐富的內(nèi)容,讓交互式語(yǔ)音界面也能夠全部享受。而在這一過(guò)程中,VoiceXML希望能夠?qū)?yīng)用開(kāi)發(fā)人員們從最低級(jí)的編程和資源處理工作中解放出來(lái)。VoiceXML能夠利用人們已經(jīng)非常熟悉的客戶機(jī)/服務(wù)器方式,將語(yǔ)音服務(wù)和數(shù)據(jù)服務(wù)融合起來(lái)。
在這里一個(gè)語(yǔ)音服務(wù)被看作是用戶和執(zhí)行平臺(tái)之間所進(jìn)行的一系列交互式語(yǔ)音對(duì)話。對(duì)話由一個(gè)文件服務(wù)器來(lái)提供,文件服務(wù)器可能會(huì)是執(zhí)行平臺(tái)之外的一個(gè)設(shè)備。文件服務(wù)器提供了全部的服務(wù)邏輯、數(shù)據(jù)庫(kù)的訪問(wèn)、系統(tǒng)的運(yùn)行并且產(chǎn)生對(duì)話。在VoiceXML中,對(duì)話指的是一次交互式的作用,而用戶的操作已經(jīng)在VoiceXML文件中指定了。
一個(gè)VoiceXML文件指定每一個(gè)交互式的對(duì)話要被VoiceXML解釋程序所引導(dǎo)。用戶的輸入將影響對(duì)話的解釋?zhuān)脩舻妮斎胪瑫r(shí)將被收集成為請(qǐng)求,提交給文件服務(wù)器。文件服務(wù)器可能通過(guò)回答另一個(gè)VoiceXML文件讓用戶通過(guò)其他的對(duì)話繼續(xù)其會(huì)議。這里,會(huì)議指的是用戶和執(zhí)行平臺(tái)之間的聯(lián)系,像一個(gè)用戶和語(yǔ)音應(yīng)答系統(tǒng)的電話通信,一個(gè)會(huì)議會(huì)關(guān)聯(lián)到不下一個(gè)的VoiceXML文件。
作為一種標(biāo)記語(yǔ)言,VoiceXML要能夠做到:
1.通過(guò)每一文件里指定的多重的交互作用,最小化客戶機(jī)/服務(wù)器之間的交互工作。
2.實(shí)現(xiàn)應(yīng)用開(kāi)發(fā)者與低層的軟件和系統(tǒng)平臺(tái)上的軟、硬件細(xì)節(jié)無(wú)關(guān)。
3.將用戶交互作用的代碼(在VoiceXML中)從服務(wù)邏輯(CGI 腳本)中分離出來(lái)。
4.要使提供的服務(wù)能隨處可得,要求這些服務(wù)能夠跨越不同的執(zhí)行平臺(tái)。對(duì)于內(nèi)容服務(wù)商、工具提供商和平臺(tái)提供商來(lái)說(shuō),VoiceXML是一個(gè)公共語(yǔ)言。
5.使簡(jiǎn)單的交互作用非常易于使用,要求所提供的語(yǔ)音界面能支持復(fù)雜的對(duì)話。
雖然VoiceXML在努力的適應(yīng)多數(shù)的語(yǔ)音應(yīng)答服務(wù)的需求,但是作為那些要求非常嚴(yán)格的服務(wù),可能最好還是通過(guò)專(zhuān)門(mén)的應(yīng)用軟件來(lái)實(shí)現(xiàn),從而達(dá)到一個(gè)出色的控制水平。
VoiceXML語(yǔ)言描述的通過(guò)語(yǔ)音應(yīng)答系統(tǒng)實(shí)現(xiàn)人機(jī)交互通信,其范圍包括:合成語(yǔ)音的輸出(TTS)、音頻文件的輸出、話音輸入的識(shí)別、DTMF輸入的識(shí)別、語(yǔ)音輸入的錄音、電話功能像呼叫轉(zhuǎn)移等。
VoiceXML提供字符和語(yǔ)音輸入收集,將輸入分配給文件定義的請(qǐng)求變量,并且在用戶回答后做出決定的方法。VoiceXML確定文件可能被連接到其他的文件通過(guò)通用資源標(biāo)示符(URI)。
VoiceXML的語(yǔ)言使系統(tǒng)不必?fù)?dān)心有非常嚴(yán)重的計(jì)算、數(shù)據(jù)庫(kù)運(yùn)行壓力。這些被設(shè)定在文件解釋程序外執(zhí)行,比如專(zhuān)門(mén)的文件服務(wù)器。常規(guī)的服務(wù)邏輯、管理形態(tài)、會(huì)話產(chǎn)生和會(huì)話序列被設(shè)定在文件解釋程序之外。VoiceXML提供URI完成文件之間的連接,并且也用URI提交數(shù)據(jù)給服務(wù)器腳本。VoiceXML不需要文件作者明確分配和解除分配會(huì)話資源或者并行處理的情況。資源的分配和解除重新分配,以及并發(fā)線路處理的控制,由執(zhí)行平臺(tái)來(lái)完成。
執(zhí)行平臺(tái)應(yīng)該達(dá)到什么樣的要求才能支持VoiceXML解釋程序。
文件獲得:解釋程序語(yǔ)境被期待得到文件使VoiceXML解釋程序工作。在一些案例中,文件請(qǐng)求是產(chǎn)生自對(duì)VoiceXML文件的解釋的,其他請(qǐng)求是產(chǎn)生于VoiceXML范圍外的事件,比如說(shuō)一個(gè)打入的電話。
音頻的輸出:執(zhí)行平臺(tái)能用音頻文件或者TTS的方式提供音頻輸出。當(dāng)支持兩種方式時(shí),平臺(tái)必須能夠自由的編排TTS和音頻輸出。音頻文件是通過(guò)URI被調(diào)動(dòng)的,語(yǔ)言并沒(méi)有詳細(xì)的指定音頻文件的固定格式。
音頻的輸入:執(zhí)行平臺(tái)需要能同時(shí)發(fā)現(xiàn)并報(bào)告字符和會(huì)話的輸入,并且依靠一個(gè)計(jì)時(shí)器去控制輸入探測(cè)的間隔時(shí)間,這一定時(shí)器的長(zhǎng)度由VoiceXML文件所定義。音頻輸入必須能報(bào)告用戶通過(guò)字符(例如DTMF)的輸入情況。它必須能夠動(dòng)態(tài)接受語(yǔ)音識(shí)別語(yǔ)法的數(shù)據(jù)。一些是VoiceXML所必須包含的語(yǔ)法數(shù)據(jù);另一些涉及的講話語(yǔ)法數(shù)據(jù)通過(guò)一個(gè)URI獲得。講話的識(shí)別必須能夠達(dá)到根據(jù)語(yǔ)音輸入實(shí)現(xiàn)動(dòng)態(tài)的升級(jí)。語(yǔ)音輸入必須能夠從用戶那里錄下用戶講話的音頻信號(hào)。執(zhí)行平臺(tái)必須能夠使錄音成為一個(gè)系統(tǒng)的需求變量。
以下介紹幾個(gè)國(guó)外廠商的產(chǎn)品,但現(xiàn)在的ASR和TTS系統(tǒng)大多還不能支持中文。
IBM和Nokia公司建立聯(lián)盟的關(guān)系,共同研發(fā)以追趕移動(dòng)Internet所帶來(lái)的新需求。首先是,Nokia公司采用IBM的ViaVoice語(yǔ)音撥號(hào)簿。IBM分銷(xiāo)Nokia的WAP網(wǎng)關(guān),并且將它融入其普遍計(jì)算中間件中。
VoiceTIMES(Voice Technology Initiative for Mobile Enterprise Solutions)詳細(xì)定義了掌上數(shù)字錄音和語(yǔ)音識(shí)別應(yīng)用。這一想法是提升語(yǔ)音作為移動(dòng)設(shè)備的通用界面,無(wú)論是從數(shù)字錄音設(shè)備到移動(dòng)電話和PDA。IBM正在開(kāi)發(fā)VoiceXML的Web瀏覽器,提供一個(gè)語(yǔ)音的入口,用戶能夠接入一個(gè)Websphere Web應(yīng)用服務(wù)器,實(shí)現(xiàn)瀏覽一個(gè)書(shū)店,尋找書(shū)籍,獲得價(jià)格,瀏覽銀行,查詢銀行的帳務(wù),買(mǎi)書(shū)等應(yīng)用。
朗訊的解決方案包括自己的ASR、TTS引擎和自己的板卡引擎。
Lucent LTTS 3.0可以根據(jù)輸入的文字,轉(zhuǎn)換成英語(yǔ)、法語(yǔ)等多種語(yǔ)言,尚不支持中文。可以教系統(tǒng)講一些非常難的詞。LASR 3.0用做語(yǔ)音輸入和識(shí)別。LTTS 3.0是朗訊自己的無(wú)線數(shù)據(jù)服務(wù)器的一部分,基于此,移動(dòng)通信運(yùn)營(yíng)商可以提供統(tǒng)一消息、新聞、天氣預(yù)報(bào)的服務(wù)?梢允惯@些信息在HTTP、傳真、語(yǔ)音、電子郵件之間轉(zhuǎn)換,用傳真打印出圖形,用語(yǔ)音來(lái)讀出文件內(nèi)容。
朗訊的語(yǔ)音處理卡,可支持ISA/EISA、PCI和Compact PCI。其中支持ISA/EISA的語(yǔ)音處理卡,48M內(nèi)存,有T1接口,可升級(jí)支持5個(gè)T1,支持ASR、TTS。
朗訊最新發(fā)布的Lucent Speech Server已經(jīng)可以支持VoiceXML的應(yīng)用。該服務(wù)器使用朗訊公司自己的Compact PCI語(yǔ)音卡,可支持最多192個(gè)信道的語(yǔ)音識(shí)別,支持TTS等應(yīng)用,為運(yùn)營(yíng)商和OEM廠商服務(wù)。該服務(wù)器的首項(xiàng)應(yīng)用將用來(lái)運(yùn)行VoiceXML解釋程序。另外包括自動(dòng)服務(wù)員,呼叫屏幕服務(wù)(錄下來(lái)話者姓名,并播放給被叫用戶,詢問(wèn)是否接通,形成一個(gè)數(shù)據(jù)庫(kù),確定用戶希望接聽(tīng)的電話),個(gè)人智能助理服務(wù)等等。
作為最早支持VoiceXML的廠商之一,摩托羅拉最終希望的是通過(guò)三種途徑來(lái)訪問(wèn)Web:一種是通過(guò)普通PC機(jī)上的瀏覽器,第二種是通過(guò)手持設(shè)備(手機(jī))上的微型瀏覽器通過(guò)WAP來(lái)訪問(wèn),第三種是利用語(yǔ)音。
摩托羅拉的硬件設(shè)備是Vox網(wǎng)關(guān),既是一個(gè)ASR、TTS并且也是一個(gè)電話界面用來(lái)呈現(xiàn)VoxML(摩托羅拉的VoiceXML版本)。它充當(dāng)了電話和Internet文字之間進(jìn)行語(yǔ)音指令與服務(wù)翻譯的中介。語(yǔ)音網(wǎng)關(guān)服務(wù)器中內(nèi)置了語(yǔ)音瀏覽器,網(wǎng)關(guān)使用標(biāo)準(zhǔn)的Internet協(xié)議訪問(wèn)Internet。
同時(shí)摩托羅拉還提供一種移動(dòng)應(yīng)用開(kāi)發(fā)工具M(jìn)ADK。該工具使移動(dòng)應(yīng)用開(kāi)發(fā)能夠在單一開(kāi)發(fā)環(huán)境下創(chuàng)建多個(gè)終端用戶界面,VoxML的語(yǔ)音界面,WML的數(shù)據(jù)界面。在VoxML方面,包含有HTTP鏈接,便于仿真網(wǎng)絡(luò)接入VoxML的應(yīng)用;應(yīng)用仿真器負(fù)責(zé)管理基于代理的自動(dòng)語(yǔ)音識(shí)別ASR及TTS的合成引擎。通過(guò)MADK開(kāi)發(fā)出的應(yīng)用將運(yùn)行在摩托羅拉公司新的移動(dòng)互聯(lián)網(wǎng)交換平臺(tái)上(MIX,Mobile Internet Exchange)。
Nuance有自己的一套語(yǔ)音識(shí)別系統(tǒng),包括語(yǔ)音識(shí)別引擎和開(kāi)發(fā)工具,可以幫助第三方開(kāi)發(fā)者開(kāi)發(fā)應(yīng)用。
Nuance瀏覽器和可語(yǔ)音激活的服務(wù)器,叫做Voyager,F(xiàn)在,它比較類(lèi)似一個(gè)個(gè)人信息助手,用戶可以在一個(gè)電話中從一個(gè)站點(diǎn)瀏覽到另一個(gè)站點(diǎn),查時(shí)間表、預(yù)約晚飯餐桌、閱讀地圖接受駕駛向?qū)Х⻊?wù)。雖然其功能并不比一般的個(gè)人信息助手強(qiáng)很多,但是用戶對(duì)系統(tǒng)的輸入是通過(guò)ASR,系統(tǒng)的輸出是通過(guò)TTS,而一切都在VoiceXML的控制下。Voyager的ASR/TTS服務(wù)器將被銷(xiāo)往ISP和運(yùn)營(yíng)商。
V-Builder,是Nuance開(kāi)發(fā)的一種工具,用來(lái)將HTML開(kāi)發(fā)者轉(zhuǎn)變成為VoiceXML。V-Builder將作為語(yǔ)法轉(zhuǎn)換和提示紀(jì)錄的工具出現(xiàn)。
摘自《網(wǎng)絡(luò)世界》2000年6月5日
Computer Telephony Integration 2002-01-30 |
CTI技術(shù)在臺(tái)灣的發(fā)展 2002-01-30 |
軟交換、業(yè)務(wù)分析合力驅(qū)動(dòng)CTI'2001加速 2002-01-16 |
軟交換CTI發(fā)展的新方向 2001-11-13 |
CTI:展現(xiàn)融合的未來(lái) 2001-10-22 |