鞠婧祎视频,唐嫣罗晋结婚视频

用CTI實(shí)現(xiàn)與Web交談

世界上現(xiàn)在有十億的電話終端，另外，有超過(guò)2億的移動(dòng)電話已經(jīng)銷(xiāo)售到世界上。而就人的自身習(xí)慣來(lái)看，通過(guò)言談的交流，利用聽(tīng)和說(shuō)是人們更愿意接受的交流和獲取信息的方式。

移動(dòng)通信技術(shù)與數(shù)據(jù)通信的結(jié)合，提供給人們隨處接入網(wǎng)絡(luò)的可能，但是只有WAP才是我們構(gòu)建移動(dòng)商務(wù)的唯一平臺(tái)嗎？CTI技術(shù)的發(fā)展給我們提供了一條新的途徑。

CTI技術(shù)的進(jìn)步

經(jīng)過(guò)努力文本語(yǔ)音轉(zhuǎn)換器(TTS，Text to Speech)已經(jīng)取得了很大的進(jìn)步，實(shí)現(xiàn)了自動(dòng)的語(yǔ)言分析理解，并允許TTS的使用者增加更多的韻律、音調(diào)在講話中，使TTS系統(tǒng)的發(fā)聲更接近人聲。

在自動(dòng)語(yǔ)音識(shí)別系統(tǒng)（ASR）領(lǐng)域里，自動(dòng)語(yǔ)音識(shí)別系統(tǒng)在從整個(gè)詞的模仿匹配，向音素層次的識(shí)別系統(tǒng)方向發(fā)展。整個(gè)詞的模仿匹配系統(tǒng)，或多或少要依賴(lài)講話者，而且只有很少的詞匯量。現(xiàn)在的做法是，自動(dòng)語(yǔ)音識(shí)別系統(tǒng)的詞匯表，由一個(gè)基于聲音片斷的字母表構(gòu)成。要指出的是，這種詞匯表是受不同語(yǔ)言限制的。基于這種方式，在一個(gè)寬廣的聲音行列里，講話能被識(shí)別系統(tǒng)發(fā)現(xiàn)和挑揀出來(lái)，并加以識(shí)別。在識(shí)別一個(gè)詞的時(shí)候，每一個(gè)音素將從系統(tǒng)的輸入中挑揀出來(lái)，拼接組合后與已經(jīng)有的音素和詞語(yǔ)模板進(jìn)行比較。而這樣的模板能夠非�？斓谋籘TS產(chǎn)生出來(lái)，也就是說(shuō)通過(guò)文字的輸入，來(lái)產(chǎn)生需要的模板，并且非常經(jīng)濟(jì)的被存儲(chǔ)起來(lái)�，F(xiàn)在許多系統(tǒng)甚至能夠支持識(shí)別模板的“熱插拔"，比如說(shuō)將一個(gè)雇員的名字加入雇員識(shí)別系統(tǒng)的數(shù)據(jù)庫(kù)，不用將整個(gè)系統(tǒng)停下來(lái)。

通過(guò)這些努力，音素的識(shí)別大大的減輕了ASR對(duì)講話者的依賴(lài)性，并且使得它非常容易去建立大型的和容易修改的語(yǔ)音識(shí)別字典，從而滿足不同應(yīng)用市場(chǎng)的需求。在這一方面取得成功以后，今天的開(kāi)發(fā)者正在加入更多的精密復(fù)雜的、智能的、高水平的語(yǔ)言學(xué)方面的處理到ASR系統(tǒng)中，同時(shí)在ASR中增加了對(duì)語(yǔ)言上下文環(huán)境的考慮。而通過(guò)鑒別輸入的文法結(jié)構(gòu)和前后關(guān)系，以及確定某些詞（詞窗）出現(xiàn)在談話中特定位置的概率并制定相應(yīng)的適用規(guī)則，將更加加強(qiáng)系統(tǒng)的精確性。

VoiceXML所取得的成就

5月23日，萬(wàn)維網(wǎng)協(xié)會(huì)（World Wide Web Consortium，W3C）接受了語(yǔ)音可擴(kuò)展標(biāo)記語(yǔ)言（Voice Extensible Markup Language）規(guī)范1.0版（VoiceXML 1.0）作為實(shí)例。

VoiceXML源自于AT＆T、IBM、Lucent和Motorola多年的研究和開(kāi)發(fā)。自從3月份VoiceXML 1.0 的發(fā)布，論壇成員已經(jīng)擴(kuò)展到150多家公司。

VoiceXML 1.0規(guī)范基于W3C的工業(yè)標(biāo)準(zhǔn)XML，為語(yǔ)音和電話應(yīng)用的開(kāi)發(fā)者、服務(wù)提供商和設(shè)備制造商提供了一個(gè)智能化的API。VoiceXML的標(biāo)準(zhǔn)化將簡(jiǎn)化Web上具有語(yǔ)音響應(yīng)服務(wù)的個(gè)性化界面的創(chuàng)建，使人們能夠通過(guò)語(yǔ)音和電話訪問(wèn)網(wǎng)站上的信息和服務(wù)，像今天通過(guò)CGI腳本一樣檢索中心數(shù)據(jù)庫(kù)，訪問(wèn)企業(yè)內(nèi)部網(wǎng)，制造新的語(yǔ)音訪問(wèn)設(shè)備。

最終將語(yǔ)音瀏覽器與微型瀏覽器融合在一起，可以實(shí)現(xiàn)多種形式的交互性。比如一個(gè)旅行的應(yīng)用，使用者講出他的起始點(diǎn)和終點(diǎn)及其首選的航班時(shí)間，這些對(duì)于PDA來(lái)說(shuō)是非常不容易輸入的。融合的微型瀏覽器對(duì)輸入做出反應(yīng)，給他一個(gè)航班選擇的菜單。他選擇預(yù)約的航班只需說(shuō)“第三個(gè)”……實(shí)現(xiàn)語(yǔ)音輸入，圖形界面輸出。

什么是VoiceXML

首先我們來(lái)看一看VoiceXML的模型。(見(jiàn)圖1)

一個(gè)文件服務(wù)器比如說(shuō)一個(gè)Web服務(wù)器，處理一個(gè)來(lái)自終端應(yīng)用的請(qǐng)求，這一請(qǐng)求經(jīng)過(guò)了VoiceXML解釋程序和VoiceXML解釋程序語(yǔ)境處理。作為響應(yīng)，服務(wù)器產(chǎn)生出VoiceXML文件，在回復(fù)當(dāng)中，要經(jīng)過(guò)VoiceXML解釋程序的處理。

執(zhí)行平臺(tái)是被VoiceXML解釋程序語(yǔ)境和VoiceXML解釋程序控制的。例如，在一個(gè)交互式語(yǔ)音應(yīng)答應(yīng)用中，VoiceXML解釋程序語(yǔ)境能可靠的監(jiān)測(cè)到呼叫，獲得初始的VoiceXML文件，并且回答這一呼叫，在回答之后VoiceXML解釋程序引導(dǎo)這一對(duì)話。執(zhí)行平臺(tái)產(chǎn)生事件響應(yīng)用戶的動(dòng)作（說(shuō)話或者字符輸入）和系統(tǒng)事件（例如計(jì)時(shí)器溢出）。這些事件中的一部分依照相應(yīng)的VoiceXML文件按照VoiceXML解釋程序的解釋加以執(zhí)行，其他的被VoiceXML解釋程序語(yǔ)境控制。

VoiceXML解釋程序是一個(gè)計(jì)算機(jī)程序，它解釋一個(gè)VoiceXML文件，引導(dǎo)和控制用戶與執(zhí)行平臺(tái)之間的交互作用。VoiceXML解釋程序語(yǔ)境也是一個(gè)計(jì)算機(jī)程序，用一個(gè)VoiceXML解釋程序解釋一個(gè)VoiceXML文件，并且可以與執(zhí)行平臺(tái)相互作用而與VoiceXML解釋程序無(wú)關(guān)。

執(zhí)行平臺(tái)，是指一個(gè)能支持VoiceXML定義的交互作用的計(jì)算機(jī)，它上面要加載相應(yīng)的軟件和硬件，比如，ASR、TTS。

VoiceXML的主要目標(biāo)是要將Web上已經(jīng)有的大量應(yīng)用、豐富的內(nèi)容，讓交互式語(yǔ)音界面也能夠全部享受。而在這一過(guò)程中，VoiceXML希望能夠?qū)?yīng)用開(kāi)發(fā)人員們從最低級(jí)的編程和資源處理工作中解放出來(lái)。VoiceXML能夠利用人們已經(jīng)非常熟悉的客戶機(jī)/服務(wù)器方式，將語(yǔ)音服務(wù)和數(shù)據(jù)服務(wù)融合起來(lái)。

在這里一個(gè)語(yǔ)音服務(wù)被看作是用戶和執(zhí)行平臺(tái)之間所進(jìn)行的一系列交互式語(yǔ)音對(duì)話。對(duì)話由一個(gè)文件服務(wù)器來(lái)提供，文件服務(wù)器可能會(huì)是執(zhí)行平臺(tái)之外的一個(gè)設(shè)備。文件服務(wù)器提供了全部的服務(wù)邏輯、數(shù)據(jù)庫(kù)的訪問(wèn)、系統(tǒng)的運(yùn)行并且產(chǎn)生對(duì)話。在VoiceXML中，對(duì)話指的是一次交互式的作用，而用戶的操作已經(jīng)在VoiceXML文件中指定了。

一個(gè)VoiceXML文件指定每一個(gè)交互式的對(duì)話要被VoiceXML解釋程序所引導(dǎo)。用戶的輸入將影響對(duì)話的解釋?zhuān)脩舻妮斎胪瑫r(shí)將被收集成為請(qǐng)求，提交給文件服務(wù)器。文件服務(wù)器可能通過(guò)回答另一個(gè)VoiceXML文件讓用戶通過(guò)其他的對(duì)話繼續(xù)其會(huì)議。這里，會(huì)議指的是用戶和執(zhí)行平臺(tái)之間的聯(lián)系，像一個(gè)用戶和語(yǔ)音應(yīng)答系統(tǒng)的電話通信，一個(gè)會(huì)議會(huì)關(guān)聯(lián)到不下一個(gè)的VoiceXML文件。

作為一種標(biāo)記語(yǔ)言，VoiceXML要能夠做到：

1．通過(guò)每一文件里指定的多重的交互作用，最小化客戶機(jī)/服務(wù)器之間的交互工作。

2．實(shí)現(xiàn)應(yīng)用開(kāi)發(fā)者與低層的軟件和系統(tǒng)平臺(tái)上的軟、硬件細(xì)節(jié)無(wú)關(guān)。

3．將用戶交互作用的代碼（在VoiceXML中）從服務(wù)邏輯（CGI 腳本)中分離出來(lái)。

4．要使提供的服務(wù)能隨處可得，要求這些服務(wù)能夠跨越不同的執(zhí)行平臺(tái)。對(duì)于內(nèi)容服務(wù)商、工具提供商和平臺(tái)提供商來(lái)說(shuō)，VoiceXML是一個(gè)公共語(yǔ)言。

5．使簡(jiǎn)單的交互作用非常易于使用，要求所提供的語(yǔ)音界面能支持復(fù)雜的對(duì)話。

雖然VoiceXML在努力的適應(yīng)多數(shù)的語(yǔ)音應(yīng)答服務(wù)的需求，但是作為那些要求非常嚴(yán)格的服務(wù)，可能最好還是通過(guò)專(zhuān)門(mén)的應(yīng)用軟件來(lái)實(shí)現(xiàn)，從而達(dá)到一個(gè)出色的控制水平。

VoiceXML語(yǔ)言描述的通過(guò)語(yǔ)音應(yīng)答系統(tǒng)實(shí)現(xiàn)人機(jī)交互通信，其范圍包括：合成語(yǔ)音的輸出（TTS）、音頻文件的輸出、話音輸入的識(shí)別、DTMF輸入的識(shí)別、語(yǔ)音輸入的錄音、電話功能像呼叫轉(zhuǎn)移等。

VoiceXML提供字符和語(yǔ)音輸入收集，將輸入分配給文件定義的請(qǐng)求變量，并且在用戶回答后做出決定的方法。VoiceXML確定文件可能被連接到其他的文件通過(guò)通用資源標(biāo)示符（URI）。

VoiceXML的語(yǔ)言使系統(tǒng)不必?fù)?dān)心有非常嚴(yán)重的計(jì)算、數(shù)據(jù)庫(kù)運(yùn)行壓力。這些被設(shè)定在文件解釋程序外執(zhí)行，比如專(zhuān)門(mén)的文件服務(wù)器。常規(guī)的服務(wù)邏輯、管理形態(tài)、會(huì)話產(chǎn)生和會(huì)話序列被設(shè)定在文件解釋程序之外。VoiceXML提供URI完成文件之間的連接，并且也用URI提交數(shù)據(jù)給服務(wù)器腳本。VoiceXML不需要文件作者明確分配和解除分配會(huì)話資源或者并行處理的情況。資源的分配和解除重新分配，以及并發(fā)線路處理的控制，由執(zhí)行平臺(tái)來(lái)完成。

執(zhí)行平臺(tái)應(yīng)該達(dá)到什么樣的要求才能支持VoiceXML解釋程序。

文件獲得：解釋程序語(yǔ)境被期待得到文件使VoiceXML解釋程序工作。在一些案例中，文件請(qǐng)求是產(chǎn)生自對(duì)VoiceXML文件的解釋的，其他請(qǐng)求是產(chǎn)生于VoiceXML范圍外的事件，比如說(shuō)一個(gè)打入的電話。

音頻的輸出：執(zhí)行平臺(tái)能用音頻文件或者TTS的方式提供音頻輸出。當(dāng)支持兩種方式時(shí)，平臺(tái)必須能夠自由的編排TTS和音頻輸出。音頻文件是通過(guò)URI被調(diào)動(dòng)的，語(yǔ)言并沒(méi)有詳細(xì)的指定音頻文件的固定格式。

音頻的輸入：執(zhí)行平臺(tái)需要能同時(shí)發(fā)現(xiàn)并報(bào)告字符和會(huì)話的輸入，并且依靠一個(gè)計(jì)時(shí)器去控制輸入探測(cè)的間隔時(shí)間，這一定時(shí)器的長(zhǎng)度由VoiceXML文件所定義。音頻輸入必須能報(bào)告用戶通過(guò)字符（例如DTMF）的輸入情況。它必須能夠動(dòng)態(tài)接受語(yǔ)音識(shí)別語(yǔ)法的數(shù)據(jù)。一些是VoiceXML所必須包含的語(yǔ)法數(shù)據(jù)；另一些涉及的講話語(yǔ)法數(shù)據(jù)通過(guò)一個(gè)URI獲得。講話的識(shí)別必須能夠達(dá)到根據(jù)語(yǔ)音輸入實(shí)現(xiàn)動(dòng)態(tài)的升級(jí)。語(yǔ)音輸入必須能夠從用戶那里錄下用戶講話的音頻信號(hào)。執(zhí)行平臺(tái)必須能夠使錄音成為一個(gè)系統(tǒng)的需求變量。

產(chǎn)品篇

以下介紹幾個(gè)國(guó)外廠商的產(chǎn)品，但現(xiàn)在的ASR和TTS系統(tǒng)大多還不能支持中文。

IBM

IBM和Nokia公司建立聯(lián)盟的關(guān)系，共同研發(fā)以追趕移動(dòng)Internet所帶來(lái)的新需求。首先是，Nokia公司采用IBM的ViaVoice語(yǔ)音撥號(hào)簿。IBM分銷(xiāo)Nokia的WAP網(wǎng)關(guān)，并且將它融入其普遍計(jì)算中間件中。

VoiceTIMES(Voice Technology Initiative for Mobile Enterprise Solutions)詳細(xì)定義了掌上數(shù)字錄音和語(yǔ)音識(shí)別應(yīng)用。這一想法是提升語(yǔ)音作為移動(dòng)設(shè)備的通用界面，無(wú)論是從數(shù)字錄音設(shè)備到移動(dòng)電話和PDA。IBM正在開(kāi)發(fā)VoiceXML的Web瀏覽器，提供一個(gè)語(yǔ)音的入口，用戶能夠接入一個(gè)Websphere Web應(yīng)用服務(wù)器，實(shí)現(xiàn)瀏覽一個(gè)書(shū)店，尋找書(shū)籍，獲得價(jià)格，瀏覽銀行，查詢銀行的帳務(wù)，買(mǎi)書(shū)等應(yīng)用。

朗訊

朗訊的解決方案包括自己的ASR、TTS引擎和自己的板卡引擎。

Lucent LTTS 3.0可以根據(jù)輸入的文字，轉(zhuǎn)換成英語(yǔ)、法語(yǔ)等多種語(yǔ)言，尚不支持中文。可以教系統(tǒng)講一些非常難的詞。LASR 3.0用做語(yǔ)音輸入和識(shí)別。LTTS 3.0是朗訊自己的無(wú)線數(shù)據(jù)服務(wù)器的一部分，基于此，移動(dòng)通信運(yùn)營(yíng)商可以提供統(tǒng)一消息、新聞、天氣預(yù)報(bào)的服務(wù)�？梢允惯@些信息在HTTP、傳真、語(yǔ)音、電子郵件之間轉(zhuǎn)換，用傳真打印出圖形，用語(yǔ)音來(lái)讀出文件內(nèi)容。

朗訊的語(yǔ)音處理卡，可支持ISA/EISA、PCI和Compact PCI。其中支持ISA/EISA的語(yǔ)音處理卡，48M內(nèi)存，有T1接口，可升級(jí)支持5個(gè)T1，支持ASR、TTS。

朗訊最新發(fā)布的Lucent Speech Server已經(jīng)可以支持VoiceXML的應(yīng)用。該服務(wù)器使用朗訊公司自己的Compact PCI語(yǔ)音卡，可支持最多192個(gè)信道的語(yǔ)音識(shí)別，支持TTS等應(yīng)用，為運(yùn)營(yíng)商和OEM廠商服務(wù)。該服務(wù)器的首項(xiàng)應(yīng)用將用來(lái)運(yùn)行VoiceXML解釋程序。另外包括自動(dòng)服務(wù)員，呼叫屏幕服務(wù)（錄下來(lái)話者姓名，并播放給被叫用戶，詢問(wèn)是否接通，形成一個(gè)數(shù)據(jù)庫(kù)，確定用戶希望接聽(tīng)的電話），個(gè)人智能助理服務(wù)等等。

摩托羅拉

作為最早支持VoiceXML的廠商之一，摩托羅拉最終希望的是通過(guò)三種途徑來(lái)訪問(wèn)Web：一種是通過(guò)普通PC機(jī)上的瀏覽器，第二種是通過(guò)手持設(shè)備（手機(jī)）上的微型瀏覽器通過(guò)WAP來(lái)訪問(wèn)，第三種是利用語(yǔ)音。

摩托羅拉的硬件設(shè)備是Vox網(wǎng)關(guān)，既是一個(gè)ASR、TTS并且也是一個(gè)電話界面用來(lái)呈現(xiàn)VoxML（摩托羅拉的VoiceXML版本）。它充當(dāng)了電話和Internet文字之間進(jìn)行語(yǔ)音指令與服務(wù)翻譯的中介。語(yǔ)音網(wǎng)關(guān)服務(wù)器中內(nèi)置了語(yǔ)音瀏覽器，網(wǎng)關(guān)使用標(biāo)準(zhǔn)的Internet協(xié)議訪問(wèn)Internet。

同時(shí)摩托羅拉還提供一種移動(dòng)應(yīng)用開(kāi)發(fā)工具M(jìn)ADK。該工具使移動(dòng)應(yīng)用開(kāi)發(fā)能夠在單一開(kāi)發(fā)環(huán)境下創(chuàng)建多個(gè)終端用戶界面，VoxML的語(yǔ)音界面，WML的數(shù)據(jù)界面。在VoxML方面，包含有HTTP鏈接，便于仿真網(wǎng)絡(luò)接入VoxML的應(yīng)用；應(yīng)用仿真器負(fù)責(zé)管理基于代理的自動(dòng)語(yǔ)音識(shí)別ASR及TTS的合成引擎。通過(guò)MADK開(kāi)發(fā)出的應(yīng)用將運(yùn)行在摩托羅拉公司新的移動(dòng)互聯(lián)網(wǎng)交換平臺(tái)上（MIX，Mobile Internet Exchange）。

Nuance

Nuance有自己的一套語(yǔ)音識(shí)別系統(tǒng)，包括語(yǔ)音識(shí)別引擎和開(kāi)發(fā)工具，可以幫助第三方開(kāi)發(fā)者開(kāi)發(fā)應(yīng)用。

Nuance瀏覽器和可語(yǔ)音激活的服務(wù)器，叫做Voyager�，F(xiàn)在，它比較類(lèi)似一個(gè)個(gè)人信息助手，用戶可以在一個(gè)電話中從一個(gè)站點(diǎn)瀏覽到另一個(gè)站點(diǎn)，查時(shí)間表、預(yù)約晚飯餐桌、閱讀地圖接受駕駛向?qū)Х⻊?wù)。雖然其功能并不比一般的個(gè)人信息助手強(qiáng)很多，但是用戶對(duì)系統(tǒng)的輸入是通過(guò)ASR，系統(tǒng)的輸出是通過(guò)TTS，而一切都在VoiceXML的控制下。Voyager的ASR/TTS服務(wù)器將被銷(xiāo)往ISP和運(yùn)營(yíng)商。

V－Builder，是Nuance開(kāi)發(fā)的一種工具，用來(lái)將HTML開(kāi)發(fā)者轉(zhuǎn)變成為VoiceXML。V－Builder將作為語(yǔ)法轉(zhuǎn)換和提示紀(jì)錄的工具出現(xiàn)。

摘自《網(wǎng)絡(luò)世界》2000年6月5日

CTI技術(shù)在臺(tái)灣的發(fā)展 2002-01-30

軟交換、業(yè)務(wù)分析合力驅(qū)動(dòng)CTI'2001加速 2002-01-16

軟交換CTI發(fā)展的新方向 2001-11-13

CTI：展現(xiàn)融合的未來(lái) 2001-10-22

分類(lèi)信息: 技術(shù)_CTI平臺(tái)_文摘