首頁>>廠商>>語音識別與合成>> 北京無限商機

中文VoiceXML語音瀏覽器白皮書

2001/11/12

一 前言

以互聯(lián)網(wǎng)為代表的信息產(chǎn)業(yè)為中國帶來了巨大的機會和挑戰(zhàn),中國已開始進入一個以信息為核心的時代。如何快速準確地獲取所關(guān)心的信息,對人們的日常工作和生活已起到越來越重要的影響。

計算機作為互聯(lián)網(wǎng)絡(luò)的一種重要的信息終端,是目前人們從互聯(lián)網(wǎng)上獲取信息的主要工具。然而,由于傳統(tǒng)的上網(wǎng)方式限制了互聯(lián)網(wǎng)的上網(wǎng)人數(shù),互聯(lián)網(wǎng)的訪問模式逐漸從單一的訪問方式向多種用戶終端發(fā)展 ,如:電話、移動電話、PDA等。在當今科技飛速發(fā)展的地區(qū),語音上網(wǎng)成為繼無線WAP上網(wǎng)之后的又一個發(fā)展熱點。人們喜歡用人類自然的語音,通過友好的語音交互方式直接來獲取信息和服務(wù)。1999年 ,Evans Group Research對250個使用不同語音系統(tǒng)的用戶進行調(diào)查,調(diào)查的結(jié)果反饋和分析表明:對語音系統(tǒng)和按鍵式系統(tǒng)的使用受歡迎程度,83%的用戶更喜歡使用語音系統(tǒng)而不是使用按鍵式系統(tǒng);而對于使用語音驅(qū)動系統(tǒng)和與坐席進行通話,74%的用戶更傾向于前者。近年來語音技術(shù)的快速發(fā)展和不斷成熟,以及中文語音應(yīng)用技術(shù)的突破,為信息網(wǎng)絡(luò)帶來了一種極具誘惑的信息終端----電話。

電話在中國是最為普及的通信工具,相對現(xiàn)今不到2000 萬的互聯(lián)網(wǎng)電腦終端用戶來說,高達2 億的電話用戶具有更為重要的意義。據(jù)預(yù)測到2001 年,全球?qū)⒂?0 億多部電話投入使用,而移動電話用戶將達到5 億人。在中國,移動電話和固定電話的用戶將達到分別為6500萬和1.4億。而語音應(yīng)用技術(shù),為中國百姓建立了一條輕松通達信息時代的高速公路,將信息科技以最為親切的方式帶到了人們身邊。

語音,作為人類最原始、最自然、最人性化,也是最有效的交流方式,正以其不可阻擋的強勁勢頭融入到互聯(lián)網(wǎng)中。在國外市場,以Tellme.com和Nuance 、SpeechWorks為代表的企業(yè)異軍突起 ,倡導(dǎo)人性化的語音上網(wǎng)服務(wù)。隨后Yahoo、Lycos等著名互聯(lián)網(wǎng)公司紛紛進入相應(yīng)的服務(wù)領(lǐng)域,建立大規(guī)模的語音門戶網(wǎng)站,而AOL則提供所謂AOL-By-Phone服務(wù)。

從技術(shù)角度看,語音識別(ASR)技術(shù)、文語轉(zhuǎn)換(TTS)技術(shù)已經(jīng)從實驗室逐步走向成熟,其算法的復(fù)雜性也逐年下降,從而使這些技術(shù)逐步在市場中得以應(yīng)用;另一方面,計算機的運算能力每兩年就翻一番,也為這些技術(shù)的商業(yè)應(yīng)用奠定了堅實的基礎(chǔ);再加上移動用戶終端的種類與功能也在以前所未有的速度增長;所有這些技術(shù)的發(fā)展都為基于語音的互聯(lián)網(wǎng)門戶的發(fā)展提供的可靠的保證。

而這一切實現(xiàn)的關(guān)鍵是成熟的語音技術(shù)、龐大的互聯(lián)網(wǎng)絡(luò)、交互的通訊網(wǎng)絡(luò)、以及把它們結(jié)合在一起的關(guān)鍵技術(shù):語音瀏覽技術(shù)。

二 語音技術(shù)

語音,是人們最為熟悉也最為簡單的一種交流方式。語音是人們詢問問題、交換觀念、分享經(jīng)驗、建立關(guān)系的最主要方式,人類通過語言來傳達著大量的信息。

1、語音識別與語音合成

語音技術(shù)在計算機領(lǐng)域中的關(guān)鍵技術(shù):語音識別技術(shù)(ASR :Automatic Speech Recognition )和語音合成技術(shù)(TTS :Text to Speech )。語音識別技術(shù),是指將人說話的語音信號轉(zhuǎn)換為可被計算機程序所識別的文字信息,從而識別說話人的語音指令以及文字內(nèi)容的技術(shù)。而語音合成技術(shù),是指將文字信息轉(zhuǎn)變?yōu)檎Z音數(shù)據(jù),以語音的方式播放出來的技術(shù)。

電話的出現(xiàn)已經(jīng)有120多年的歷史,而使用在商業(yè)應(yīng)用上相關(guān)的語音識別和語音合成最近幾十年才開始進行研究。事實上,一直到90年代中期基于電話并且提供大量的詞匯、使用者不需要經(jīng)過任何的培訓(xùn)的語音識別軟件才出現(xiàn)。目前語音識別和語音合成技術(shù)目前已成為一項實用性的技術(shù)。語音識別系統(tǒng)能支持自然的習慣用語,例如“I wanna buy 33 shares of 3com at the market"。另外優(yōu)秀的語音識別技術(shù),在無須訓(xùn)練的情況下,能夠以高達95%的識別率識別人的語音命令,并實現(xiàn)了多種語言、多種口音與說話人無關(guān)的連續(xù)語音識別。而語音聽寫也已成為一種新的文字輸入技術(shù)被人們使用。在語音合成技術(shù)上,已經(jīng)能夠?qū)崿F(xiàn)自然、流暢、智能型的文字合成。

2、語音應(yīng)用技術(shù)的核心:語音瀏覽技術(shù)

語音應(yīng)用技術(shù)(Voice Application Technology ),是指人們可以使用電話或移動電話,以及PC 、PDA 和其它智能設(shè)備通過語音識別、語音合成的交互技術(shù),以及語音瀏覽、智能信息處理技術(shù)等實現(xiàn)人們訪問互聯(lián)網(wǎng)絡(luò)、實現(xiàn)個人服務(wù)和商業(yè)服務(wù)的應(yīng)用技術(shù)。

語音應(yīng)用技術(shù),是語音技術(shù)(ASR 和TTS )、語音瀏覽技術(shù)、智能文字信息處理技術(shù)等技術(shù)的集合,其形成一個完整的技術(shù)應(yīng)用規(guī)范體系,建立于已有的相關(guān)技術(shù)協(xié)議標準上,著重于應(yīng)用開發(fā)。

語音應(yīng)用技術(shù)是跨接在以語音為核心的電話網(wǎng)絡(luò)和以數(shù)據(jù)為核心的互聯(lián)網(wǎng)絡(luò)兩者之間的一座橋梁,電話和移動電話成為了互聯(lián)網(wǎng)絡(luò)的信息終端,為人們以自然語言交互的方式來遨游信息世界打開了一扇自由的大門。

語音應(yīng)用技術(shù),使人們可以自由的以對話(Dialog)方式與機器和遠端語音服務(wù)器交談,以語音的方式命令機器為自己服務(wù)。這是人類長久以來的夢想,而這個夢想正是通過語音瀏覽技術(shù)而得以實現(xiàn)。

語音瀏覽技術(shù),類似于互聯(lián)網(wǎng)上的Web 瀏覽技術(shù),它以一種XML 標記語言為數(shù)據(jù)載體,通過各種網(wǎng)絡(luò)數(shù)據(jù)傳輸協(xié)議,而以Client/Server 的方式為語音瀏覽器所解析,通過語音的方式呈現(xiàn)給用戶。這類似于Web 與 IE 瀏覽器的概念,只不過IE 以圖象的方式在顯示器上將信息呈現(xiàn)出來,而語音瀏覽器以語音的方式在電話、手機或其它語音手持設(shè)備的通道中呈現(xiàn)。IE 接受用戶的鼠標和鍵盤指令,而語音瀏覽器接受用戶的說話為指令。

3、語音應(yīng)用技術(shù)的優(yōu)勢

為何語音應(yīng)用技術(shù)對于互聯(lián)網(wǎng)絡(luò),對于信息技術(shù)如此重要?首先,人類的自然語音通過電話能夠被識別和理解,那么電話將無疑是最適合的一種工具用來提供大多數(shù)用戶在互聯(lián)網(wǎng)上所需求的信息和服務(wù)。尤其是在中國,電話相對計算機而言電話更是人們?nèi)粘I钪凶钇占暗脑O(shè)備。

在最近5年以來,互聯(lián)網(wǎng)作為信息傳輸?shù)囊环N新興的媒體而使整個世界發(fā)生了根本性的改變,現(xiàn)在全球大約有2億個用戶使用互聯(lián)網(wǎng)作為他們在日常生活中必不可少的一部份,用戶通過互聯(lián)網(wǎng)能得到他們所想要的便利、娛樂以及提高他們的工作效率。

互聯(lián)網(wǎng)無疑又是誘人的。因為互聯(lián)網(wǎng)提供了大量的各種各樣的實用信息,但是要獲得這些信息并不是隨處可得,用戶必須在家里或辦公室通過電腦聯(lián)網(wǎng)來獲得這些信息。這對于在一個信息快速更新的社會并不是一件令人高興的事情。所以消費者對于互聯(lián)網(wǎng)內(nèi)容和信息的大量需求促使各種生產(chǎn)廠商設(shè)計出各種各樣的產(chǎn)品,如PDA、手機等這些可隨身攜帶又能直接與網(wǎng)絡(luò)互聯(lián)的產(chǎn)品。PALM的手持設(shè)備和WAP蜂窩電話等目前是最流行也是最符合要求的典型例子。

這些設(shè)備的快速發(fā)展促使通過手持設(shè)備和手機來訪問互聯(lián)網(wǎng)的內(nèi)容是可實現(xiàn)的。另外,隨著移動電話越來越小,越來越輕,越來越便宜,以及移動電話電池使用時間越來越長,其所具備的便攜性遠勝于電腦。而伴隨移動通信技術(shù)的飛速發(fā)展,他們更具備了電腦不具備的優(yōu)勢,比如全球定位。你甚至可以在開車時方便的使用移動電話,甚至在不久的將來使用車載電話,通過車載電話來尋找相關(guān)的信息。

電信的增值服務(wù)改變了用戶無論在何地、何時都能直接訪問互聯(lián)網(wǎng)的內(nèi)容是激動人心的。但個性化的服務(wù)可使個人和商務(wù)快速獲得和容易訪問他們所關(guān)心的內(nèi)容和信息。因而語音技術(shù)的出現(xiàn)改變了電話的應(yīng)用范圍,從而使電話成為從網(wǎng)絡(luò)媒體上得到語音和數(shù)據(jù)信息的一種最便利的設(shè)備之一。

雖然曾經(jīng)在移動電話中出現(xiàn)了WAP 這樣有用的技術(shù),使移動電話可以作為網(wǎng)絡(luò)終端,而基于文本的互聯(lián)網(wǎng)的內(nèi)容也是非常有用的,但緩慢的傳輸速度和與互聯(lián)網(wǎng)連接的困難以及這些設(shè)備的小屏幕都限制了這些設(shè)備的使用價值。

語音具有其無以倫比的獨特的優(yōu)勢,而且語音比鍵盤和閱讀更具有親切感。當然,圖象和文字依然很重要,我們相信,我們不久就可以見到“多模式”的設(shè)備,可以以圖象和文字的方式進行,或以語音的方式進行,甚至可以混合語音和圖象信息。而這正是語音應(yīng)用技術(shù)帶來的美好前景。

同樣,語音對于Internet 也一樣重要。首先,基于語音瀏覽技術(shù)的語音應(yīng)用系統(tǒng)的開發(fā)很容易,應(yīng)用語音應(yīng)用技術(shù)可以輕松建立豐富的、廉價的和高效的Web 應(yīng)用,以及其開發(fā)工具。其次,語音應(yīng)用系統(tǒng)很容易發(fā)布,不再需要建立一個指定的專用的語音服務(wù)器,基于語音瀏覽機制的語音應(yīng)用可以放在Internet 上的任意一個地方,而用戶通過電話,可以象使用IE 這樣的瀏覽器一樣進行查詢、書簽以及鏈接等其他Web 的瀏覽方式。

語音自然交互更具有其它信息終端不具備的優(yōu)勢,利用自然語音交互技術(shù),用戶不再需要一項一項的填寫Web 的Form 表單,不再需要痛苦的在小小的手機鍵盤上換著數(shù)字輸入名字和E-mail 地址;陉P(guān)鍵字捕捉和自然語言處理技術(shù),用戶進入個人界面后可以輕松的說一句:“股票信息, 深發(fā)展 ”,相應(yīng)地計算機回應(yīng)“深發(fā)展”當前的有關(guān)信息,一切輕松自然而又隨意。

三 網(wǎng)絡(luò)與數(shù)據(jù)

1、語音瀏覽:建立于網(wǎng)絡(luò)與語音通訊之間的橋梁

Internet 的飛速發(fā)展和廣泛應(yīng)用,很大程度上是建立于 WEB 瀏覽機制的成功之上。正是因為 Client/Server 的結(jié)構(gòu)和HTML 腳本標記語言和http 等有效傳輸協(xié)議的結(jié)合,使Internet 具有了最為強大的分布/集中訪問結(jié)構(gòu),以及簡單的應(yīng)用開發(fā)機制。可以說,瀏覽是網(wǎng)絡(luò)的核心。

對于語音應(yīng)用來說,以往的語音應(yīng)用建立于簡單的、封閉的交互機制上。其數(shù)據(jù)來源基本上完全依靠事先的預(yù)制錄音,操作流程為簡單的菜單式按鍵選擇。

隨著語音識別、語音合成等新的人機交互方式的成熟應(yīng)用,傳統(tǒng)的 CTI系統(tǒng)具備了新的交互能力。而語音瀏覽正是為適應(yīng)這種新的交互方式和Internet 應(yīng)用的結(jié)合而誕生的。語音瀏覽使傳統(tǒng)的簡單的電話機成為了一種功能強大且操作簡單的數(shù)據(jù)訪問終端,將數(shù)據(jù)和交互建立于Internet 瀏覽結(jié)構(gòu)之上,從而使電話機這樣簡單的設(shè)備可以比其它網(wǎng)絡(luò)終端更為容易和方便的暢游Internet 。

語音瀏覽,其類同于我們所熟悉的Internet 與客戶端計算機之間的瀏覽機制。從而將龐大的最為普及的語音通訊網(wǎng)絡(luò)有機的融入了豐富的Internet 中,使建立于數(shù)據(jù)網(wǎng)絡(luò)之上的廣大應(yīng)用得到了最廣泛的延伸。

2、基于XML 的數(shù)據(jù)瀏覽技術(shù)

Internet 的核心是瀏覽,基于HTML腳本描述語言的Web 的瀏覽機制的應(yīng)用是Internet 廣泛普及的基礎(chǔ)。

而一種新的腳本描述語言:XML 的出現(xiàn),為數(shù)據(jù)瀏覽技術(shù)帶來了一種全新的概念。XML 標記語言,將以往的HTML 之類的標記語言所關(guān)注于數(shù)據(jù)表達形式的概念轉(zhuǎn)移到對數(shù)據(jù)含義和內(nèi)容的關(guān)注上來。HTML 標記語言中,計算機程序可以知道這些數(shù)據(jù)應(yīng)該以什么樣的方式在屏幕上表現(xiàn)出來,但我們卻很難讓計算機程序知道,這些數(shù)據(jù)是什么含義。而在XML 中,其標記的是數(shù)據(jù)的含義和內(nèi)容,我們可以輕松的讓程序來識別和處理這些數(shù)據(jù),并以各種各樣適當?shù)男问奖憩F(xiàn)出來。

基于XML 的數(shù)據(jù)瀏覽技術(shù)可以說是網(wǎng)絡(luò)時代的又一次數(shù)據(jù)革命,正如美國微軟公司首席執(zhí)行官史蒂夫.鮑爾默所說:“XML語言將革新人機界面”。

鮑爾默稱,XML語言是一種"更坦白的網(wǎng)絡(luò)語言",它使得數(shù)據(jù)在網(wǎng)絡(luò)上的獲取和交流更加靈活便利,并可以通過包括電腦、電視和移動電話等更多的終端設(shè)備得到反映。鮑爾默說,"5年內(nèi)我希望能像和秘書講話一樣地和電腦交流。"

3、VoiceXML :為語音應(yīng)用開創(chuàng)新的未來

VoiceXML ,是由 IBM 、Lucent、Motorola 、AT&T 四家國際巨型公司于2000年提出的一種應(yīng)用于語音瀏覽的標記語言,它建立于XML 標記語言規(guī)范的基礎(chǔ)之上,是語音瀏覽技術(shù)的核心。而因為其同樣是一種XML描述語言,其與數(shù)據(jù)庫、HTML、WML以及其它文檔處理和發(fā)布系統(tǒng)的資料交換幾乎沒有障礙。

通過VoiceXML ,可以像建立HTML 的Web 應(yīng)用一樣輕松的建立語音應(yīng)用系統(tǒng),而這樣的語音應(yīng)用系統(tǒng)可以為基于VoiceXML 的語音瀏覽器所廣泛支持。語音瀏覽器通過解析VoiceXML ,與語音識別和語音合成等方式進行人機交互,從而實現(xiàn)說話就可以上網(wǎng)的夢想。而語音瀏覽器不僅僅可以建立于電話服務(wù)器端,其同樣可以建立于PC 平臺、電視、PDA 等等其他終端上。

通過VoiceXML ,可以很容易地建立新的語音應(yīng)用和服務(wù),如語音門戶、語音Call Center ,語音信息服務(wù)、語音電子商務(wù)等等。而這些應(yīng)用或服務(wù)可以很容易地和原有的數(shù)據(jù)系統(tǒng)結(jié)合起來,甚至可以輕易地從原有的各類應(yīng)用中延展出來。而VoiceXML 的語音應(yīng)用,可以以XML的數(shù)據(jù)表達形式,與其它的應(yīng)用系統(tǒng)、數(shù)據(jù)系統(tǒng)輕易交流。

正是VoiceXML 將語音交互引入了數(shù)據(jù)瀏覽的世界,使電話等以語音為主要形式的設(shè)備成為新型的網(wǎng)絡(luò)終端,并以自然、對話、簡單的特點,使之具備了更為廣泛的普及性和友好性。這種瀏覽機制為語音應(yīng)用領(lǐng)域展現(xiàn)了一個更為廣闊的未來。

四 無限商機公司 VoiceXML的瀏覽器

無限商機公司 VoiceXML 瀏覽器

無限商機公司 VoiceXML語音瀏覽器,為解決眾多需求而設(shè)計。其設(shè)計層次如下:

在我們的實現(xiàn)中,我們分別設(shè)計了控制層、安全層、事務(wù)層、會話層、和應(yīng)用層。并開放了除控制層之外的所有層的開放接口。

1、VoiceXML 語音瀏覽器的組成部分

一個完整的VoiceXML 語音瀏覽器,由以下幾個部分組成:

(1)。VoiceXML 解析器

VoiceXML 解析器是整個語音瀏覽器的核心部分。其在語音瀏覽器中擔負控制中心的角色。VoiceXML 解析器通過網(wǎng)絡(luò)協(xié)議,如Http 等協(xié)議,獲取VoiceXML 腳本語言所描述的應(yīng)用文檔(document),解析該應(yīng)用文檔,解釋其中各個標志(Tag ),產(chǎn)生相應(yīng)的控制命令,控制其它部件進行相應(yīng)的動作,并獲取結(jié)果,根據(jù)結(jié)果決定應(yīng)用的執(zhí)行方向和順序流。

(2)。語音識別引擎

語音識別引擎是VoiceXML語音瀏覽器的生命力所在,語音識別使計算機能理解用戶的語音命令,產(chǎn)生相應(yīng)的文字結(jié)果,送回VoiceXML解析器作處理。

在VoiceXML 語音瀏覽器中,語音識別引擎為命令式的識別引擎,其根據(jù)有限的語法(grammar)來識別用戶的語音信號,產(chǎn)生對應(yīng)語法定義的識別結(jié)果。所以,語法便成為了VoiceXML語音瀏覽器中的重要概念。在VoiceXML語音瀏覽器中,語法決定了用戶能說什么,如何說,好的語法能帶給用戶良好的交互感覺,也能從邏輯上提高語音識別引擎的識別率,使整個語音應(yīng)用的瀏覽流暢而輕松。

VoiceXML 語音瀏覽器中,語音識別引擎不僅需要處理對用戶語音信號的識別,同時也需要處理對用戶按鍵的識別,按鍵和語音以同樣的機制被處理和傳遞。

(3)。語音合成引擎

語音合成引擎,其處理VoiceXML 解析器將文字轉(zhuǎn)換為語音信號,并通過語音通道播放給用戶的命令。VoiceXML 語音合成引擎可以將文字轉(zhuǎn)換成語音文件,也可以轉(zhuǎn)換成語音數(shù)據(jù)流,或者直接將已事先錄制好的語音文件直接播放或以流的方式播放給語音通道。

語音合成引擎的文字轉(zhuǎn)化為聲音的品質(zhì),決定了用戶對系統(tǒng)的直接感覺,流暢自然的合成聲音,將使用戶感覺良好。如何提高語音合成引擎的合成品質(zhì),已成為影響語音應(yīng)用效果的重要因素。

(4)。語音通道

語音通道是在VoiceXML語音瀏覽器中傳輸用戶的語音數(shù)據(jù)信號和合成引擎所產(chǎn)生的聲音數(shù)據(jù)信號的傳遞通道,其連接物理上的語音采集和播放設(shè)備,語音識別引擎的語音輸入端、語音合成引擎的語音輸出端。

在基于電信平臺的語音應(yīng)用系統(tǒng)中,語音通道的物理設(shè)備主要是語音卡、語音信道或者是以數(shù)字編碼形式所存在的虛擬通道,如IP 的語音編碼數(shù)據(jù)包等。而在PC 平臺上,聲卡則成為主要的語音通道。

對不同的平臺的語音通道物理設(shè)備的支持,決定了VoiceXML語音瀏覽器可實際應(yīng)用的平臺。

2、VoiceXML語音瀏覽器各部分的協(xié)作

VoiceXML語音瀏覽器的協(xié)作核心是VoiceXML解析器,其通過建立應(yīng)用(Application)和會話(Session),獲取包含控制命令的文檔(Document),根據(jù)文檔中的標志(Tag)建立對話(Dialog),從而解釋各個對話,控制語音識別、語音合成引擎以及語音通道的觸發(fā)、開啟和關(guān)閉、掛起等,實現(xiàn)與用戶的會話式的交互,并根據(jù)對用戶反應(yīng)的識別結(jié)果進行導(dǎo)向判斷,進行文檔之間的轉(zhuǎn)移和應(yīng)用之間的轉(zhuǎn)移。

3、無限商機公司的VoiceXML 語音瀏覽器的開放機制

在無限商機公司 VoiceXML語音瀏覽器中,我們對識別引擎和合成引擎進行了開放性的接口設(shè)計,實現(xiàn)了與引擎無關(guān)的設(shè)計。根據(jù)我們的接口,其它開發(fā)商可以開發(fā)為其它識別或合成引擎的封裝模塊,從而在我們的VoiceXML語音瀏覽器中使用其它的識別或合成引擎。其可建立于電話服務(wù)器、PC 、嵌入式設(shè)備中,支持國內(nèi)外語音卡,支持IP 等語音信道。JAVA 版本實現(xiàn)了100%的跨平臺。

無限商機公司 VoiceXML語音瀏覽器中,所有開發(fā)接口以CORBA 規(guī)范設(shè)計,其它開發(fā)商可以用各種編程語言如C、C++、Java 等在不同的平臺和操作系統(tǒng)上實現(xiàn),從而實現(xiàn)了對各種操作系統(tǒng)平臺的支持。并且,利用CORBA 的強大的分布式機制,整個VoiceXML語音瀏覽器可以建立于跨越各種物理平臺、操作系統(tǒng)之上的分布式網(wǎng)絡(luò)中。

4、如何在VoiceXML 語音瀏覽器上開發(fā)語音應(yīng)用?

在voiceXML 語音瀏覽器上開發(fā)語音應(yīng)用,如同開發(fā)Web應(yīng)用一樣輕松簡單。只需要有對XML的知識,就可以開發(fā)VoiceXML 應(yīng)用。基于VoiceXML 的語音應(yīng)用系統(tǒng)可以很好的和其它已有的Web 應(yīng)用系統(tǒng)或數(shù)據(jù)應(yīng)用系統(tǒng)良好的結(jié)合。

開發(fā)VoiceXML 語音應(yīng)用:

在VoiceXML語音瀏覽器基礎(chǔ)的應(yīng)用開發(fā),改變了傳統(tǒng)的CTI系統(tǒng)的開發(fā)概念,在這里,開發(fā)人員無須關(guān)心復(fù)雜的流程和模塊,無須為數(shù)據(jù)接口編寫程序模塊,無須重新建立已有系統(tǒng)的邏輯實現(xiàn),也無須一次次重復(fù)某個模塊的開發(fā)。建立VoiceXML語音應(yīng)用系統(tǒng),就和建立Web 應(yīng)用一樣簡單。

五 基于VoiceXML 機制的語音應(yīng)用

1、基于VoiceXML 機制的語音應(yīng)用的特點

基于voiceXML機制的語音應(yīng)用有以下幾個特點:

2、自由自在的流程

VoiceXML語音應(yīng)用系統(tǒng)中強調(diào)對話和導(dǎo)向,而不再有固定的流程結(jié)構(gòu)限制。如同用IE 瀏覽網(wǎng)頁一樣,我們無法定義清晰的用戶可能點擊和瀏覽的順序,而是以網(wǎng)頁為單位,以鏈接為導(dǎo)向。VoiceXML 亦是以同樣的機制來完成整個應(yīng)用的瀏覽。

在VoiceXML 語音應(yīng)用中,用戶可以選擇所有激活的鏈接處,象瀏覽Web 網(wǎng)頁一樣任意跳轉(zhuǎn)到其它頁中。根據(jù)用戶的語音命令和對事件的捕獲,可以跳轉(zhuǎn)到其他應(yīng)用、其它文檔甚至其它對話中去。

而利用Java Script 、ASP、Perl等描述語言,VoiceXML應(yīng)用可以動態(tài)的根據(jù)用戶的選擇、預(yù)制模板和其它數(shù)據(jù)環(huán)境動態(tài)地產(chǎn)生新的應(yīng)用或文檔以及語法定義,實現(xiàn)流程的動態(tài)生成,使VoiceXML 語音應(yīng)用不再受預(yù)先制定好的流程規(guī)范的限制。

3、無所限制的內(nèi)容

XML 的機制決定了VoiceXML 腳本語言不僅可以描述數(shù)據(jù)的式樣,其同樣描述數(shù)據(jù)的內(nèi)容和含義。而只要有共同規(guī)范的DTD 定義,VoiceXML 腳本可以輕松的與其它XML腳本交換數(shù)據(jù),理解其它XML腳本應(yīng)用中的數(shù)據(jù)含義。這就是說,其它的基于XML腳本的Web 應(yīng)用、數(shù)據(jù)庫系統(tǒng)、數(shù)據(jù)文檔都可以輕松的和VoiceXML腳本結(jié)合起來。VoiceXML 應(yīng)用可以輕松的解釋它們的數(shù)據(jù)內(nèi)容,并通過適當?shù)谋憩F(xiàn)式樣體現(xiàn)出來。

利用Java Script 、ASP 、Perl 等描述語言所建立的程序,可以訪問其它各種各樣的數(shù)據(jù)來源,不僅可以產(chǎn)生動態(tài)的瀏覽流程,同樣可以產(chǎn)生動態(tài)的內(nèi)容。正如在Web 應(yīng)用中ASP 所產(chǎn)生的動態(tài)網(wǎng)頁一樣,我們產(chǎn)生的動態(tài)VoiceXML語音網(wǎng)頁具有同樣的瀏覽自由度和內(nèi)容自由度。

正如基于VoiceXML 的語音郵件應(yīng)用所表現(xiàn)的那樣,通過主頁的導(dǎo)向,根據(jù)不同用戶的用戶ID ,利用Java Script 或ASP等進行對郵件服務(wù)器的訪問,根據(jù)郵件數(shù)據(jù)、郵件格式和郵件內(nèi)容會產(chǎn)生不同的VoiceXML 郵件網(wǎng)頁。不同的用戶所訪問到的郵件網(wǎng)頁的結(jié)構(gòu)和內(nèi)容都是不同的。

4、個性定制的體現(xiàn)

不同于傳統(tǒng)CTI系統(tǒng)對每個用戶的服務(wù)都一模一樣的方式,VoiceXML應(yīng)用可以根據(jù)用戶自己的喜好定制自己需要的內(nèi)容。根據(jù)已有用戶的信息數(shù)據(jù),如用戶的特征,用戶選擇的項目等,利用模板機制,可以生成完全個性化的應(yīng)用流程和內(nèi)容。

在VoiceXML 語音應(yīng)用系統(tǒng)中,用戶不僅可以定制他們各自喜好的服務(wù)項目,甚至可以定制他們期望的內(nèi)容、格式和風格,完全體現(xiàn)自己的個性化。

在基于VoiceXML 的語音門戶應(yīng)用中,用戶也可以自己開發(fā)編寫自己的語音網(wǎng)頁,自由體現(xiàn)自我,建立自己的個人語音網(wǎng)站,展示自我個性。

六 無限商機公司的解決方案

無限商機公司 提供了適用于各種不同應(yīng)用、不同場合、不同行業(yè)的解決方案。

其包括:

1.班次/票務(wù)解決方案

可廣泛應(yīng)用于民航、列車、客運、娛樂等行業(yè)。使電話查詢、訂購機票、車票等將大大減少人工投入,變得自然流暢而快捷,與后臺數(shù)據(jù)應(yīng)用的結(jié)合將輕而易舉。

2.銀行/金融解決方案

電話銀行將富有新的特征,無限商機公司 VoiceXML 語音應(yīng)用解決方案為金融企業(yè)降低費用和成本,并以優(yōu)勢的競爭力吸引用戶。通過語音解決方案,用戶在任何時候、任何地方都可以自由的通過電話進行他們的自助服務(wù)。無限商機公司 VoiceXML 基于網(wǎng)絡(luò)的解決方案可以降低昂貴的CallCenter 設(shè)備和人工成本,并與其它的在線服務(wù)系統(tǒng)協(xié)調(diào)工作,平衡負載,以更少的人工坐席就可以完成更好的服務(wù)。

3.語音交易/零售解決方案

無限商機公司 VoiceXML 語音應(yīng)用通過提供帳戶管理和用戶自助的方式,可以增強用戶的安全感和降低交易成本。用戶可以用他們的說話聲通過電話來訪問他們的帳戶,回憶他們曾經(jīng)感興趣的信息,搜索商品信息和價格,進行快捷的交易。而語音的解決方案能夠與已經(jīng)存在的網(wǎng)上訂購、交易系統(tǒng)無縫結(jié)合,大大擴展了原有系統(tǒng)的潛在的用戶群。使用戶可以在任何時候、任何地方訪問他們的帳戶并進行交易。

4.證券解決方案

無限商機公司 VoiceXML 語音應(yīng)用將大大改善原有的電話股票查詢系統(tǒng)。在VoiceXML 語音應(yīng)用中,用戶可以自由定制他們所關(guān)心的信息,而濾過那些無關(guān)的信息,而且可以以最為自由的方式進行查詢和下單。其下單的處理情況也將通過多種信息反饋的方式及時的通知客戶,使客戶可以及時處理。

5.語音郵件解決方案

收發(fā)郵件不僅可以用電腦、WAP 手機,用電話也一樣可以輕松完整,而且更快更方便更準確。無論在車上、在外地、在野營,用戶都可以通過撥個電話來及時地處理郵件信息,為什么還需要一個笨重的電腦?用聲音作為郵件信息,不比文字更親切,更富含義?

6.保險、信用、費用查詢/繳費、語音撥號等等解決方案

無限商機公司 的語音解決方案有著廣泛的應(yīng)用和市場,人類通過聲音進行的信息交流無所不在,同樣,跨越通訊網(wǎng)絡(luò)和數(shù)據(jù)網(wǎng)絡(luò),語音的應(yīng)用亦無所不在。語音應(yīng)用系統(tǒng)可以廣泛的應(yīng)用于保險、信用查詢、費用查詢/繳費等等應(yīng)用中去,使用戶可以實現(xiàn)真正的足不出戶而決天下事的輕松生活。

七 無限商機公司的系列產(chǎn)品

1、無限商機公司 電信級VoiceXML 語音瀏覽器

無限商機公司 電信級VoiceXML 語音瀏覽器是建立于電信平臺之上的語音應(yīng)用系統(tǒng)的開放式核心。其作為無限商機公司 的一樣產(chǎn)品,提供了最為開放的接口和最為廣泛的支持。其開放了對語音識別引擎、語音合成引擎、語音卡、信道管理等等接口,提供了C/C++、JAVA 以及COM+組件、EJBean 組件、CORBA 等各類接口方式。

利用無限商機公司 電信級VoiceXML 語音瀏覽器,電信系統(tǒng)的開發(fā)商和集成商可以自由選擇所中意的各種引擎和平臺,建立他們自己的VoiceXML 語音應(yīng)用平臺,提供各類電信服務(wù)和應(yīng)用系統(tǒng),開拓新的電信增值業(yè)務(wù)項目。

2、無限商機公司 基于語音瀏覽的商務(wù)系統(tǒng)

無限商機公司 基于語音瀏覽的商務(wù)系統(tǒng),建構(gòu)于無限商機公司 VoiceXML Server 基礎(chǔ)上,與傳統(tǒng)的電子商務(wù)有機結(jié)合,可以輕易的結(jié)合原有的電子商務(wù)系統(tǒng),也可以在強大的中間件平臺基礎(chǔ)上建構(gòu)新的語音電子商務(wù)系統(tǒng)。

無限商機公司 基于語音瀏覽的商務(wù)系統(tǒng),不僅僅是一個語音應(yīng)用系統(tǒng),而且還包括了完整的電子商務(wù)解決方案。其完備的數(shù)據(jù)處理功能和系統(tǒng)結(jié)構(gòu)專門針對語音應(yīng)用的特點做出了優(yōu)化設(shè)計和實現(xiàn),使商家對整個系統(tǒng)的管理、交易的進行控制和服務(wù)更為輕松,靈活和高效。

3、無限商機公司 語音門戶

電話也可以在Internet 上沖浪,門戶網(wǎng)站可以選擇無限商機公司 語音門戶網(wǎng)關(guān)將他們的用戶延伸到龐大的電話用戶群中。無限商機公司 語音門戶網(wǎng)關(guān)包括了無限商機公司 VoiceXML Server 、語音應(yīng)用站點建設(shè)管理工具、發(fā)布系統(tǒng)等等。在無限商機公司 語音門戶網(wǎng)關(guān)上建構(gòu)語音門戶,和建立WEB 站點一樣簡單,甚至可以強有力的支持原有的WEB 站點,以更豐富的形式表現(xiàn)給用戶。

4、無限商機公司 UMS 平臺

作為個人通信服務(wù),UMS (統(tǒng)一信息系統(tǒng))的表現(xiàn)越來越活躍。用戶可以通過各種各樣的工具來查詢、獲取信息和得到反饋。E-Mail 、電話、傳真、短消息與BP 等等的通信形式,在無限商機公司 UMS 平臺中都得到了充分的體現(xiàn)和發(fā)揮,而用VoiceXML 標記語言不僅僅可以描述對電話信息方式的處理,而且可以描述其與其它信息方式的溝通和交互,使整個UMS 平臺成為有機的一個整體。

5、無限商機公司 跨越互聯(lián)網(wǎng)和數(shù)據(jù)網(wǎng)的呼叫中心

呼叫中心將不僅僅為電話用戶提供服務(wù),基于WEB 的呼叫中心越來越受到商家的關(guān)注。兩個網(wǎng)絡(luò)之間的交互通過XML 數(shù)據(jù)標記技術(shù)而變得輕松簡單。而無限商機公司 VoiceXML Server 使大部分的對話都可以由計算機自己完成,大大降低坐席人員的要求和負擔,而使用戶的使用更為簡單和自然。

八 應(yīng)用示例

1、VoiceXML 語音郵件

VoiceXML 語音郵件應(yīng)用,使用戶可以通過電話等聲音設(shè)備收發(fā)電子郵件。在基于VoiceXML的語音郵件應(yīng)用中,用戶可以自由的選擇性收聽郵件、只聽標題或內(nèi)容、順序瀏覽、隨時刪除。利用通訊本功能,用戶通過說出姓名即可發(fā)送語音形式的郵件,讓對方聽到自己的聲音信息。

2、VoiceXML股票查詢

基于VoiceXML 的股票查詢應(yīng)用系統(tǒng),用戶無須記住股票代碼,只需說出股票名稱即可。用戶可以選擇性定制自己所關(guān)心的幾支股票,只查詢這幾支股票的信息。通過更為復(fù)雜的模板定制,用戶還可以定制他們關(guān)心的股票價格、成交量等細節(jié)內(nèi)容,以喜好的風格來聽取,用戶也可以定制提醒、報警等功能,及時處理。

3、VoiceXML 天氣查詢

基于VoiceXML 的天氣查詢系統(tǒng),選擇用戶所關(guān)心的幾個城市,隨時查詢天氣情況,以便安排出行、旅游。

4、VoiceXML 語音游戲

試試和電腦玩玩猜拳游戲吧,聽聽電腦贏時的得意和輸時的抱怨,看看你能不能幾句話說得電腦低頭服輸?

北京無限商機供稿 CTI論壇編輯



相關(guān)鏈接:
融合通訊還有多遠? 2003-04-15
我國語音互聯(lián)網(wǎng)產(chǎn)業(yè)的發(fā)展和統(tǒng)一標準規(guī)范VAP探討 2002-03-04
北京無限商機 2002-03-04
北郵UBO共建實驗室致力語音數(shù)據(jù)兩網(wǎng)融合 2002-01-23
企業(yè)服務(wù)新形象——UBO Tel-win智能總機 2001-12-20