語(yǔ)音門(mén)戶(hù) -- 語(yǔ)音互連網(wǎng)的核心
一.摘要
二.簡(jiǎn)介
三.發(fā)展語(yǔ)音WEB的驅(qū)動(dòng)力
3.1 語(yǔ)音技術(shù)的發(fā)展
3.2 移動(dòng)電話(huà)的采用
3.3 因特網(wǎng)用戶(hù)的增長(zhǎng)
四.其它支持語(yǔ)音WEB的技術(shù)
4.1 傳統(tǒng)PSTN
4.2 VOIP技術(shù)
4.3 VOICEXML技術(shù)
五.新的商業(yè)模式
六.NMS通信公司對(duì)語(yǔ)音WEB前景的展望
6.1 語(yǔ)音技術(shù)的進(jìn)步
6.2 PSTN接口技術(shù)
6.3 VOIP集成技術(shù)
6.4 商業(yè)利益
七.NMS與語(yǔ)音WEB --- 從現(xiàn)在到未來(lái)
7.1 NMS語(yǔ)音門(mén)戶(hù)產(chǎn)品部分客戶(hù)清單
7.2 NMS在語(yǔ)音WEB領(lǐng)域的合作伙伴
一.摘要
因特網(wǎng)和電話(huà)系統(tǒng)的結(jié)合產(chǎn)生了一個(gè)新的平臺(tái):語(yǔ)音門(mén)戶(hù)。通過(guò)語(yǔ)音門(mén)戶(hù),任何人可以在任何地點(diǎn),通過(guò)電話(huà)用語(yǔ)言訪問(wèn)因特網(wǎng)的內(nèi)容或進(jìn)行電子商務(wù)活動(dòng)。語(yǔ)音門(mén)戶(hù)的應(yīng)用對(duì)于因特網(wǎng)上海量的信息訪問(wèn)提供了一種有效的接入方法。過(guò)去通過(guò)瀏覽器才能提供的服務(wù),現(xiàn)在通過(guò)最自然的用戶(hù)界面--語(yǔ)音就可以獲得。
本文將討論語(yǔ)音門(mén)戶(hù)應(yīng)用的技術(shù)和目前發(fā)展迅速的語(yǔ)音Web的市場(chǎng)。包括建設(shè)和實(shí)施語(yǔ)音Web的各種類(lèi)型的公司介紹和他們應(yīng)用語(yǔ)音Web的商業(yè)模型。詳細(xì)介紹了如何利用NMS通信公司提供的優(yōu)秀平臺(tái)快速構(gòu)建和實(shí)施語(yǔ)音門(mén)戶(hù)。通過(guò)一個(gè)客戶(hù)使用NMS技術(shù)成功實(shí)現(xiàn)語(yǔ)音門(mén)戶(hù)的具體實(shí)例,可以了解客戶(hù)如何從中獲益。
二.簡(jiǎn)介
術(shù)語(yǔ)"語(yǔ)音門(mén)戶(hù)(voice portal)"所代表的是一組語(yǔ)音應(yīng)用,從讀出電子郵件到播放交通信息都屬于語(yǔ)音門(mén)戶(hù)的應(yīng)用。B.Elliot,一位在斯坦福Gartner
Group的研究分析專(zhuān)家將語(yǔ)音門(mén)戶(hù)定義為:"一個(gè)利用先進(jìn)語(yǔ)音識(shí)別技術(shù),通過(guò)因特網(wǎng)提供信息訪問(wèn)的系統(tǒng)。大多數(shù)語(yǔ)音門(mén)戶(hù)的核心構(gòu)件包括語(yǔ)音識(shí)別,TTS,信息采集,信息分類(lèi)軟件,電話(huà)系統(tǒng)與因特網(wǎng)接口,和維護(hù)工具。其它可選的組件包括:支持信息相關(guān)性的軟件,個(gè)人助理(即,智能助手),對(duì)VoiceXML協(xié)議的支持①"。
總結(jié)以上描述,一個(gè)語(yǔ)音門(mén)戶(hù)是由一組互相關(guān)聯(lián)的應(yīng)用組成,用于幫助電話(huà)用戶(hù)通過(guò)語(yǔ)音
訪問(wèn)因特網(wǎng)上大量的內(nèi)容。使用先進(jìn)的電話(huà)系統(tǒng),語(yǔ)音識(shí)別和文本轉(zhuǎn)語(yǔ)音技術(shù),語(yǔ)音門(mén)戶(hù)可以為呼叫者提供e-mail訪問(wèn),交通信息查詢(xún),本地和國(guó)內(nèi)新聞,最新體育消息,股票價(jià)格,旅行信息和預(yù)定等非常多的應(yīng)用。語(yǔ)音門(mén)戶(hù)可以作為Web門(mén)戶(hù)的前端語(yǔ)音接口,不管在什么時(shí)間,或位于何處,現(xiàn)有Web門(mén)戶(hù)上的所有信息,都可以從任何一部電話(huà)獲得。
今天的大型語(yǔ)音門(mén)戶(hù),一般都提供對(duì)因特網(wǎng)基本內(nèi)容的獲取功能,例如交通和天氣情況,國(guó)內(nèi)或國(guó)際新聞,及司機(jī)導(dǎo)航信息等。小型語(yǔ)音門(mén)戶(hù)一般用于企業(yè)級(jí)語(yǔ)音門(mén)戶(hù),可以為用戶(hù)提供電子商務(wù)信息,例如,購(gòu)買(mǎi)商品或股票,呼叫中心的客戶(hù)服務(wù)和技術(shù)支持,企業(yè)內(nèi)部網(wǎng)中的自動(dòng)化應(yīng)用,如日程安排和統(tǒng)一消息等。語(yǔ)音門(mén)戶(hù)很快會(huì)提供更多的增強(qiáng)型服務(wù),例如,即時(shí)語(yǔ)音消息傳送,語(yǔ)音會(huì)議和基于位置的服務(wù)。
圖1:語(yǔ)音門(mén)戶(hù)應(yīng)用環(huán)境
三.發(fā)展語(yǔ)音Web的驅(qū)動(dòng)力
語(yǔ)音門(mén)戶(hù)和語(yǔ)音Web站點(diǎn)正在迅速增加,這種現(xiàn)象產(chǎn)生的原因有以下幾種:
3.1 語(yǔ)音技術(shù)的發(fā)展
首先,最重要一點(diǎn)是,語(yǔ)音技術(shù)經(jīng)過(guò)多年的發(fā)展,最終達(dá)到了用戶(hù)對(duì)語(yǔ)音質(zhì)量的期望,從而促進(jìn)了最終用戶(hù)對(duì)這項(xiàng)技術(shù)的接受。實(shí)際上,TMA協(xié)會(huì),一個(gè)位于南加里福尼亞的語(yǔ)音產(chǎn)業(yè)分析公司,曾經(jīng)預(yù)計(jì)僅在電信行業(yè)應(yīng)用語(yǔ)音技術(shù)的市場(chǎng)規(guī)模,在2003年將達(dá)到18億美元②。
從呼叫者輸入方式看,自動(dòng)語(yǔ)音識(shí)別(ASR)已經(jīng)達(dá)到足夠可靠的程度,那些最注重實(shí)際的商業(yè)管理人員已經(jīng)開(kāi)始對(duì)這項(xiàng)技術(shù)感興趣,ASR的識(shí)別準(zhǔn)確率已經(jīng)達(dá)到95-97%,或者超過(guò)這一范圍,這是一個(gè)驚人的進(jìn)步,因?yàn)樗呀?jīng)超過(guò)真實(shí)坐席員的準(zhǔn)確度。相對(duì)于傳統(tǒng)通過(guò)雙音頻(DTMF)話(huà)機(jī)提供的用戶(hù)界面,ASR技術(shù)的進(jìn)步提供了"用戶(hù)友好"的人機(jī)交互方式。它可以識(shí)別呼叫者說(shuō)的短語(yǔ),將語(yǔ)音文字轉(zhuǎn)換為自動(dòng)系統(tǒng)可以執(zhí)行動(dòng)作的指令或信息。新的語(yǔ)音識(shí)別功能采用了自然語(yǔ)言理解(NLU)技術(shù),使呼叫者可以使用自己的語(yǔ)言對(duì)系統(tǒng)提出請(qǐng)求。
在系統(tǒng)輸出端,文本轉(zhuǎn)語(yǔ)音(TTS)技術(shù)使計(jì)算機(jī)可以將ASCII文本合成人類(lèi)語(yǔ)言,現(xiàn)在聲音更自然,易于理解,因此可以促進(jìn)用戶(hù)接受這種人機(jī)交互方式。由于有了TTS技術(shù),現(xiàn)在,不用將聲音預(yù)先錄制下來(lái),呼叫者就可以聽(tīng)到計(jì)算機(jī)系統(tǒng)"讀出"的各種信息。呼叫者識(shí)別軟件可以準(zhǔn)確、可靠的完成識(shí)別用戶(hù)身份的任務(wù)。通過(guò)身份識(shí)別,可以開(kāi)展基本的電子商務(wù)活動(dòng)或?qū)崿F(xiàn)一些個(gè)性化的服務(wù)。 這些新的發(fā)展使越來(lái)越多的用戶(hù)開(kāi)始接受語(yǔ)音技術(shù)。最近一項(xiàng)由Nuance通信公司和Evans研究機(jī)構(gòu)共同做的研究結(jié)果發(fā)現(xiàn),87%語(yǔ)音系統(tǒng)的用戶(hù)對(duì)他們的使用結(jié)果感到滿(mǎn)意,他們通常優(yōu)先選擇語(yǔ)音系統(tǒng),而不是DTMF或話(huà)務(wù)員。另外,78%的用戶(hù)說(shuō),語(yǔ)音技術(shù)的主要好處在于可以在任何地點(diǎn)獲得他們需要的信息,不需要通過(guò)音頻按鍵選擇復(fù)雜的菜單,或等待話(huà)務(wù)員應(yīng)答,或花時(shí)間登錄因特網(wǎng)。98%的用戶(hù)說(shuō)他們希望未來(lái)繼續(xù)使用這些語(yǔ)音自動(dòng)服務(wù)。③
通信技術(shù)的發(fā)展促進(jìn)了這些語(yǔ)音技術(shù)的進(jìn)步,他們可以帶來(lái)多種復(fù)雜的語(yǔ)音應(yīng)用,支持?jǐn)?shù)百甚至數(shù)千個(gè)端口呼入,提供多種類(lèi)型的ASR引擎,并且支持多語(yǔ)種的各種語(yǔ)音記錄和合成功能。
3.2 移動(dòng)電話(huà)的采用
全球范圍內(nèi)移動(dòng)電話(huà)(無(wú)線(xiàn)電話(huà))的增長(zhǎng)非常迅速。IDC研究機(jī)構(gòu)預(yù)測(cè),全球移動(dòng)電話(huà)用戶(hù)在2005年將超過(guò)11億部④
,此外,汽車(chē)制造商開(kāi)始提供具有語(yǔ)音功能的遠(yuǎn)程通信服務(wù)。例如通用汽車(chē)公司的OnStar和福特公司的Winspan系統(tǒng)。
遠(yuǎn)程通信供應(yīng)商提供的基于位置的服務(wù)來(lái)自政府的E911項(xiàng)目,可以提供位置相關(guān)的信息訪問(wèn),例如交通情況和天氣消息。大多數(shù)汽車(chē)廠商很快會(huì)將通信設(shè)備裝入汽車(chē)中,可以是用戶(hù)接入因特網(wǎng)和其它信息服務(wù)中心,移動(dòng)中的用戶(hù)會(huì)習(xí)慣于經(jīng)常使用這些服務(wù)。事實(shí)上,F(xiàn)orrester研究公司預(yù)測(cè),到2005年1.11億美國(guó)人將使用移動(dòng)數(shù)據(jù)服務(wù)。⑤
此外,Yankee集團(tuán),一家位于波士頓的分析公司,也支持這種看法,他們認(rèn)為電話(huà)是提供增值服務(wù)的有效手段。根據(jù)Yankee集團(tuán)的研究結(jié)果,各種增強(qiáng)型服務(wù),例如語(yǔ)音消息,跟隨我(follow-me)服務(wù)和尋找我(find-me)服務(wù),個(gè)人號(hào)碼撥號(hào),語(yǔ)音撥號(hào),和尋呼,是目前14%的美國(guó)無(wú)線(xiàn)用戶(hù)經(jīng)常使用的服務(wù)。在歐洲,無(wú)線(xiàn)服務(wù)市場(chǎng)較美國(guó)更為強(qiáng)大,Yankee發(fā)現(xiàn)40%的無(wú)線(xiàn)用戶(hù)從增強(qiáng)型服務(wù)中獲益。
3.3 因特網(wǎng)用戶(hù)的增長(zhǎng)
接入因特網(wǎng)的用戶(hù)正在按指數(shù)增長(zhǎng)。根據(jù)IDC的研究,到2002年,全球因特網(wǎng)用戶(hù)將超過(guò)3億⑥。同時(shí)移動(dòng)或無(wú)線(xiàn)電話(huà)數(shù)量正在爆炸性的增長(zhǎng),網(wǎng)絡(luò)的發(fā)展使用戶(hù)可以在任何時(shí)候,任何地點(diǎn)獲取信息。
以上是促進(jìn)語(yǔ)音Web市場(chǎng)發(fā)展的主要驅(qū)動(dòng)力,然而,技術(shù)發(fā)展是語(yǔ)音Web成為現(xiàn)實(shí)的基礎(chǔ),這些技術(shù)主要包括:傳統(tǒng)PSTN,VoIP技術(shù)和VoiceXML技術(shù)。
4.1 傳統(tǒng)PSTN
公共交換電話(huà)網(wǎng)絡(luò)(PSTN)為電話(huà)通信提供了最主要的接入方法。由于大多數(shù)用戶(hù)習(xí)慣于使用電話(huà),這種通信方式會(huì)在很長(zhǎng)時(shí)間內(nèi)繼續(xù)成為一種主要方式。典型的PSTN接入包括模擬線(xiàn)路,ISDN,DSL,T1和E1電話(huà)線(xiàn),使用多種協(xié)議,如ISDN
PRI,SS7信令。
4.2 VoIP技術(shù)
在IP上傳送語(yǔ)音是一種混合技術(shù),相對(duì)于傳統(tǒng)PSTN有很多優(yōu)點(diǎn)。VoIP是一種低成本的傳送語(yǔ)音和數(shù)據(jù)的方法,這為傳統(tǒng)電信運(yùn)營(yíng)商和ISP類(lèi)的服務(wù)商提供了新的機(jī)會(huì)。對(duì)VoIP服務(wù)的大量需求催生了"聰明"電話(huà)系統(tǒng),網(wǎng)絡(luò)應(yīng)用提供商可以為用戶(hù)提供大量的可視化信息和服務(wù)。越來(lái)越多的公司正在建造大型商業(yè)VoIP網(wǎng)絡(luò),這些網(wǎng)絡(luò),與PSTN結(jié)合,可以為有線(xiàn)和無(wú)線(xiàn)電話(huà)用戶(hù)提供網(wǎng)絡(luò)接入。
4.3 VoiceXML技術(shù)
VoiceXML,或語(yǔ)音擴(kuò)展置標(biāo)語(yǔ)言,可用于Web門(mén)戶(hù)的開(kāi)發(fā)、測(cè)試和建設(shè)。VoiceXML論壇是一個(gè)由多家公司組成的聯(lián)盟,主要公司包括IBM,朗訊科技,摩托羅拉和AT&T,主要目標(biāo)是制定VoiceXML標(biāo)準(zhǔn)。這是XML計(jì)劃中的一部分,包括建立獲取基于Web信息的語(yǔ)音應(yīng)用,對(duì)多平臺(tái)資源的支持,聲頻和語(yǔ)音句法格式,和統(tǒng)一資源定位器(URI)的規(guī)劃。這使開(kāi)發(fā)者不用預(yù)先購(gòu)買(mǎi)或使用設(shè)備,就可以建立電話(huà)服務(wù)系統(tǒng)。⑦
VoiceXML現(xiàn)在已被作為工業(yè)標(biāo)準(zhǔn)采納,國(guó)際Web協(xié)會(huì)(W3C)是因特網(wǎng)標(biāo)準(zhǔn)組織,正在對(duì)這個(gè)作為開(kāi)發(fā)語(yǔ)音門(mén)戶(hù)應(yīng)用的標(biāo)準(zhǔn)進(jìn)行評(píng)估。
"Voice Portals: Something Old, Something New", Gartner Group, December, 2000。(引"二") | |
TMA 協(xié)會(huì), Tarzana, CA, 1999 (www.tmaa.com)。(引"三-3.1") | |
2000 Speech User Scorecard, Nuance Communications (www.nuance.com)。(引"三-3.1") | |
IDC Research, Framingham, MA, 因特網(wǎng)的無(wú)線(xiàn)接入, 1999: "Everybody's Doin' It," 1999年12月 (www.idc.com)。(引"三-3.2") | |
⑤ | Forrester Research, Cambridge, MA, site specific report (www.forrester.com)(引"三-3.2") |
⑥ | IDC Research, Framingham, MA, 因特網(wǎng)經(jīng)濟(jì)的發(fā)展?fàn)顟B(tài) -- 趨勢(shì)預(yù)測(cè),1998-2003:"投資將加速電子商務(wù)的發(fā)展," 1999年10月。(引"三-3.3") |
⑦ | 如需進(jìn)一步了解更多信息,請(qǐng)?jiān)L問(wèn)VoiceXML論壇的網(wǎng)站: www.voicexml.org。(引"四-4.3") |