首頁(yè)>>廠商>>系統(tǒng)集成及應(yīng)用軟件開(kāi)發(fā)商>>上海聲軟技術(shù)(Voicesoft)

VoiceServer 2.0產(chǎn)品白皮書
——基于VoiceXML的可編程語(yǔ)音平臺(tái)

2002/09/29

1. 概述

1.1. 市場(chǎng)需求

  據(jù)權(quán)威機(jī)構(gòu)預(yù)測(cè),到2005年全球語(yǔ)音應(yīng)用產(chǎn)值將達(dá)到450億美元。語(yǔ)音應(yīng)用之所以成為新一輪的市場(chǎng)焦點(diǎn),是因?yàn)椋?

  電話尤其是移動(dòng)電話的日益普及
  人們更需要及時(shí)、方便地得到信息
  企業(yè)、服務(wù)提供商需要提供更完善的語(yǔ)音服務(wù)。

  悠久的歷史使電話無(wú)疑是最普及的通訊工具,其操作簡(jiǎn)易性更是老少皆宜。如下圖所示,盡管互聯(lián)網(wǎng)方興未艾,然而在全球范圍內(nèi),電話用戶的數(shù)量仍數(shù)倍于互聯(lián)網(wǎng)用戶,在中國(guó)更是達(dá)到10倍以上。特別是,近年來(lái)移動(dòng)通訊發(fā)展迅猛,移動(dòng)電話的銷售量已超過(guò)汽車和PC 機(jī)的總和,預(yù)計(jì)2003年末全球移動(dòng)用戶數(shù)將突破10億。

  信息技術(shù)革命將人類社會(huì)推進(jìn)到信息社會(huì),企業(yè)的經(jīng)營(yíng)管理、個(gè)人的休閑理財(cái)都離不開(kāi)信息。人們比以前的任何時(shí)期都更加渴望能夠隨時(shí)隨地得到信息。而語(yǔ)音作為人類最原始、最自然的交流方式,最受人們的青睞。Evans Group Research對(duì)250個(gè)使用不同語(yǔ)音系統(tǒng)的用戶進(jìn)行的調(diào)查表明, 83%的用戶更喜歡使用語(yǔ)音系統(tǒng)而不是按鍵式系統(tǒng)。

  在激烈的市場(chǎng)競(jìng)爭(zhēng)中,企業(yè)、服務(wù)提供商一直在尋求完善客戶服務(wù)的途徑。金融、電信等領(lǐng)域?qū)嵤┖艚兄行牡某晒?jīng)驗(yàn),使企業(yè)、服務(wù)提供商體會(huì)到語(yǔ)音服務(wù)帶來(lái)的經(jīng)濟(jì)效益和社會(huì)效益。提供更為人性化、智能化的語(yǔ)音服務(wù)系統(tǒng),提供24小時(shí)全天候的自助服務(wù)系統(tǒng),已成為企業(yè)和服務(wù)提供商重要的市場(chǎng)策略。

1.2. 技術(shù)基礎(chǔ)

  近幾年來(lái),計(jì)算機(jī)語(yǔ)音識(shí)別(ASR)和語(yǔ)音合成(TTS)技術(shù)的突破給語(yǔ)音應(yīng)用提供了堅(jiān)實(shí)的基礎(chǔ),與此同時(shí)VoiceXML的標(biāo)準(zhǔn)化更使語(yǔ)音應(yīng)用生機(jī)勃勃。

  語(yǔ)音識(shí)別技術(shù)是指將人說(shuō)話的音頻信號(hào)轉(zhuǎn)換為可被計(jì)算機(jī)所識(shí)別的文字信息,而語(yǔ)音合成技術(shù)則是指將文字信息轉(zhuǎn)變?yōu)橐纛l信息的技術(shù)。事實(shí)上,語(yǔ)音識(shí)別產(chǎn)品進(jìn)入大眾視野只有短短的4年。1998 年IBM 率先推出ViaVoice引發(fā)了語(yǔ)音應(yīng)用的熱潮,研究機(jī)構(gòu)和企業(yè)廠家紛紛研制各具特色的語(yǔ)音產(chǎn)品。通過(guò)識(shí)別算法的改良,同時(shí)得益于硬件能力的提高,今天優(yōu)秀的語(yǔ)音識(shí)別系統(tǒng)的識(shí)別率高達(dá)95%以上,完全能夠滿足商業(yè)應(yīng)用的需求。而語(yǔ)音合成技術(shù)則已經(jīng)能夠?qū)崿F(xiàn)自然、流暢的文字合成。

  VoiceXML 是由IBM 、Lucent、Motorola 和AT&T 四家公司于2000年提出的一種應(yīng)用于語(yǔ)音瀏覽的標(biāo)記語(yǔ)言。如下圖所示,VoiceXML是各廠商多年經(jīng)驗(yàn)積累的產(chǎn)物,VoiceXML Forum更是得到業(yè)界廣泛的支持,同時(shí)VoiceXML由W3C組織標(biāo)準(zhǔn)化,成為事實(shí)上的工業(yè)標(biāo)準(zhǔn)。



1.3. 市場(chǎng)機(jī)遇

語(yǔ)音應(yīng)用市場(chǎng)的構(gòu)成如下圖所示:


一般地:
1.4. 小結(jié)

  電話是人類最普及的通訊工具,語(yǔ)音是人類最自然的交流方式。電話依舊是用戶向企業(yè)、服務(wù)提供商尋求服務(wù)的最主要方式之一。

  計(jì)算機(jī)語(yǔ)音識(shí)別、語(yǔ)音合成以及語(yǔ)音瀏覽技術(shù)的涌現(xiàn),掀起自圖形界面之后新一輪的人機(jī)界面革命,實(shí)現(xiàn)了人類通過(guò)對(duì)話與計(jì)算機(jī)進(jìn)行交互的夢(mèng)想。人們可以通過(guò)電話隨時(shí)獲得最新的信息和體貼的服務(wù)。

  企業(yè)、服務(wù)提供商應(yīng)該把握市場(chǎng)機(jī)遇,使自身在激烈的市場(chǎng)競(jìng)爭(zhēng)中脫穎而出。

2. VoiceXML的優(yōu)勢(shì)

2.1. 對(duì)企業(yè)用戶 2.2. 對(duì)服務(wù)提供商
2.3. 對(duì)軟件開(kāi)發(fā)商
  
  • 可以縮短語(yǔ)音應(yīng)用開(kāi)發(fā)周期。與傳統(tǒng)的IVR系統(tǒng)不同,即使在硬件設(shè)備尚未就緒的情況下,也可以在集成開(kāi)發(fā)環(huán)境中開(kāi)發(fā)、調(diào)試業(yè)務(wù)應(yīng)用,從而縮短項(xiàng)目進(jìn)度;據(jù)估計(jì),與傳統(tǒng)的IVR開(kāi)發(fā)相比,業(yè)務(wù)流程編碼時(shí)間可以縮短12倍,而整個(gè)項(xiàng)目開(kāi)發(fā)進(jìn)度可以縮短一半;

  •   
  • 可以降低服務(wù)開(kāi)支。由于傳統(tǒng)的IVR系統(tǒng)往往是專用的,專業(yè)人員的培訓(xùn)、用戶培訓(xùn)等服務(wù)性開(kāi)支較大,而VoiceXML作為國(guó)際標(biāo)準(zhǔn),特別是基于XML和Web等通用技術(shù),服務(wù)性開(kāi)支減少;

  •   
  • 可以減少軟件維護(hù)、升級(jí)的工作量。在整個(gè)產(chǎn)品的生命周期中,維護(hù)工作將占很大的比例;作為一種腳本語(yǔ)音,VoiceXML的維護(hù)工作量大大減少,而且配置管理工作也相對(duì)簡(jiǎn)單,從而從整體上降低了項(xiàng)目管理的復(fù)雜度,以節(jié)省軟件開(kāi)發(fā)成本、提高軟件發(fā)布效率。


  • 3. VoiceServer

    3.1. 概述
      VoiceServer是公司推出的新一代產(chǎn)品,主要面向運(yùn)營(yíng)商、服務(wù)提供商及企業(yè)用戶,提供基于VoiceXML、支持語(yǔ)音識(shí)別/合成的語(yǔ)音服務(wù)系統(tǒng)。同時(shí)作為技術(shù)平臺(tái)提供商,公司提供專業(yè)的業(yè)務(wù)咨詢、項(xiàng)目管理、人員培訓(xùn)等綜合服務(wù)。

      VoiceServer支持與內(nèi)容服務(wù)平臺(tái)或電子商務(wù)平臺(tái)的集成,向最終用戶提供電話服務(wù)途徑;支持呼入排隊(duì)、轉(zhuǎn)人工臺(tái)功能或與現(xiàn)有呼叫中心平臺(tái)的集成。VoiceServer可以作為服務(wù)提供商、企業(yè)的語(yǔ)音門戶,向最終用戶提供7x24小時(shí)的個(gè)性化自助服務(wù)。

    3.2. 產(chǎn)品特點(diǎn)
    3.2.1. 技術(shù)領(lǐng)先
    3.2.2. 功能獨(dú)特
    3.2.3. 開(kāi)放結(jié)構(gòu)
    3.2.4. 高性能
    3.2.5. 高可靠性
    3.2.6. 管理維護(hù) 3.3. 產(chǎn)品功能

    3.3.1. 語(yǔ)音識(shí)別

      可選功能。
      系統(tǒng)支持語(yǔ)音識(shí)別功能,并且系統(tǒng)能同時(shí)支持語(yǔ)音輸入和DTMF鍵輸入。

    3.3.2. 語(yǔ)音合成

      可選功能。
      系統(tǒng)支持語(yǔ)音合成功能,支持中文普通話、中文粵語(yǔ)、英語(yǔ)等。語(yǔ)音菜單、語(yǔ)音提示均可以通過(guò)語(yǔ)音合成后播放。

    3.3.3. 收發(fā)傳真

      可選功能。
      系統(tǒng)支持傳真功能,用戶可以通過(guò)該系統(tǒng)接收、發(fā)送TIFF文件。

    3.3.4. 呼入排隊(duì)

      可選功能。
      系統(tǒng)支持按話務(wù)員組、技能組等路由的呼入排隊(duì)功能。

    3.3.5. 電話呼出

      可選功能。
      系統(tǒng)支持呼出功能,其呼出任務(wù)管理系統(tǒng)支持呼出的重試、超時(shí)等功能。
      5基于VoiceXML的可編程語(yǔ)音平臺(tái)

    3.3.6. 呼叫轉(zhuǎn)移

      可選功能。
      系統(tǒng)支持呼叫轉(zhuǎn)移功能,提供呼叫轉(zhuǎn)移、電話會(huì)議等功能。

    3.3.7. 錄制語(yǔ)音

      基本功能。
      系統(tǒng)支持錄音功能,錄音內(nèi)容可以回放、保存等。

    3.3.8. 播放語(yǔ)音

      基本功能。
      系統(tǒng)可以播放預(yù)先錄制的語(yǔ)音文件,支持的語(yǔ)音文件格式包括PCM linear、PCM a-law,、PCM u-law、ADPCM等。

    3.3.9. 接收按鍵

      基本功能。
      系統(tǒng)可以接收用戶可以通過(guò)DTMF鍵輸入的信息或選擇的菜單。

    3.3.10. 業(yè)務(wù)詳單

      基本功能。
      系統(tǒng)產(chǎn)生XML格式的詳細(xì)話單供帳務(wù)系統(tǒng)處理。

    3.3.11. Javascript

      基本功能。
      系統(tǒng)支持在VoiceXML中的javascript及標(biāo)準(zhǔn)的Session變量,支持的預(yù)定義類型包括數(shù)字等。

    3.3.12. 流程控制

      基本功能。
      系統(tǒng)提供javascript實(shí)現(xiàn)的VoiceXML流程控制模板,以提供編寫結(jié)構(gòu)化VoiceXML的方式。

    3.3.13. 業(yè)務(wù)組件

      可選功能。
      系統(tǒng)支持在VoiceXML中使用客戶定制的業(yè)務(wù)組件。

    3.3.14. 平臺(tái)管理

      基本功能。
      系統(tǒng)提供平臺(tái)管理系統(tǒng),提供業(yè)務(wù)統(tǒng)計(jì)、業(yè)務(wù)監(jiān)控功能。

    3.4. 系統(tǒng)結(jié)構(gòu)

    3.4.1. 系統(tǒng)結(jié)構(gòu)圖


    3.4.2. 語(yǔ)音瀏覽器

      VoiceXML 語(yǔ)音瀏覽器(Voice Browser)是系統(tǒng)的控制中心,包括VoiceXML解析和會(huì)話控制兩部分。其中,VoiceXML 解析部分功能如下:

    會(huì)話控制部分的功能如下:
    3.4.3. 服務(wù)適配層

      服務(wù)適配層(Service Adaptor Layer)定義服務(wù)提供者的接口。通過(guò)提供不同的服務(wù)提供者,系統(tǒng)可以方便地支持不同的硬件設(shè)備,支持不同的第三方語(yǔ)音識(shí)別、語(yǔ)音合成引擎。
    系統(tǒng)定義的服務(wù)提供者接口包括:


    3.4.4. 服務(wù)提供層
      服務(wù)提供層(Service Provider Layer)實(shí)現(xiàn)服務(wù)適配層的接口。系統(tǒng)目前提供的服務(wù)提供者包括:


    3.4.5. 應(yīng)用服務(wù)器

      應(yīng)用服務(wù)器(Application Server)用于存放或產(chǎn)生VoiceXML腳本,可以是文件系統(tǒng)或Web服務(wù)器。一般的,文件系統(tǒng)應(yīng)用于靜態(tài)腳本,Web 服務(wù)器應(yīng)用于動(dòng)態(tài)腳本。對(duì)于動(dòng)態(tài)腳本,ASP、JSP、PHP等任何用于動(dòng)態(tài)產(chǎn)生HTML腳本的技術(shù)均適用于VoiceXML。對(duì)于動(dòng)態(tài)腳本,應(yīng)用服務(wù)器還負(fù)責(zé)與后臺(tái)業(yè)務(wù)邏輯服務(wù)器接口。

    3.4.6. 業(yè)務(wù)訪問(wèn)層

      業(yè)務(wù)訪問(wèn)層(Business Access Layer)用于訪問(wèn)企業(yè)、服務(wù)提供商的后臺(tái)業(yè)務(wù)邏輯,系統(tǒng)支持服務(wù)器端和客戶端兩種方式。

      服務(wù)器端方式一般用于動(dòng)態(tài)VoiceXML腳本,在ASP/JSP/PHP中訪問(wèn)后臺(tái)業(yè)務(wù)邏輯,并根據(jù)業(yè)務(wù)操作結(jié)果向語(yǔ)音瀏覽器返回VoiceXML腳本。

      客戶端方式利用VoiceXML<object>的標(biāo)記,在語(yǔ)音瀏覽器中執(zhí)行業(yè)務(wù)操作。系統(tǒng)支持將DLL、COM/COM+組件、JavaBean、xml/http等作為<object>訪問(wèn)后臺(tái)業(yè)務(wù)邏輯。

    3.4.7. 操作、管理和維護(hù)(OA&M)

      操作管理維護(hù)終端提供業(yè)務(wù)監(jiān)控、業(yè)務(wù)管理和業(yè)務(wù)統(tǒng)計(jì)功能。
      8基于VoiceXML的可編程語(yǔ)音平臺(tái)

    4. 語(yǔ)音應(yīng)用

      VoiceServer具有廣泛的應(yīng)用前景,可以應(yīng)用于:
      信息查詢
      自助服務(wù)
      通知服務(wù)
      消息服務(wù)。
      部分應(yīng)用舉例如下表所示:


    聲軟科技公司供稿 CTI論壇編輯

    下載白皮書(PDF格式)



    相關(guān)鏈接:
    Voicesoft VAS虛擬前臺(tái)系統(tǒng) 2005-09-30
    上海聲軟 VS MsgCOM短消息通信平臺(tái) 2005-09-16
    上海聲軟 VSFax企業(yè)傳真服務(wù)器 2005-09-06
    基于VoiceXML的商用開(kāi)放式語(yǔ)音平臺(tái)OpenIVR 2005-05-13
    電話用戶與Web對(duì)話的橋梁——VoiceXML語(yǔ)言 2005-05-09

    分類信息:  語(yǔ)音合成TTS_與_語(yǔ)音識(shí)別ASR     技術(shù)_語(yǔ)音合成_解決方案   技術(shù)_語(yǔ)音識(shí)別_解決方案