首頁>>廠商>>語音識別與合成>>得意音通

"得意"語音互聯(lián)系統(tǒng)

2003/11/24

一、語音互聯(lián)服務的巨大發(fā)展空間

  語音交流是人類最原始、最自然、最人性化,也是最有效的交流方式。繁忙的人們可以離開PC、離開筆記本,只是隨手撥通電話,就可以知道當天發(fā)生的國際大事,就可以了解同步的股票行情,還可以知道他鄉(xiāng)的天氣是否合適旅游……通過電話來上網(wǎng),以"說話"來代替鍵盤輸入,以"語音控制"來代替鍵盤控制,實現(xiàn)語音上網(wǎng)一直是人類的夢想。以"說話"來控制的電話自動信息系統(tǒng)是銀行、電信、證券、運輸?shù)刃袠I(yè)提高服務質(zhì)量、增強競爭能力、節(jié)省時間的有力武器。

  從絕對數(shù)量上看,個人計算機的數(shù)量遠遠低于電話終端的數(shù)量,而且由于接入服務和限制,和個人計算機攜帶的不方便,所以個人計算機用戶很難實享用現(xiàn)隨時隨刻的網(wǎng)上服務。更重要的是,人們還是更習慣于言談的交流,聽和說是人們最樂意接受的交流和獲取信息的方式。而今天,隨著語音技術(shù)的發(fā)展,特別是通過中文語音識別技術(shù)的突破,中國人語音上網(wǎng)已經(jīng)成為現(xiàn)實。

  語音互聯(lián)是傳統(tǒng)電話與互聯(lián)網(wǎng)相結(jié)合的產(chǎn)物,它應用語音識別技術(shù),通過在PSTN與互聯(lián)網(wǎng)之間放置中文語音網(wǎng)網(wǎng)關,來實現(xiàn)語音識別和語音合成等,最終對用戶實現(xiàn)語音上網(wǎng)。只要用戶接通相應的電話號碼,系統(tǒng)就可識別相關的命令,從而給用戶提供所需的信息和服務,包括語音撥號、點歌、下載鈴聲圖片、發(fā)送短語、娛樂游戲、股票行情、交通狀況、天氣情況、收聽新聞、網(wǎng)友聊天等等人性化、個性化的服務。

  研究表明,全球電話語音處理軟件市場在2005年將超過35億美元的規(guī)模。2005年,作為所有語音識別產(chǎn)品基礎的語音識別軟件引擎,將達到27億美元的市場規(guī)模。(Cahners In-Stat, 7/2001.)聲音接口在互聯(lián)網(wǎng)絡和企業(yè)服務網(wǎng)絡中扮演著門戶的角色,人們會認識到它對消費者和企業(yè)的巨大價值。2005年將有超過20億的人口使用聲控的語音門戶、基于語音的網(wǎng)站和web功能的IVR系統(tǒng)。

  (Davidson Consulting.)語音識別技術(shù)不再是一項"遙不可及"的技術(shù)。語音識別技術(shù)已經(jīng)成功地運用于許多工業(yè)部門。隨著關于語音識別系統(tǒng)在有線和無線領域應用研究的深入,已經(jīng)出現(xiàn)了很多系統(tǒng)和工具,這些系統(tǒng)和工具支持網(wǎng)絡的關鍵應用程序,并對這些應用程序進行改善。為了減少成本和用戶的埋怨、提高效率,語音識別技術(shù)和相關的應用軟件已經(jīng)運用于電信、互聯(lián)網(wǎng)、電子商務、金融、醫(yī)學、電子和軍用防御工業(yè)領域。聲音接口在語音識別行業(yè)中發(fā)展很快,它將使有線和無線移動用戶得到更加輕松愉快的服務。

二、語音識別:語音互聯(lián)的核心

  語音互聯(lián)的基本原理,是應用最新的語音識別(ASR)技術(shù),加上先進的CTI(Computer Telephone Integrated)技術(shù)以及開放的VoiceXML工業(yè)標準,在電話平臺增加了對信息資源進行解釋的一個服務模塊、對人說話進行識別及對文本內(nèi)容進行語音合成的模塊,使得人與機器的交互更接近人與人之間的交互習慣,即用口說、用耳朵聽。類似與數(shù)據(jù)終端(PC、PDA、WAP手機)上網(wǎng),語音互聯(lián)也是把接入和內(nèi)容進行了分離。用戶撥打一個接入號碼,提供內(nèi)容服務的卻可以是其他任何一個具體的內(nèi)容提供商(ICP)。

  語音平臺采用3W認可的最新語音流程語言--Voice XML,不但實現(xiàn)了語音流程的個性化,還可以通過簡單地編寫Voice XML流程,輕而易舉地生成各種各樣的語音應用系統(tǒng),實現(xiàn)平臺與業(yè)務的分離。如Voice Browser、短信信息點播系統(tǒng)、股票委托交易、個性化定制服務、語音門戶、語音電子郵件、自動及人工聲訊臺和各種行業(yè)的CallCenter 系統(tǒng)等。

  語音互聯(lián)作為計算機上網(wǎng)的有效的補充手段,是一個新興的領域,也是一個非常讓人看好的領域。聲音信息要與互聯(lián)網(wǎng)上的文本信息很好地結(jié)合起來,實現(xiàn)快速自動交換,這就需要一個解析器,把文本、語音、圖像的數(shù)據(jù)以一個統(tǒng)一格式快速交換。在此基礎上,需要通過瀏覽器來接受用戶的請求,找出用戶所需要的內(nèi)容,然后再把內(nèi)容呈現(xiàn)給用戶。

圖1 語音互聯(lián)拓撲結(jié)構(gòu)圖
(原文如此)

  這是對傳統(tǒng)聲訊服務來說是一個重大的改革,因為接入和內(nèi)容提供的分離,聲訊行業(yè)變成是一個開放式的行業(yè),所有傳統(tǒng)的ICP都可以按照Voice XML的標準為聲訊提供內(nèi)容服務,它可以由客戶自己根據(jù)需求更改服務流程,而且流程是標準化的,可以從網(wǎng)上或別處繼承下來,這樣豐富多彩的內(nèi)容又必然會刺激用戶的增加以及服務需求的增長。

  無論國外還是國內(nèi),已經(jīng)有越來越多的廠商支持和開發(fā)基于Voice XML在政府辦公、電子商務、通信、呼叫中心服務、個人信息服務、娛樂等方面的語音應用。對傳統(tǒng)聲訊服務或者互聯(lián)網(wǎng)信息服務的改造或移植是語音互聯(lián)網(wǎng)的一個趨勢,這樣就可以大量利用傳統(tǒng)電信和網(wǎng)絡資源為網(wǎng)絡用戶提供語音服務。

三、語音互聯(lián):多贏的產(chǎn)業(yè)價值鏈

  語音互聯(lián)網(wǎng)將最終形成由語音技術(shù)開發(fā)商-應用/內(nèi)容提供商-語音服務提供商-電信運營商-終端廠商組成的產(chǎn)業(yè)價值鏈。

  對于最終用戶,語音門戶平臺方便、快捷、自然,而且不需要花費額外成本。用戶只要對著普通電話說話就行了,不再受制于按鍵音頻,不再受制于電腦和一大堆連線,也不再受制于網(wǎng)絡專業(yè)知識的貧乏。同時,用戶還可以根據(jù)自己的喜好定制個性化服務,集中關注個人業(yè)務;并且可以從各種各樣的信息源、信息終端中解放出來,獲得語音門戶服務帶來的自由和方便。

  對于信息服務商和客戶服務企業(yè),他們也必然會得益于語音門戶平臺。利用語音門戶,不僅可以通過節(jié)省人工坐席成本來低成本地發(fā)布信息,提供客戶服務,而且可以實現(xiàn)更多更有價值的業(yè)務,開創(chuàng)新的市場空間和利潤。同樣,隨著競爭的愈演愈烈,越來越多的公司都擁有自己的語音站點用來滿足對用戶的需求,以便用戶能容易地得到相關的內(nèi)容和服務。

  電信運營商,包括固網(wǎng)運營商、移動通信運營商、聲訊臺、寬帶運營商等,可能采用的商業(yè)模式包括:

1.通話費和信息費的分成
2.會員制
3.包月制
4.廣告收入
5.電子商務交易傭金
6.特許權(quán)使用費

  語音門戶在中國的發(fā)展?jié)摿κ挚捎^。用戶通過語音門戶平臺,可以把有線電話網(wǎng)、無線通信網(wǎng)、尋呼網(wǎng)、互聯(lián)網(wǎng)聯(lián)系為一有機的整體,用戶通過電話不僅可以查詢股票行情、天氣預報、航班動態(tài)、火車時刻表等信息,而且可點播自己定制的個人信息、新聞、證券評論、電影評論等,同時把它作為自己的統(tǒng)一消息平臺,幫助自己在商務活動中贏得先機,并且還可以通過該平臺進行諸如購買飛機票、股票等電子商務活動。語音門戶服務功能模塊將分別涉及到政府、電信市場、郵政市場、金融銀行、證券行業(yè)、保險市場、交通旅游市場、物流運輸行業(yè)、公共生活等等,幾乎無孔不入,覆蓋了社會生活的大部分。為了更好、更全面、更有競爭力地提供服務 ,發(fā)揮語音門戶平臺的綜合優(yōu)勢 ,把語音門戶平臺、呼叫中心,以及數(shù)據(jù)中心有機地結(jié)合起來,提供"全方位一攬子服務"是一個很有競爭力的應用模式。由語音門戶平臺接入自動語音應答,用戶選擇所需的服務;數(shù)據(jù)中心提供相應的數(shù)據(jù)、信息和服務內(nèi)容;在用戶所需的服務比較復雜,需要人工干預的時候,把通話切換到呼叫中心的人工座席,人工座席通過客戶信息管理系統(tǒng)能迅速獲得客戶信息和已發(fā)生的信息交互,無縫地連接自動和人工服務,保證最高的服務質(zhì)量;同時,人工座席也可以方便地切換到自動應答系統(tǒng),降低服務成本,提高效率。語音門戶與呼叫中心 、數(shù)據(jù)中心之間的高速連接將成為企業(yè)存儲 、發(fā)布信息的一個統(tǒng)籌 、高效的方案。

四、豐富多彩、具吸引力的語音互聯(lián)服務

  電信的增值服務讓用戶無論在何地、何時都能直接訪問互聯(lián)網(wǎng)的內(nèi)容,但個性化的服務可使個人和商務快速獲得以及容易訪問他們所關心的內(nèi)容和信息。因而語音門戶的及時出現(xiàn)改變了電話的應用范圍,從而使電話成為用戶得到語音和數(shù)據(jù)服務的一種最便利的設備。 以下是一些重要的應用舉例:

1、傳統(tǒng)聲訊服務和互聯(lián)網(wǎng)信息的利用

  利用語音互聯(lián)系統(tǒng),用戶直接對著電話說出所要查詢的信息或者服務,電信服務平臺根據(jù)自動語音識別技術(shù)識別出用戶語音請求,通過網(wǎng)關到后臺數(shù)據(jù)庫查找,查找到的信息送至TTS文語合成模塊,將信息播放給用戶。

  對傳統(tǒng)聲訊服務和互聯(lián)網(wǎng)信息服務的移植,可以大量利用傳統(tǒng)信息資源為電話用戶提供強大而實用的語音服務。用戶可發(fā)布或收聽新聞、房產(chǎn)、汽車、電腦、家電、生活用品、求職招聘、征婚啟事等信息,查詢天氣、列車、航班、股票、外匯等生活內(nèi)容,可在電話中通過說出商家名稱,查詢到企業(yè)產(chǎn)品、地址、電話及服務內(nèi)容等等,內(nèi)容包羅萬象。

2、個性化娛樂游戲服務
  給用戶提供更適合話音通訊(而不是上網(wǎng)瀏覽)的娛樂服務。只要用戶接通相應的電話,系統(tǒng)就可識別用戶的語音命令,用戶可隨時隨地進行點歌、下載鈴聲圖片、發(fā)送短語、心理測試、運程測算、智力問答、笑話播放等有趣的娛樂游戲,以及交通狀況、體育賽況、網(wǎng)友聊天等等個性化的服務,對于青少年和白領人士都非常具有吸引力。

3、語音電話簿
  語音電話簿是一種嶄新的電信增值業(yè)務,通過電話網(wǎng)絡和互聯(lián)網(wǎng)絡,向用戶提供隨時隨地獲取、永不丟失的通訊錄服務。具體的操作模式是:電信運營商在專門的網(wǎng)絡服務器上為每個用戶開辟一個數(shù)據(jù)存儲區(qū),存儲用戶的電話號碼簿或者其他個人信息;用戶只需撥打指定的特服號,就能直接用語音操作自己的電話簿。

  語音電話簿對運營商和用戶均可以提供明顯的收益,因此海外許多電信運營商已經(jīng)向其用戶提供該項服務,我國臺灣地區(qū)的各大移動通信網(wǎng)絡運營商都大力推廣此項服務,有效地提高了服務的滿意度和忠誠度。
  
  對于用戶而言,使用語音電話簿可以有以下收益:
 。1) 真正實現(xiàn)隨時隨地獲取通訊錄,不再受限于諸如手機、PDA、名片簿等需要攜帶的物品,不會再因為更換手機或者丟失通訊記錄工具等原因給自己帶來聯(lián)系上的損失。
 。2) 通訊錄的維護、通話的實現(xiàn)均可以通過語音進行操作,應用方便簡單。整個過程均是系統(tǒng)自動響應并且完成,從而免除按鍵等繁瑣的操作。
 。3) 通訊錄條目的共享使得聯(lián)系能夠更加緊密,工作協(xié)同效率更高。

  對于運營商而言,向用戶提供語音電話簿有以下收益:

  (1) 語音電話簿是一項有效語音增值服務,對許多用戶有較強的吸引力,從而能夠幫助運營商吸引更多用戶。
 。2) 一個功能先進的通訊錄可以改進用戶進行聯(lián)系的效率,能夠提升用戶的滿意度,從而提高單位用戶的貢獻度(ARPU)。
 。3) 用戶在語音電話簿系統(tǒng)上維護了大量的聯(lián)系人信息,對提高該用戶的忠誠度也很有幫助。

  從系統(tǒng)自身的直接收益分析,可以有以下幾類:撥打特服號的通話費、增值業(yè)務的月費、適當?shù)膹V告收入等。

4、與呼叫中心的結(jié)合
  為了滿足電話用戶上語音互聯(lián)網(wǎng)的需求,語音互聯(lián)網(wǎng)需要強大的語音接入能力,從這一點來看,語音互聯(lián)網(wǎng)和電信級呼叫中心結(jié)合是CTI及相關技術(shù)發(fā)展的一個必然趨勢,這將給呼叫中心注入新的活力,使呼叫中心功能更加強大,也讓用戶得到更好的服務。企業(yè)和電子商務公司將通過語音門戶來發(fā)展他們的客戶并用最低支出來影響和增加他們公司的收入。語音門戶通過門戶提供商給企業(yè)和電子商務公司很好的機會來出售他們的產(chǎn)品以及他們所承諾的服務,從而可節(jié)省公司在廣告方面的費用或使用昂貴的呼叫中心來處理業(yè)務。

五、得意公司國際先進水平的語音識別技術(shù)

1、得意公司的語音識別技術(shù)具有以下特點:
  (1) 非特定人:說話人不限年齡、性別、口音,只要基本上是說普通話即可;
  (2) 連續(xù)語音:能夠識別連續(xù)語音。用戶可以自然地與得意接線員對話,不需刻意停頓或強調(diào)。
  (3) 關鍵詞檢出:能夠從用戶所說的句子中檢出其中的關鍵詞如名字和部門等信息從而幫助用戶順利地轉(zhuǎn)接電話。
  (4) 高識別率:對固定電話、手機電話等均能夠準確地識別,正確識別率高達99%以上。
  (5) 實時的語音識別:優(yōu)化設計的識別引擎使得得意接線員能夠?qū)崟r地為用戶實現(xiàn)電話接轉(zhuǎn)。
  (6) 與硬件無關:識別引擎不需要引入額外的硬件即可實時處理語音流。與電話卡無關的特性使得用戶可以基于任何電話卡構(gòu)建自己的語音互聯(lián)網(wǎng)絡系統(tǒng)。

2、得意公司設計的語音互聯(lián)網(wǎng)絡系統(tǒng)具有以下優(yōu)點:
  (1) 系統(tǒng)的靈活性:交互式語音平臺提供了流程開發(fā)工具,可根據(jù)業(yè)務需要編寫業(yè)務流程,以滿足用戶的需求,其網(wǎng)絡系統(tǒng)能支持多種操作系統(tǒng)平臺。
  (2) 系統(tǒng)的可維護性:系統(tǒng)運行的各個參數(shù),可根據(jù)業(yè)務需要及時調(diào)整,方便管理。
  (3) 系統(tǒng)的可擴展性:系統(tǒng)具有模塊化特點,系統(tǒng)的運營者可方便實現(xiàn)系統(tǒng)的平滑升級,同時也大大地簡化了系統(tǒng)的維護管理。
  (4) 優(yōu)良的性價比:系統(tǒng)能節(jié)省過多的人員配備,又能節(jié)省運營成本,更可為用戶提供低成本的、獨特的、二十四小時的自動標準客戶服務。

3、系統(tǒng)軟件模塊設計


  與上述功能結(jié)構(gòu)相對應,系統(tǒng)包含如下的軟件模塊:

  (1)語音采集處理服務軟件:用于采集各路呼入的話音提交給總控服務程序,并將總控程序發(fā)回的反饋應答播放到電話信道上;
 。2)總控服務程序:用于接收話音輸入,監(jiān)控各個服務器的狀態(tài)和負載,動態(tài)分配語音識別任務,將特定的應答信息或識別結(jié)果反饋給語音采集處理程序;
  (3)關鍵詞檢測識別引擎:用于從話音中識別出特定的用戶名和呼叫指令;
 。4)應用層軟件:安裝在數(shù)據(jù)/通信服務器上,負責與交換機和總控程序進行交互。它根據(jù)識別結(jié)果向交換機發(fā)送電話轉(zhuǎn)接指令(例如DTMF鍵碼)。
 。5)網(wǎng)絡通信軟件:用于為上述各個軟件服務程序提供底層的網(wǎng)絡通信支持。

得意音通公司供稿



相關鏈接:
得意珠三角綜合智能信息增值平臺項目中標 2009-08-20
北京軟件產(chǎn)品質(zhì)量檢測檢驗中心對《海量語音文件的目標說話人篩選系統(tǒng)》進行測試 2009-06-25
廣東政府和清華大學舉行了全面開展產(chǎn)學研合作協(xié)議簽約儀式 2009-06-25
得意中文整句輸入法V1.0開源for Windows Mobile5.0 2009-01-23
得意聲紋識別VPR4.0_b20080808新版本發(fā)布 2008-08-27

分類信息:     技術(shù)_語音識別_解決方案