首頁>>廠商>>語音識別與合成>>科大訊飛

科大訊飛語音門戶系統(tǒng)解決方案

2002/04/01

一、語音門戶系統(tǒng)概述

  互聯(lián)網是包羅萬象的,這不僅僅是表現(xiàn)在內容上,也應該表現(xiàn)在其形式多樣、語種繁多。語音合成技術在網站語音門戶中的應用可以提供諸如有聲電子郵件、、語音聊天室、電話購物等服務。在不遠的將來,語音門戶系統(tǒng)必將成為一個全能的“翻譯器”,將無窮的互聯(lián)網資源通過電話提供給用戶,為用戶提供全天候、全方位的服務。如果說因特網的確充滿了無數商機的話,那么,語音接入服務的前景聽起來的確令人垂涎,因為對于任何用戶來講,撥個電話僅是舉手之勞的事。

  中國第一代語音門戶--TOM公司的TOM Voice即是一個概念性的樣例,它結合了語音識別和語音合成,用戶只需要撥打熱線電話,就會得到股票、航班、酒店、天氣等信息,還可以通過電話訂餐和叫出租車等等。而注冊用戶則可以根據預先設定的條件通過電話收聽電子郵件、搜索聯(lián)系人、確定日程安排等等。

  如果語音門戶能夠很快的成熟應用起來,必然會在很大程度上給人們的工作生活帶來便利,同時也會對眾多的ISP、ICP帶來新的發(fā)展和機遇。

1、市場機遇分析

1.1 互聯(lián)網信息的爆炸性增長

  近年來,全球范圍內Internet出現(xiàn)了爆炸性的增長,它越來越強的滲透到人類傳統(tǒng)生產生活的各個方面,在極大的提高全社會的運作效率的同時,自身也在使用成本、可用性、易操作性等方面不斷進步。據中國互聯(lián)網中心年初的調查報告,目前有約2000萬人使用互聯(lián)網,而其中80%以上的用戶使用互聯(lián)網主要的目的就是獲取信息。隨著互聯(lián)網信息的爆炸性增長人們對于信息的需求也有了越來越高的要求:

  在信息的獲取手段上,電話、傳真、計算機、PDA等各種多媒體信息終端競相發(fā)揮著自己的優(yōu)勢,但同時人們更希望能夠不受任何時間、空間以及設備的限制更自由的獲取信息;隨著工作與生活節(jié)奏的加快,使信息的時效性尤為凸顯,股市行情、價格動態(tài)、促銷信息等等動態(tài)信息為信息供求雙方帶來巨大的經濟效益,而來自于計算機網絡和數據庫中的信息,利用先進的計算機技術進行搜索和整理之后為人們提供的信息在市場全球化趨勢下顯得更為重要;互聯(lián)網為用戶提供了豐富多彩的個性化服務、交互式服務,電子商務的發(fā)展使企業(yè)與企業(yè)之間、企業(yè)與用戶之間的溝通更為密切、更為深入,越來越多的人需要定制服務的類型和內容,來滿足不同人的要求。

1.2 互聯(lián)網應用的發(fā)展趨勢

  正像上面所描述的,在當今飛速發(fā)展的信息社會,“移動”與“互聯(lián)”已經成為不可阻擋的潮流,越來越多的人們要通過網絡來優(yōu)化自己的生活,隨時隨地獲取信息并進行基于電子商務平臺的交易。Internet的蓬勃發(fā)展和迅速普及已逐漸使很多人把從網上獲取信息和通過網絡實現(xiàn)電子商務,視作日常生活中的一部分。

  然而,人們通過計算機上網的同時,也越來感到這種方式受到時間、地點等諸多因素限制,很難做到信息的及時獲取,人們希望通過隨處可見的電話得到自己所需要的信息。如果采用雇傭話務員提供信息服務的方式,不僅成本昂貴,而且由于工作繁重容易導致接聽人員服務水平下降。而通過傳統(tǒng)的自動聲訊服務方式,雖然也可以獲取一些信息,但是由于電話機按鍵的限制,許多具體的應用不是難以實現(xiàn)。

  由于以上原因,人們越來越希望可以通過電話設備實現(xiàn)快速便捷的交流,即通過電話接入網絡并操縱遠程的信息源,以得到信息或進行電子化交易。交談式語言是人類最自然的交流方式,通過語音瀏覽和接入互聯(lián)網,也一直是人類的追求目標。采用語音接入不僅方便快捷,而且,這種語音技術將令使用者無論在何時、身處何地,都可以利用手中的電話裝置,就能輕松接入網絡,得到所需信息或購買商品及服務。

  另外不容忽視的一點是中國的互聯(lián)網發(fā)展現(xiàn)狀,由于地區(qū)的差異和經濟水平的限制,我國上網的企業(yè)和個人半數以上分布于沿海發(fā)達城市,對于大多數普通百姓而言,計算機應用水平仍然很低,而主動使用計算機上網獲取信息的意識更有待加強。因此讓互聯(lián)網絡帶來的便利服務于尋常百姓家就存在著各種各樣的障礙。而公用電話網(PSTN)經過這些年的發(fā)展,電話終端的普及率已經達到了相當的水平,目前我國的電話網絡用戶超過二億以上。相比之下使用電話獲取信息更符合我國目前的信息發(fā)展現(xiàn)狀。

  語音門戶(Voice Portal)的出現(xiàn),正滿足了人們這些需要,為互聯(lián)網詮釋出全新的涵義。

1.3 發(fā)展趨勢與現(xiàn)存矛盾創(chuàng)造的市場機遇

  信息的爆炸性增長、互聯(lián)網服務的不斷提升所帶來的強調“快速”、“移動”、“互聯(lián)”的發(fā)展趨勢,以及計算機網絡設施和應用水平的限制所造成的應用矛盾。語音門戶運用電話服務方式所具有的廣泛的普及性和使用的方便性等特點,為我國的信息服務業(yè)的發(fā)展提供了一個難得的市場機遇。

  因而語音門戶工程已經被國內的電信運營商列入增值服務的計劃之中,如移動的夢網工程。AT&T Wireless公司也在日前宣布,提供語音門戶站點,讓客戶利用語音命令沖浪無線Web,提供這類服務的運營商正日益增多。

2、方案中的核心技術

  語音門戶要求系統(tǒng)可以進行動態(tài)、海量信息的數據查詢以及互聯(lián)網絡上信息的訪問,需使用的核心技術有:

  1)語音合成技術(TTS):用以將文本信息轉換為語音信息提供給用戶

  2)語音識別技術(ASR):用以取代繁瑣的按鍵輸入,使輸入更為便捷和人性化。

  3)VXML技術:用以IVR平臺與互聯(lián)網絡交互信息。(IVR:Interactive Voice Response,交互式語音應答系統(tǒng)。)

  對于信息服務來說,TTS和ASR的融合意味著兩重含義。其一,由于聲音更加接近人類的語言,改進后的TTS增強了用戶對該技術的認可程度;其二,更加自然的TTS和高質量的語音識別器能讓計算機和人們進行真正意義上的對話,這樣,計算機就能理解對方(人)說的什么,并且在自己模糊不清的時候,向對方(人)詢問,在交流中明晰客戶的需求。

2.1 核心技術描述

  2.1.1語音合成技術

  語音合成技術的本質是將文本信息轉化為語音信息,是實現(xiàn)人機語音通信,建立一個有聽和講能力的口語系統(tǒng)所必需的關鍵技術之一。

  在信息爆炸式增長的現(xiàn)代社會,信息有兩個很顯著的特征:信息量大、信息變化快。但是對于電話信息服務系統(tǒng)來說,它與客戶之間的“界面” 主要是語音,如何用語音來傳遞這些海量和動態(tài)的信息,這就是必須用到語音合成技術。

  傳統(tǒng)的預錄音方式,需要人工將這些信息以錄音的方式預先存放好,其漫長的制作周期和繁重的工作量,顯然已經越來越顯得力不從心。而語音合成技術(TEXT TO SPEECH),能夠將各種文字信息轉化成連續(xù)的語音,是電話信息服務系統(tǒng)成為提供高質量、智能化的語音服務的關鍵技術,可以預見,語音合成技術在電話信息服務行業(yè)中將會有非常廣闊的應用前景。

  2.1.2語音識別技術

  語言是人類進行信息交流的最主要、最常用、最直接的方式。語音識別技術是實現(xiàn)人-機對話的一項重大突破,在國外近年來發(fā)展十分迅速,其應用也逐步得到推廣。

  傳統(tǒng)電話服務從事服務性行業(yè)的公司通過大量客戶服務員為客戶翻查和處理所需資料,答復客戶所需的資訊,但是長期聘用和培訓大量這些客戶服務員,成本大幅上升,并且容易造成人為的失誤,嚴重地影響到企業(yè)的服務質量和形象。近幾年逐漸普及的電話自動應答(IVR)處理了不少簡單而又重復的咨詢工作,節(jié)省生了不少人力,但這種按鍵式的語音自動應答系統(tǒng)卻讓客戶花費很多時間選擇按所需目錄指引來完成的簡單查詢,令用戶倍感煩惱!罢Z音識別”無疑可解決該方面的問題。

  語音識別系統(tǒng)的開發(fā)成功,充分發(fā)揮計算機技術和網絡技術的優(yōu)勢,采用先進的人-機語言對話方式,擺脫電話按鍵的束縛,人們只要像平常一樣對著電話簡單地說出所需服務項目即可輕松獲取自動系統(tǒng)提供的所需信息。

  2.1.3VXML技術

  AT&T,朗訊,摩托羅拉與其他17家公司于1999年聯(lián)合推出語音擴展語言論壇(VXML),用以擬定一項標準,此標準能夠將語音、電話用于因特網。除為消費者服務外,VXML還支持一些商務應用,如話務中心、銀行交易和電子商務。

  其他方面的應用包括:因特網用戶核對電子郵件,獲得天氣預報、股市行情和其他來自電話線的在線數據。用戶也可編寫自己的VXML應用。AT&T,朗訊,摩托羅拉一直都在致力于VXML的不同版本,但基本途徑相同。最終目標是產生統(tǒng)一的標準。

  語音門戶系統(tǒng)是以先進的CTI技術以及開放的Voice XML工業(yè)標準為基礎,架構在CHINANET網上的ICP;通過電話暢游互聯(lián)網,輕松“聽”網上的信息,“說”E-mail,“點擊”網上的鏈接。這是對傳統(tǒng)電話信息服務的一個重大改革;因為接入服務和內容服務的分離,電話信息服務行業(yè)變成了一個開放式的行業(yè),所有傳統(tǒng)的ICP都可以按照Voice XML的標準為提供內容服務,而豐富多樣的內容又必然會刺激用戶的增加以及服務需求的增長。由于引入了VXML相關技術,可將平臺的復雜內容屏蔽,無須熟悉底層平臺即可進行高層應用開發(fā);大大的減輕的開發(fā)的難度,縮短開發(fā)周期,降低人力成本。

2.2 訊飛在核心技術上的優(yōu)勢

  訊飛公司是國內唯一以語音為產業(yè)化方向的863成果產業(yè)化基地。訊飛漢語語音合成技術,是在國家863項目、九五攻關項目、國家自然科學基金項目、以及中國科學院八五重大項目的支持下,歷經十余年拼搏成為國內外同類技術中脫穎而出的"領頭羊"。

  訊飛InterPhonic C&E Rev 1.0語音平臺是訊飛公司基于多語種合成技術推出的智能化合成系統(tǒng),能夠解決在中文和英文混合出現(xiàn)在文本中的情況。通過這個系統(tǒng),不論在合成信息中是包含中文、英文或者是中英文混讀的情況,都能保證合成語音連續(xù)、可懂、自然,相當于普通人說話標準。而且針對大吞吐量的、高性能的、穩(wěn)定的高端應用而開發(fā),提供基于TCP/IP網絡的集群式語音合成服務,語音合成服務采用動態(tài)負載均衡機制對任務進行動態(tài)調度,很好地解決了現(xiàn)代信息社會海量數據和動態(tài)查詢的需求,滿足電信及大型企業(yè)級的CTI應用的要求。

  隨著訊飛公司的成長,訊飛已經在CTI平臺領域、呼叫中心領域、系統(tǒng)集成行業(yè)、語音板卡領域擁有眾多的開發(fā)伙伴。

  在語音識別方面,訊飛是中文語音識別標準化工作組成員單位,歷屆863語音識別唯一指定評測單位以及國家863語音識別數據庫提供單位。而在業(yè)界語音技術規(guī)范制定過程中,訊飛作為唯一的企業(yè)代表,與科技部、技術監(jiān)督局、信標委共同制定中國中文語音技術標準接口。同時訊飛也是國家S863項目中文信息發(fā)展規(guī)劃的起草單位和國內權威的語音標準制定組織中國中文語音創(chuàng)業(yè)聯(lián)盟的發(fā)起者與組織者。

  目前訊飛還是美國Nuance(基于電話信道的語音識別產品銷售額、市場占有率均為全球第一)公司語音識別產品在中國的獨家代理。

  在VXML方面,訊飛成功的開發(fā)出Voice VXML Server,可在P III 500上同時支持120并發(fā)訪問。另一方面,訊飛也是VXML的權威組織“VXML論壇”的成員之一。

3、語音門戶系統(tǒng)的建設

  考慮到在實際應用中,由ISP、ICP或者電信運營商獨力建設語音門戶系統(tǒng)不能充分利用現(xiàn)有資源、發(fā)揮各自的優(yōu)勢,所以建議語音門戶系統(tǒng)的建設構架于電信運營商現(xiàn)有的電話接入平臺之上,而服務內容則尋求與主要ISP、ICP進行合作提供。

  在不影響電信運營商現(xiàn)有平臺的結構和業(yè)務功能的前提下,主要需完成三個功能模塊的系統(tǒng)建設。在動態(tài)信息和海量信息的查詢業(yè)務上,首先必須完成的是對原有的數字錄音回放方式向TTS平臺的升級;進而在進行了TTS改造的平臺上構建互聯(lián)網上的公共信息查詢服務和個性化信息查詢服務;考慮到實際運用情況,在具體業(yè)務方面建設UMS系統(tǒng),可以基于此業(yè)務提供個人定制信息的服務,滿足人們對于及時性、個性化越來越高的要求。

3.1 TTS系統(tǒng)的建設

  傳統(tǒng)的數字錄音回放方式需要人工進行錄音,新興的計算機技術“語音合成”,可以運用有限的系統(tǒng)資源將無限的文本信息合成為可聽的語音信息,從而可以改進傳統(tǒng)的錄音回放方式。在不改變現(xiàn)有平臺的基礎上建立的TTS系統(tǒng)可以在信息服務的信息源提供上帶來如下改進:

  1.就工作量而言,錄音需要大量的人力,在信息量以級數增長的今天,錄音往往無法滿足信息的供給,而語音合成將絕大多數工作由機器代替,人們只需提供現(xiàn)成的文本信息即可輸出聲音信息。

  2.對于動態(tài)的信息,尤其是對實時性要求很高的信息如:股票行情等,如果讓錄音員錄音則至少在半小時后才能對外提供,而語音合成可以實現(xiàn)實時的轉換,每分鐘可刷新一次。

  3.由于信息的高速增長,錄音數據存放和查詢也存在問題。將信息以文本形式存儲在計算機中可節(jié)約大量系統(tǒng)資源再結合計算機技術對數據庫中的信息進行搜索和整理將輸出的結果用語音合成轉換成聲音,這樣就可以解決信息服務中海量信息的存儲和查詢的問題。

  4.錄音的信息維護、修改的工作量比較大。而文本信息的維護和修改相對要容易的多,通過語音合成技術只需對文本信息進行修改就可以完成信息內容的更改和維護工作。

3.2 VXML系統(tǒng)的建設

  互聯(lián)網絡是目前信息的一個最重要的載體,在互聯(lián)網迅速普及并不斷發(fā)展的今天,大量的公共信息可以在網絡上查詢得到。越來越多的信息服務商和個人在網絡上提供信息,同時越來越多的人群正在享受網絡所帶來的便利。

  電信運營商自身擁有強大的信息制作能力,但充分利用好互聯(lián)網絡豐富的資源,以適應信息時代用戶的需求,這就需要整合多方的資源,是一項重要的工作。

  VXML系統(tǒng)的目的就是為了使電話和語音可以應用在互聯(lián)網絡之上,除為消費者服務外,VXML還支持一些商務應用,如話務中心、銀行交易和電子商務。通過VXML技術可以使語音門戶系統(tǒng)訪問到Internet Web上的各種信息,并實現(xiàn)信息的交互。再結合語音合成技術,將文本信息合成為語音信號,用戶就可以通過IVR平臺來訪問Web頁面上的信息了。

  結合VXML技術,語音么努系統(tǒng)可以提供更多的個人信息服務:包括商品交易、金融交易、求職招聘等。相對傳統(tǒng)的同類服務,此類服務與Internet信息共享,更為貼近用戶和可以面對更廣泛的人群。

3.3 UMS系統(tǒng)建設

  統(tǒng)一消息系統(tǒng)(UMS)是一個將各種傳播手段整合的系統(tǒng),結合了各種網絡,用戶可以使用電話、手機、傳真、呼機、數字移動設備和個人電腦等途徑與系統(tǒng)交互信息。在語音門戶平臺中加入UMS系統(tǒng),將有助于平臺提供更多樣化的服務,與用戶結合更為緊密。

  UMS 是語音與數據融合的產物,一系列的服務提供商可以通過提供UMS服務來擴展自己的業(yè)務范圍。UMS服務可以通過統(tǒng)一平臺來提供給用戶, 也可以由服務提供商將各種信息儲存設備集成起來,通過不同途徑提供給用戶。

  有聲電子郵件(Voice-Mail)系統(tǒng)就是UMS系統(tǒng)的一個具體應用,它通過電話、手機等通信工具可以向用戶提供Internet上的E-mail服務。因而人們可以不受設備的限制,隨時隨地的收發(fā)電子郵件,即使身處異地,仍然不會錯過E-mail中攜帶動重要商機。

4、語音門戶系統(tǒng)業(yè)務介紹

  通過以上三個系統(tǒng)的建設,電信運營商與ISP、ICP將可以將各自有優(yōu)勢的資源整合起來,為廣大用戶提供更多更好的服務。使用戶可以了解到網上的各種信息,如金融股票信息、體育快訊、天氣預報、交通情況查詢、防偽查詢、新聞點播、有聲郵件等等。整個系統(tǒng)更易于開展新種類的業(yè)務,更易于維護,資源占用更少。

  從業(yè)務開發(fā)模式劃分可以將其分成兩個類別,海量動態(tài)信息查詢和互聯(lián)網信息查詢。海量動態(tài)信息查詢業(yè)務主要是針對互聯(lián)網上信息量大、更新快的特點,語音門戶系統(tǒng)將從互聯(lián)網上查詢到的信息源傳送至TTS系統(tǒng),然后通過TTS Server提供的TTS服務返回語音數據文件播放給用戶;互聯(lián)網信息查詢業(yè)務將互聯(lián)網絡與電話公眾網結合,從而使用戶可以通過普及便利的電話、手機、傳真等方式獲取互聯(lián)網上豐富的信息。

4.1 海量動態(tài)信息查詢

  海量動態(tài)信息的查詢主要有:證券金融信息、法律法規(guī)、政府公告、交通、運輸、路況信息、旅游信息、考試信息等的查詢。這類信息的特點有兩個:

  訊飛與一些地市160/168聲訊臺合作推出的為個人和機構投資者提供有關金融信息聲訊服務的系統(tǒng)就是一個典型的應用。這項業(yè)務包括具有鮮明特色的預警系統(tǒng)、實時投資分析、實時股票行情、財經新聞、技術分析報告和市場評論等。投資者簡單方便地通過電話(固定電話或移動電話)、傳呼、短消息系統(tǒng)、電子郵件、傳真和電腦來接收這些重要信息。系統(tǒng)也可隨時跟蹤他的投資組合為其提供個性化的信息服務。這些高度個性化的信息服務將即時通知用戶其投資證券價格的變化、重要新聞和其它相關信息,提高用戶的投資回報率。

4.2 個性化信息服務

  個性化信息服務即指為個人提供的滿足其具體需求的信息服務,有兩個方面的要求:一是信息的及時性;二是獲得信息手段的便利性。

  具體業(yè)務包括:統(tǒng)一消息服務、個性化新聞/信息、個人信息助理、統(tǒng)一通信服務等。

  用戶只需通過電話就可以享受到互聯(lián)網上提供的各種個性化的信息服務,可以定制網上新聞、設置個人行程安排。而由于系統(tǒng)中包含UMS系統(tǒng),用戶在獲取信息時可以采取電話、E-mail、傳真等各種手段。

  訊飛與上海知名的ISP聯(lián)合推出的Voice-Mail系統(tǒng),就是基于電話、手機、傳真等通信工具,結合互聯(lián)網絡的電子郵件,為用戶收發(fā)電子郵件提供形式多樣的便利手段。

4.3 電話語音廣告

  電話語音廣告具體有提示音廣告、等待時間廣告、背景音樂廣告等等。電話語音廣告與傳統(tǒng)廣告相比具有很大優(yōu)勢:即時查詢、內容豐富、特號專用、即時播報、廣告費低、撥打者免費收聽等。該類廣告業(yè)務開通后,將受到企事業(yè)單位的普遍歡迎,也會為電信運營商、ISP、ICP帶來直接的經濟效益。

二、語音門戶系統(tǒng)建設方案

1、建設方案總體描述

  TTS系統(tǒng)、VXML系統(tǒng)、UMS系統(tǒng)與已有IVR(電話語音自動應答系統(tǒng))平臺、Internet、PSTN結合的示示意圖如下:

1.1 TTS系統(tǒng)與現(xiàn)有IVR平臺的接入

  IVR是指自動語音應答節(jié)點,TTS Server是科大訊飛開發(fā)的語音合成服務器,為了充分利用資源,可以在系統(tǒng)內建設本地數據庫,存放一定量的信息。

圖:IVR/TTS基本調用流程示意圖

  如圖所示,一個包含TTS服務的電話訪問流程大致可分為七步:

  1.用戶電話撥入,系統(tǒng)IVR響應,獲得用戶按鍵等信息。

  2.IVR根據用戶輸入,向VXML系統(tǒng)(或本地數據庫)申請數據。

  3.信息源返回文本數據給IVR。

  4.IVR通過其TCP通訊接口將需要合成的文本信息發(fā)送給TTS Server。

  5.TTS Server將用戶文本合成為語音文件放置在一個共享目錄中。

  6.TTS Server通過其TCP通訊接口通知IVR合成完畢,并返回文件名。

  7.IVR播放相應的語音文件給電話用戶。

1.2 VXML系統(tǒng)與現(xiàn)有IVR平臺的接入

  在這里VXML是指Voice XML的服務器,它負責接收IVR轉發(fā)過來的用戶按鍵請求,并返回信息數據和操作指令。

圖:IVR/Voice XML基本交互流程示意圖

  設計思路

  1.增加VoiceXML服務。

  2.在不改變原有平臺的情況下,能夠利用平臺的標準通信接口調用VoiceXML服務。

  3.接口應盡量簡便,方便調用。

  4.接口應能提交用戶按鍵數據和其他信息等。

  5.接口應能返回相應的互聯(lián)網信息和操作指令等。

1.3 UMS系統(tǒng)與現(xiàn)有IVR平臺的接入

  下圖為UMS系統(tǒng)的示意圖。其中IVR平臺與UMS 系統(tǒng)相連接。而UMS系統(tǒng)通過相應的服務模塊與不同的網絡進行信息共享,同時也可以和外部的Web Server進行信息交互。

  UMS系統(tǒng)通過一個唯一的信箱綜合管理用戶所有訊息,方便存檔和整理,用戶也無需去記住眾多的帳號、密碼。而通過傳真、短信息、尋呼、語音等資源的整合,用戶可以很方便的通過電腦、電話來收取自己的郵件、信息、語音留言以及傳真等,不需要下載任何軟件,也不需要購買傳真機和留言電話。

  用戶可以通過IVR系統(tǒng)與UMS系統(tǒng)進行交互,查詢是否有最新的定制信息、郵件等到達,同時也通過平臺來回復郵件、設定一些簡單參數。通過用戶在系統(tǒng)的設置,在用戶有新郵件或是定制的重要信息到達的時候,系統(tǒng)可以按照用戶設置,主動撥打用戶電話、手機進行通知。

1.4 信息服務流程

  互聯(lián)網信息服務

  互聯(lián)網信息訪問需要通過VXML系統(tǒng)來實現(xiàn)。當語音門戶平臺通過ASR系統(tǒng)接收到用戶訪問互聯(lián)網絡信息源的要求時,平臺向VXML系統(tǒng)提交訪問請求,VXML系統(tǒng)使用VXML規(guī)范訪問Internet上的信息源從而獲得需要的信息;VXML系統(tǒng)再根據IVR平臺的請求返回結果;IVR平臺獲得文本后再通過TTS系統(tǒng)合成為語音,播放給用戶。

  UMS服務

  結合UMS系統(tǒng),語音門戶平臺可以提供給用戶可定制的個性化信息服務。

  當用戶主動訪問UMS系統(tǒng)時,只需要輸入唯一的身份標識號碼,UMS系統(tǒng)將會到本地數據庫中根據用戶信息取得用戶詳細信息和用戶接收的信息內容,再將這部分信息返回平臺,用戶可以通過ASR模塊來查詢需要信息,信息內容將會通過TTS模塊合成給用戶。UMS系統(tǒng)可以更進一步的根據用戶的需要,主動向用戶提供重要信息服務,按照用戶的設置將重要信息以最快最直接的方式發(fā)送給用戶。

  用戶也可以利用電話對郵件、留言、傳真等接收內容直接進行回復、轉發(fā)、刪除等操作,還可以通過語音對用戶參數進行設定等操作,這些操作信息通過UMS系統(tǒng)進行執(zhí)行,返回相應的操作成功信息,通過TTS模塊給用戶反饋。

2、TTS系統(tǒng)結構

2.1 總體架構

  語音門戶系統(tǒng)的TTS平臺建設基于現(xiàn)有的軟、硬件,主要增加TTS語音合成服務器。語音合成服務器支持30路的實時語音合成,根據系統(tǒng)業(yè)務量可以通過增加語音合成服務器的方式進行擴容。合成代理服務器可以運行在TTS語音合成服務器上。

圖:增加TTS Server后的交換平臺

2.2 訊飛語音服務器技術特點

  2.2.1通訊機制

  語音合成的服務器和客戶端通過面向連接的TCP/IP協(xié)議來相互通訊,支持跨平臺訪問的特性。服務器運行在Windows NT 4.0操作系統(tǒng)上,能支持30個并發(fā)的客戶端的實時性語音合成請求。客戶端可以是Windows 9x/NT,Linux,Unix等支持TCP/IP進行網絡通訊的操作系統(tǒng)。客戶端和服務器通過自定義的網絡通訊規(guī)范進行交互,客戶端可以控制服務器得多項合成特性,可以取得服務器運行狀態(tài)的信息。

  2.2.2資源管理機制

  在大容量,高性能的應用場合,為了充分利用有限的語音合成資源,多臺客戶端可以通過動態(tài)負載均衡(Load Balance)機制共享語音合成服務器。客戶端的組件LB AGENT(Load Balance Agent)能根據多臺服務器發(fā)送的當前負載信息,智能的選擇負載最輕的服務器發(fā)送連接請求。

  2.2.3狀態(tài)監(jiān)視和報警機制

  通過客戶端運行的代理程序,語音合成客戶端能取得多個服務器的當前狀態(tài)信息。當服務器發(fā)生錯誤,不能繼續(xù)服務時,語音應用服務平臺還提供了的客戶端報警機制。

3、VXML系統(tǒng)結構

3.1 總體架構

  在數據中心設置VXML服務器,提供訪問互聯(lián)網絡的接口,地市臺與中心服務器使用標準的基于應用層的協(xié)議通訊。地市臺與數據中心交換網頁和其他數據,這種交換是實時的。各地市的電話用戶就能利用運營商提供本地電話號碼訪問互聯(lián)網上的信息。

  數據中心是Voice XML服務的發(fā)布者,各地IVR平臺為是Voice XML的瀏覽器,整個語音門戶系統(tǒng)可以描述為一個服務中心、多個資源瀏覽節(jié)點。

  建成后的數據中心具有以下特點:

  1.運行可靠平穩(wěn)。

  2.可平滑擴容。

  3.便捷的系統(tǒng)管理。

  4.易用的開發(fā)平臺。

  5.可為多種平臺提供服務。

3.2 平臺的負載平衡機制

  VXML 解釋服務器的負載自適應功能

  單個VXML解釋服務器中內建先進的負載自適應功能。所謂負載自適應功能就是:VXML解釋服務可以根據負載的歷史紀錄計算出下一個時段可能被分配的負載數或者是計算出下一個周期的負責分布情況,通過這些預估數據以最優(yōu)化的性能提供服務。

  VXML 解釋服務器的LoadBalance服務器

  對于一個網段中的VXML解釋服務器來說,將有一個或者多個LoadBalance服務器做動態(tài)的負載平衡,每臺VXML解釋服務器來說有一個NM Agent(NetWork Management Agent)負責與Load Balance Server通訊。

網絡結構簡圖如下:

  Web/VXML互訪網關的負載平衡

  由于VXML 解釋服務器的負載壓力很大,因此首先應該將Web/VXML安裝在與VXML解釋服務器不同的網段中。由于Web/VXML互訪網關是基于Web Server的因此,也必須作相應的負載平衡工作。

  該負載平衡方案可以采用DNS的負載均衡或者是反向代理負載均衡,具體采用要視服務規(guī)模而定,如果是大規(guī)模的服務推薦采用后者。

3.3 平臺擴容設計

  當中心數據訪問量達到一定程度時,需要進行系統(tǒng)的擴容。擴容工作包括兩個方面。一個是拓寬網絡帶寬,一個是提高VXML服務規(guī)模。

  這里所指網絡帶寬包括中心的Internet出口、地市臺訪問中心出口。數據中心訪問的總體規(guī)模加大時,要求中心具有相應的訪問Internet的能力。大的地市臺業(yè)務增加很快時同樣要求其訪問中心能力的增強。

  制約中心VXML處理速度主要瓶頸在對VXML的解釋上。擴容時需要增加解釋器服務器。動態(tài)負載平衡服務器根據會話管理器的會話請求,找到負載最輕的解釋器服務器,分配解釋任務。

  隨著語音門戶系統(tǒng)業(yè)務的發(fā)展,數據中心管理運行的VXML應用增加,這時VXML發(fā)布服務器的響應速度可能也會受影響,需要根據中心數據訪問量和應用規(guī)模增加VXML發(fā)布服務器。

4、UMS系統(tǒng)結構

4.1 總體架構

  該系統(tǒng)將電話網和Internet網結合在一起,極大地擴大了兩大網絡各自的用戶群,電話用戶可以用電話或者傳真獲取Internet上的信息,電子郵件服務也可以不局限于Internet,而能對廣大的電話用戶開放。統(tǒng)一消息平臺為用戶帶來的是信息的方便、及時,使人們在任何時間、任何地點都能夠獲取需要的信息。 統(tǒng)一消息服務系統(tǒng)解決了各種不同的消息表現(xiàn)格式間的兼容問題,從而將語音、傳真、電子郵件、語音信箱/語音郵件等不同信息格式的業(yè)務有機地集成于一體。

4.2 業(yè)務功能描述

  UMS系統(tǒng)將電話網、尋呼網、移動網、互聯(lián)網相互融合,在各個不同網絡間提供通信和信息交換,向最終用戶提供在任何時間、任何地點,以任何方式(如人工電話、自動語音、自動傳真、尋呼、手機短訊、手機上網、電子郵件、WWW瀏覽等)的個人通信服務、個人化信息內容服務和個人化電子商務服務。

  UMS系統(tǒng)具有個性化網絡信息商務服務、個人通信服務、個性化信息服務、個人化電子商務服務等幾項功能,具體包括:

  1)個性化網絡信息商務服務。

  UMS系統(tǒng)是一套具有標準化和開放性的綜合信息增值服務平臺,系統(tǒng)運營商根據此系統(tǒng)提供的E-Mail轉電話(手機、傳真、尋呼)、電話(手機、傳真、尋呼)轉Mail、電話(手機、傳真、尋呼、Mail)留言、個人定制信息到達通知……等功能最終實現(xiàn)為用戶提供全面的個性化信息網絡商務服務。

  2)個人通信服務。

  個人通信服務的主要目的是借助個人現(xiàn)有的通訊設備如:尋呼機、手機、固定電話等,在維持現(xiàn)有設備功能的基礎上,增加新的服務功能,實現(xiàn)與Internet的結合,本系統(tǒng)為每個客戶建立一個獨立的、可以接受文本、傳真、語音、圖象等多種形式的郵件信箱,客戶可以以任意的方式來獲取其中的內容,同時當有郵件到達后,系統(tǒng)可以采用該用戶自己設定的方式進行通知,使得本系統(tǒng)能夠成為一個體貼入微的事務助理。

  3)個性化信息服務。

  信息的價值在于用戶對它的使用,在于使用過程中能為用戶帶來更大的價值;個性化信息服務專注的核心問題就是幫助用戶充分有效地利用各種個性化信息內容,徹底提高各種商務活動的運作效率和獲取更大的商業(yè)價值。用戶可以通過自動語音服務、WWW頁面、WAP頁面以及人工服務等方式從本系統(tǒng)提供的信息服務中,選取符合自己要求的信息類別,如:某個類別的股票信息、某個類別的新聞信息、某個類別的求購信息、某個類別的出售信息等,并設置信息通知的形式如:呼機、中文短信、電子郵件等,也可以設置信息發(fā)送的時間以及間隔如:每一個小時發(fā)送一次、有新的內容時發(fā)送等;系統(tǒng)將根據個人的設置需要,按照約定的時間自動將客戶關心的信息類別,按照客戶約定的方式發(fā)布到客戶約定的接收設備上。

  同時系統(tǒng)建設了智能化的個人行為模型分析功能,用戶的個性化要求必須從了解用戶入手。用戶的性別、年齡、身份、職業(yè)、收入、喜好等個人資料是判斷用戶個性化要求的基礎,而用戶對信息的使用、對服務的申請以及所有的消費行為更是構成其個性化要求的重要依據。個人行為模型分析即是利用系統(tǒng)記錄的用戶個人資料及行為記錄信息,對用戶進行研究和分析,為每個用戶建立行為模型并在不斷的應用中加以修正。系統(tǒng)提供個性化服務,即是根據這些模型,為用戶提供更加具有主動性和針對性的各種服務。并通過了解用戶對服務的認識和使用程度,以發(fā)展重點服務和發(fā)掘潛在服務。

  4)個人設置。

  通過電話設置各種參數,包括修改帳號密碼、設定通知時間、設定通知方式、設定通訊號碼等等。

附錄:

  術語簡介

  1.TTS:Text To Speech,語音合成,是將文字轉成語音的一種技術。

  2.ASR: Automatic Speech Recognize,語音識別。

  3.IVR:Interactive Voice Response,交互式語音應答系統(tǒng)。

  4.PSTN:Public Switched Telephone Network,公眾電話網。

  5.CTI:Computer Telephony Integration,計算機電信集成,將電話網和計算機網結合在一起的技術。

  6.VXML: Voice Extensible Markup Language,語音擴展標記語言,可以實現(xiàn)語音訪問互聯(lián)網絡。

中科大訊飛信息科技有限公司供稿 CTI論壇編輯


相關鏈接:
訊飛暢言語音教具系統(tǒng)榮獲“創(chuàng)新軟件產品” 2009-09-08
科大訊飛嵌入式語音新產品發(fā)布會在深圳舉行 2009-09-07
“會說話”的顯示屏提升居民小區(qū)信息服務水平 2009-09-07
訊飛語音助力太平人壽客服中心 2009-08-28
訊飛語音助力CDMA手機競爭終端市場 2009-08-14

分類信息:  語音合成TTS_與_語音識別ASR  語音合成TTS_與_voicexml  語音合成TTS_與_voicexml  語音識別ASR_與_voicexml
           語音識別ASR_與_voicexml