訊飛語音互聯網解決方案
2001/07/31
一、市場機遇分析
1、互聯網信息的爆炸性增長
近年來,全球范圍內Internet出現了爆炸性的增長,在極大的提高全社會的運作效率的同時,自身也在使用成本、可用性、易操作性等方面不斷進步;現在Internet的主體顯然已經是全球廣大網民了。據中國互聯網中心年初的調查報告,目前有約2000萬人使用互聯網,而其中80%以上的用戶使用互聯網主要的目的就是獲取信息。隨著互聯網信息的爆炸性增長人們對于信息的需求也有了越來越高的要求:
在信息的獲取手段上,電話、傳真、計算機、PDA等各種多媒體信息終端競相發(fā)揮著自己的優(yōu)勢,但同時人們更希望能夠不受任何時間、空間以及設備的限制更自由的獲取信息;隨著工作與生活節(jié)奏的加快,使信息的時效性尤為凸顯,股市行情、價格動態(tài)、促銷信息等等動態(tài)信息為信息供求雙方帶來巨大的經濟效益,而來自于計算機網絡和數據庫中的信息,利用先進的計算機技術進行搜索和整理之后為人們提供的信息在市場全球化趨勢下顯得更為重要;互聯網為用戶提供了豐富多彩的個性化服務、交互式服務,電子商務的發(fā)展使企業(yè)與企業(yè)之間、企業(yè)與用戶之間的溝通更為密切、更為深入,越來越多的人需要定制服務的類型和內容,來滿足不同人的要求。
2、計算機網絡設施和應用水平限制
互聯網是在計算機應用普及到一定階段的產物。而在我國,計算機網絡產業(yè)的起步卻早于計算機應用的普及。計算機普及率尚未達到要求,網絡建設也有待加強,由于地區(qū)的差異和經濟水平的限制,我國上網的企業(yè)和個人半數以上分布于沿海發(fā)達城市,對于大多數普通百姓而言,計算機應用水平仍然很低,而主動使用計算機上網獲取信息的意識更有待加強。因此讓互聯網絡帶來的便利服務于尋常百姓家就存在著各種各樣的障礙。
而公用電話網(PSTN)經過這些年的發(fā)展,電話終端的普及率已經達到了相當的水平,目前我國的電話網絡用戶超過二億以上。相比之下使用電話獲取信息更符合我國目前的信息發(fā)展現狀。
3、矛盾的解決創(chuàng)造的市場機遇
信息的爆炸性增長、互聯網服務的不斷提升,和計算機網絡設施和應用水平的限制成為了一對日益突出的矛盾。語音互聯網運用電話服務方式所具有的廣泛的普及性和使用的方便性等特點,克服了現階段計算機網絡設施和應用水平的限制,為我國的信息服務業(yè)的發(fā)展提供了一個難得的市場機遇。
因而語音互聯網工程已經被各大電信運營商列入增值服務的計劃之中,如移動的夢網工程。AT&T Wireless公司日前宣布,提供語音門戶站點,讓客戶利用語音命令沖浪無線Web,提供這類服務的運營商正日益增多。
二、方案中的核心技術
語音互聯網要求系統(tǒng)可以進行動態(tài)、海量信息的數據查詢以及互聯網絡上信息的訪問,需使用的核心技術有:
對于信息服務來說,TTS和ASR的融合意味著兩重含義。其一,由于聲音更加接近人類的語言,改進后的TTS增強了用戶對該技術的認可程度;其二,更加自然的TTS和高質量的語音識別器能讓計算機和人們進行真正意義上的對話,這樣,計算機就能理解對方(人)說的什么,并且在自己模糊不清的時候,向對方(人)詢問,在交流中明晰客戶的需求。
1、核心技術描述
語音合成技術
語音合成技術的本質是將文本信息轉化為語音信息,是實現人機語音通信,建立一個有聽和講能力的口語系統(tǒng)所必需的關鍵技術之一。
在信息爆炸式增長的現代社會,信息有兩個很顯著的特征:信息量大、信息變化快。但是對于電話信息服務系統(tǒng)來說,它與客戶之間的“界面” 主要是語音,如何用語音來傳遞這些海量和動態(tài)的信息,這就是必須用到語音合成技術。
傳統(tǒng)的預錄音方式,需要人工將這些信息以錄音的方式預先存放好,其漫長的制作周期和繁重的工作量,顯然已經越來越顯得力不從心。而語音合成技術(TEXT TO SPEECH),能夠將各種文字信息轉化成連續(xù)的語音,是電話信息服務系統(tǒng)成為提供高質量、智能化的語音服務的關鍵技術,可以預見,語音合成技術在電話信息服務行業(yè)中將會有非常廣闊的應用前景。
語音識別技術
語言是人類進行信息交流的最主要、最常用、最直接的方式。語音識別技術是實現人-機對話的一項重大突破,在國外近年來發(fā)展十分迅速,其應用也逐步得到推廣。
傳統(tǒng)電話服務從事服務性行業(yè)的公司通過大量客戶服務員為客戶翻查和處理所需資料,答復客戶所需的資訊,但是長期聘用和培訓大量這些客戶服務員,成本大幅上升,并且容易造成人為的失誤,嚴重地影響到企業(yè)的服務質量和形象。近幾年逐漸普及的電話自動應答(IVR)處理了不少簡單而又重復的咨詢工作,節(jié)省生了不少人力,但這種按鍵式的語音自動應答系統(tǒng)卻讓客戶花費很多時間選擇按所需目錄指引來完成的簡單查詢,令用戶倍感煩惱!罢Z音識別”無疑可解決該方面的問題。
語音識別系統(tǒng)的開發(fā)成功,充分發(fā)揮計算機技術和網絡技術的優(yōu)勢,采用先進的人-機語言對話方式,擺脫電話按鍵的束縛,人們只要像平常一樣對著電話簡單地說出所需服務項目即可輕松獲取自動系統(tǒng)提供的所需信息。
VXML技術
AT&T,朗訊,摩托羅拉與其他17家公司于1999年聯合推出語音擴展語言論壇(VXML),用以擬定一項標準,此標準能夠將語音、電話用于因特網。除為消費者服務外,VXML還支持一些商務應用,如話務中心、銀行交易和電子商務。
其他方面的應用包括:因特網用戶核對電子郵件,獲得天氣預報、股市行情和其他來自電話線的在線數據。用戶也可編寫自己的VXML應用。AT&T,朗訊,摩托羅拉一直都在致力于VXML的不同版本,但基本途徑相同。最終目標是產生統(tǒng)一的標準。
語音互聯網是以先進的CTI技術以及開放的Voice XML工業(yè)標準為基礎,架構在CHINANET網上的ICP;通過電話暢游互聯網,輕松“聽”網上的信息,“說”E-mail,“點擊”網上的鏈接。這是對傳統(tǒng)電話信息服務的一個重大改革;因為接入服務和內容服務的分離,電話信息服務行業(yè)變成了一個開放式的行業(yè),所有傳統(tǒng)的ICP都可以按照Voice XML的標準為提供內容服務,而豐富多樣的內容又必然會刺激用戶的增加以及服務需求的增長。由于引入了VXML相關技術,可將平臺的復雜內容屏蔽,無須熟悉底層平臺即可進行高層應用開發(fā);大大的減輕的開發(fā)的難度,縮短開發(fā)周期,降低人力成本。
2、訊飛在核心技術上的優(yōu)勢
訊飛公司是國內唯一以語音為產業(yè)化方向的863成果產業(yè)化基地。訊飛漢語語音合成技術,是在國家863項目、九五攻關項目、國家自然科學基金項目、以及中國科學院八五重大項目的支持下,歷經十余年拼搏成為國內外同類技術中脫穎而出的"領頭羊"。
KD 2000漢語文語轉換系統(tǒng)不僅在語音合成技術方面有進一步的發(fā)展,特別是在文本預處理中圍繞層次化結構思想,運用大量的統(tǒng)計和規(guī)則的方法,較好地解決了三個大的處理環(huán)節(jié):特殊符號處理,分詞處理和拼接處理,使得其在整體性能有很大提高。以KD 2000文語轉換為核心各種行業(yè)及桌面應用產品已開始在市場占有一席之地,并與聯想、華為等業(yè)界領先廠商建立戰(zhàn)略合作關系。
KD 2000作為訊飛主流語音合成技術的代表,擁有業(yè)界頂尖的合成效果。1999年11月18日,在國家863計劃智能計算機主題專家組鑒定會上,KD 2000被評定在漢語文語轉技術上處于國際領先、實用化方面已走在世界前列,并建議加速產業(yè)化進程。2000年6月,訊飛KD 2000中文語音合成系統(tǒng)獲得了“2000年中國國際軟件博覽會”參展產品創(chuàng)新獎。
同時KD 2000已經受了行業(yè)用戶的大規(guī)模大壓力應用的考驗,通過了國際著名服務器提供商的綜合測試,同時也通過了國內最大的電信設備提供商大壓力穩(wěn)定性測試,以及國內計算機行業(yè)最負盛名的廠商所進行的性能測試。
隨著訊飛公司的成長,訊飛已經在CTI平臺領域、呼叫中心領域、系統(tǒng)集成行業(yè)、語音板卡領域擁有眾多的開發(fā)伙伴。
在語音識別方面,訊飛是中文語音識別標準化工作組成員單位,歷屆863語音識別唯一指定評測單位以及國家863語音識別數據庫提供單位。
而在業(yè)界語音技術規(guī)范制定過程中,訊飛作為唯一的企業(yè)代表,與科技部、技術監(jiān)督 局、信標委共同制定中國中文語音技術標準接口。同時訊飛也是國家S863項目中文信息發(fā)展規(guī)劃的起草單位和國內權威的語音標準制定組織��中國中文語音創(chuàng)業(yè)聯盟的發(fā)起者與組織者。
在VXML方面,訊飛成功的開發(fā)出Voice VXML Server,可在P III 500上同時支持120并發(fā)訪問。另一方面,訊飛也是VXML的權威組織——“VXML論壇”的成員之一。
三、語音互聯網的建設
語音互聯網的建設構架于電信運營商現有的電話接入平臺之上,在不影響現有平臺的結構和業(yè)務功能的前提下,主要需完成三個功能模塊的系統(tǒng)建設。在動態(tài)信息和海量信息的查詢業(yè)務上,首先必須完成的是對原有的數字錄音回放方式向TTS平臺的升級;進而在進行了TTS改造的平臺上構建互聯網上的公共信息查詢服務和個性化信息查詢服務;考慮到實際運用情況,在具體業(yè)務方面建設有聲電子郵件系統(tǒng),使語音互聯網能具備Internet最重要的服務之一 ——“電子郵件服務”。
1、TTS系統(tǒng)的建設
傳統(tǒng)的數字錄音回放方式需要人工進行錄音,新興的計算機技術��“語音合成”,可以運用有限的系統(tǒng)資源將無限的文本信息合成為可聽的語音信息,從而可以改進傳統(tǒng)的錄音回放方式。在不改變現有平臺的基礎上建立的TTS系統(tǒng)可以在信息服務的信息源提供上帶來如下改進:
2、VXML系統(tǒng)的建設
互聯網絡是目前信息的一個最重要的載體,在互聯網迅速普及并不斷發(fā)展的今天,大量的公共信息可以在網絡上查詢得到。越來越多的信息服務商和個人在網絡上提供信息,同時越來越多的人群正在享受網絡所帶來的便利。
電信運營商自身擁有強大的信息制作能力,但如何利用好互聯網絡豐富的資源,以適應信息時代用戶的需求,也是一項重要的工作。
VXML系統(tǒng)的目的就是為了使電話和語音可以應用在互聯網絡之上,除為消費者服務外,VXML還支持一些商務應用,如話務中心、銀行交易和電子商務。通過VXML技術可以使語音互聯網訪問到Internet Web上的各種信息,并實現信息的交互。再結合語音合成技術,將文本信息合成為語音信號,用戶就可以通過IVR平臺來訪問Web頁面上的信息了。
結合VXML技術,語音互聯網平臺可以提供更多的個人信息服務:包括商品交易、金融交易、求職招聘等。相對傳統(tǒng)的同類服務,此類服務與Internet信息共享,更為貼近用戶和可以面對更廣泛的人群。
3、Voice-Mail系統(tǒng)建設
90年代中期,Internet進入中國,在這短短的幾年內,得到了長足的發(fā)展,基于Internet上的業(yè)務日新月異。其中電子郵件不僅成為廣大網民信息交流的重要手段,也成為各個企業(yè)開展商務活動的重要手段,電子郵件的用戶群是一個十分巨大的群體。
但中國的國情決定了不是每一個電子郵件的用戶都能夠方便地查閱自己的郵件。同時,在現實生活中,也存在著許多不能及時、方便地查閱自己郵件的情況。
統(tǒng)一消息系統(tǒng)(UMS)是一個將各種傳播手段整合的系統(tǒng),結合了各種網絡,用戶可以使用電話、手機、傳真、呼機、數字移動設備和個人電腦等途徑與系統(tǒng)交互信息。在語音互聯網平臺中加入UMS系統(tǒng),將有助于平臺提供更多樣化的服務,與用戶結合更為緊密。
有聲電子郵件(Voice-Mail)系統(tǒng)就是UMS系統(tǒng)的一個具體應用,它通過電話、手機等通信工具可以向用戶提供Internet上的E-mail服務。因而人們可以不受設備的限制,隨時隨地的收發(fā)電子郵件,即使身處異地,仍然不會錯過E-mail中攜帶動重要商機。
四、語音互聯網業(yè)務介紹
通過以上三個系統(tǒng)的建設,電信運營商將可以優(yōu)化本系統(tǒng)內的資源組合,同時結合互聯網絡、移動通訊網絡,開發(fā)出更多更好的節(jié)目。如金融股票信息、考試查分、防偽查詢、新聞點播、有聲郵件等。整個系統(tǒng)更易于開展新種類的業(yè)務,更易于維護,資源占用更少。
從業(yè)務開發(fā)模式劃分可以將其分成兩個類別,海量動態(tài)信息查詢和互聯網信息查詢。海量動態(tài)信息查詢業(yè)務主要開發(fā)工作是通過現有的服務平臺進行的,服務平臺通過查詢本系統(tǒng)內數據庫或其他信息源取得文本數據,然后通過TTS Server提供的TTS服務返回語音數據文件播放給用戶。例如:新聞查詢、防偽查詢、高考查分等;互聯網信息查詢業(yè)務將互聯網絡與電話公眾網結合,從而使用戶可以通過普及便利的電話、手機、傳真等方式獲取互聯網上豐富的信息。具體業(yè)務如:Voice-Portal、Voice-Mail等。
1、海量動態(tài)信息查詢
海量動態(tài)信息的查詢主要有:證券金融信息、法律法規(guī)、政府公告、交通、運輸、路況信息、旅游信息、考試信息等的查詢。這類信息的特點有兩個:
訊飛與一些地市160/168聲訊臺合作推出的為個人和機構投資者提供有關金融信息聲訊服務的系統(tǒng)就是一個典型的應用。這項業(yè)務包括具有鮮明特色的預警系統(tǒng)、實時投資分析、實時股票行情、財經新聞、技術分析報告和市場評論等。投資者簡單方便地通過電話(固定電話或移動電話)、傳呼、短消息系統(tǒng)、電子郵件、傳真和電腦來接收這些重要信息。系統(tǒng)也可隨時跟蹤他的投資組合為其提供個性化的信息服務。這些高度個性化的信息服務將即時通知用戶其投資證券價格的變化、重要新聞和其它相關信息,提高用戶的投資回報率。
2、個性化信息服務
個性化信息服務即指為個人提供的滿足其具體需求的信息服務,有兩個方面的要求:一是信息的及時性;二是獲得信息手段的便利性。
具體業(yè)務包括:統(tǒng)一消息服務、個性化新聞/信息、個人信息助理、統(tǒng)一通信服務等。
用戶只需通過電話就可以享受到互聯網上提供的各種個性化的信息服務,可以定制網上新聞、設置個人行程安排。而另一方面用戶在獲取信息時可以采取電話、E-mail、傳真等各種手段。
訊飛與上海知名的ISP聯合推出的Voice-Mail系統(tǒng),就是基于電話、手機、傳真等通信工具,結合互聯網絡的電子郵件,為用戶收發(fā)電子郵件提供形式多樣的便利手段。
3、接入平臺出租
語音互聯網具有上面提及的先進功能之外,其更具備良好的可擴展性,在系統(tǒng)之上可以方便的拓展新的業(yè)務,可以為企業(yè)提供優(yōu)質的平臺,以方便企業(yè)提供更多的信息給客戶,加強企業(yè)與客戶之間的溝通。
具體的業(yè)務有:企業(yè)網站的電話語音訪問、企業(yè)客戶服務中心、物流信息平臺、用戶通知服務、信息采集服務等。
將此類業(yè)務出租給企業(yè),可以將企業(yè)的網站內容直接轉換成服務信息,更多的客戶將可通過電話訪問企業(yè)網站,為企業(yè)提供了多樣化的信息發(fā)布平臺。
4、電話語音廣告
電話語音廣告具體有提示音廣告、等待時間廣告、背景音樂廣告等等。電話語音廣告與傳統(tǒng)廣告相比具有很大優(yōu)勢:即時查詢、內容豐富、特號專用、即時播報、廣告費低、撥打者免費收聽等。該類廣告業(yè)務開通后,將受到企事業(yè)單位的普遍歡迎。
科大訊飛供稿 CTI論壇編輯