新太TTS/ASR系統(tǒng)介紹
人類 花了近30年的時間才使語音識別技術(shù)得以實用化,人們可以與計算機自由地交談和溝通,實現(xiàn)"動口不動手"的美好愿望。尤其是近年來 Internet 的高速發(fā)展,讓語音識別技術(shù)有了更廣闊的應(yīng)用前景和實用意義。
網(wǎng)絡(luò)時代,電話訪問WEB站 點和E-MAIL信息是一 個面向大眾提供企(事)業(yè)單位基本信息的大型資料庫,其內(nèi)容十分豐富,用戶可以通過多種方式查詢到感興趣單位的信息,是企業(yè)面向市場、面向大眾提供優(yōu)質(zhì)服務(wù)的增值服務(wù)。
傳統(tǒng)的電話查詢WEB信息和E -MAIL信息只能通過168臺進(jìn)行,所以對大部分企業(yè)用戶來講,文本資料要首先錄制成語音 文件,然后才能提供服務(wù),效率低 、存儲空間大,維護(hù)十分復(fù)雜,擴充困難。特別是對于一些如天氣查詢、股票行情的查詢等,對用戶來說,每查詢一個信息都要根據(jù)語音提示進(jìn)行大量的按鍵操作,而且容易出錯。
而新太集團作為一個在信息 行業(yè)研究多年的服務(wù)提供 商,一直跟蹤市場、關(guān)注用戶最新需求,并敏銳地洞察到了這種信息交互的低效性后,隨組織人力進(jìn)行跟蹤開發(fā)。于今年初推出了新太又一成熟的新產(chǎn)品TTS/ASR(文語轉(zhuǎn)換 TEXT TO SPEECH /自動語音識別 AUTOMATIC SPEECH RECOGNITION )系統(tǒng)。
文語 轉(zhuǎn)化系統(tǒng)提供了實時語音文本互相轉(zhuǎn)化的功能。通過TTS不僅節(jié)省了語音文件的空間1000 多 倍,而且解決了一些無法進(jìn)行實時錄音的功能,減輕了工作量,提高了實時性(信息的時效性)。通過ASR使用戶不需進(jìn)行煩瑣的按鍵操作就可快捷的查找到自己感興趣的信息。
一、系統(tǒng)總體設(shè)計
TTS是一 個專業(yè)級的中文文語轉(zhuǎn)換系統(tǒng) ,所處理的資料以中文文本文件的資料為主。新太TTS是新太根據(jù)中國人自己的語音特色和規(guī)律開發(fā)出來的,其發(fā)音語調(diào)的準(zhǔn)確率和多音字及詞組的處理已經(jīng)達(dá)到商業(yè)化的級別。
ASR 語音識別是一個較新興的技術(shù),具有極大的發(fā)展?jié)摿蛻?yīng)用市場。目前新太科技利用Philips最先進(jìn)的自然語音識別平臺Speech Pearl 開發(fā)出一 套適合電信業(yè)務(wù)和一般企業(yè)具有完整語音識別功能的系統(tǒng)。目前已出的版本提供英語,普通話的識別,可根據(jù)用戶具體需求,在以后的版本中還可提供粵語及其它地方方言的識別。
新太科技將這套系統(tǒng)集成到 新太的NAP2000,IVSP聲訊平臺中, 以拓展信息交互的應(yīng)用領(lǐng)域。應(yīng)用領(lǐng)域包括:160/168聲訊服務(wù)系統(tǒng)、客戶服務(wù)中心系統(tǒng)、航班時刻信息查詢及股票查詢系統(tǒng)、無線尋呼、號碼查詢系統(tǒng)、天氣預(yù)報系統(tǒng)等。
1、 系統(tǒng)結(jié)構(gòu)
TTS服務(wù)器
TTS網(wǎng) 關(guān)建立在新太NAP2000、IVSP、聲訊平臺上,是由數(shù)據(jù)庫查詢、數(shù)據(jù)組織、文語轉(zhuǎn)化、語 音文件生成等服務(wù) 構(gòu)成的原型系統(tǒng)。運行系統(tǒng)包括上述4個組成部分。在實際工作中,可以在一臺NT上運行。一臺NT可以同時服務(wù)16個用戶的文語轉(zhuǎn)化,以一個聲訊系統(tǒng)同時20%的通道使用 TTS的功能,則可以服務(wù)3個E1(90線)規(guī)模的系統(tǒng)。
其功能包括:
ASR服務(wù)器
目前新太集團利用Philips最先進(jìn)的自然語音識別平臺SpeechPearl 開發(fā)出一套適合 電信業(yè)務(wù)和一般企業(yè)具有完整語音識別功能的系統(tǒng)。新太集團將這套系統(tǒng)集成到新太的NA P2000,IVSP聲訊平臺中,以拓 展語音識別技術(shù)的應(yīng)用領(lǐng)域。應(yīng)用領(lǐng)域包括:160,168聲訊服務(wù)系統(tǒng)、客戶服務(wù)中心系統(tǒng)、航班時刻信息查詢及股票查詢系統(tǒng)、無線尋呼、號碼查詢系統(tǒng)、天氣預(yù)報系統(tǒng)等。
平臺IVR節(jié)點將用戶的語音 錄下來,將其保存在網(wǎng)絡(luò)文件系統(tǒng)中的一個文件中,并將該文件的絕對路徑傳給ASR網(wǎng)關(guān) ,ASR網(wǎng)關(guān)根據(jù)其配置文件,找到其網(wǎng)關(guān)對應(yīng)的網(wǎng)絡(luò)路徑,然后將該文件的 語音數(shù)據(jù)傳給ASR網(wǎng)關(guān)的后臺引擎,后臺引擎根據(jù)給定的語法規(guī)定將語音識別出來,識別結(jié)果返回給ASR網(wǎng)關(guān)存儲在網(wǎng)絡(luò)文件中,同時將識別結(jié)果的相關(guān)信息傳給IVR節(jié)點。
網(wǎng)關(guān)服務(wù)器
網(wǎng)關(guān) 服務(wù)器實現(xiàn)與其他異構(gòu)網(wǎng)絡(luò)、專業(yè)數(shù)據(jù)庫連 接時數(shù)據(jù)的傳輸及通信。網(wǎng)關(guān)服務(wù)器可視業(yè)務(wù)及系統(tǒng)、數(shù)據(jù)庫的不同而采用不同的數(shù)據(jù)通訊協(xié)議轉(zhuǎn)換模塊。各網(wǎng)關(guān)通過在網(wǎng)關(guān)服務(wù)器內(nèi)注冊就可接入系統(tǒng),通過網(wǎng)關(guān)服務(wù)器可方便地 實現(xiàn)與第三方數(shù)據(jù)源如氣象局、民航、銀行、證券等的數(shù)據(jù)交互。
2、新太TTS/ASR系統(tǒng)工作流程
根據(jù)用戶的具體要求目前有兩種實現(xiàn)流程:
適于文件比較長且文語較復(fù)雜的語音合成。
用戶打電話進(jìn)入系統(tǒng),IVR 節(jié)點將用戶的語音信息錄制成語音文件存儲在網(wǎng)絡(luò)文件系統(tǒng)的一個文件中,并將該文件的 絕對路徑傳給ASR網(wǎng)關(guān),ASR網(wǎng)關(guān)根據(jù)其配置文件,找到其網(wǎng)關(guān)對應(yīng)的網(wǎng)絡(luò)路徑,然后將該 文件的語音數(shù)據(jù)傳給ASR網(wǎng)關(guān)后臺引擎,后臺引擎根據(jù)給定的語法規(guī)定將語音識別出來, 將識別結(jié)果返回給ASR網(wǎng)關(guān),將其存儲在網(wǎng)絡(luò)文件系統(tǒng)中,同時將識別完成信息傳給IVR節(jié) 點。IVR節(jié)點根據(jù)用戶請求啟 動相應(yīng)流程調(diào)用TTS網(wǎng)關(guān),TTS網(wǎng)關(guān)根據(jù)取得的請求,向指定的數(shù)據(jù)庫進(jìn)行訪問,將取得的相關(guān)信息轉(zhuǎn)化為文本信息,調(diào)用文語轉(zhuǎn)化模塊將文本信息合成語音信息播放給用戶。
適于一些簡單的文本信息及數(shù)據(jù)信息,可由系統(tǒng)調(diào)用流程自動合成。
系統(tǒng) 預(yù)先將一些 簡單信息錄制成語音文件存放在語音文件中,ASR直接將識別的用戶語音信息轉(zhuǎn)化為文本信息存儲在文件系統(tǒng)中,IVR節(jié)點根據(jù)識別結(jié)果將語音信息進(jìn)行合成,再播放給用戶。
二、業(yè)務(wù)功能舉例
新太TTS/ASR系統(tǒng)是一個完 整的平臺,根據(jù)新太自身業(yè)務(wù)功能特點,我們將其建立在NAP2000、IVSP平臺上,主要是 針對原來平臺上業(yè)務(wù)的新的應(yīng)用,可以支持多種數(shù)據(jù)庫和文本文件的同時訪問。系統(tǒng)能提 供集中式的文語轉(zhuǎn) 換功能、自動語音識別功能、全文檢索功能、格式轉(zhuǎn)化功能,數(shù)據(jù)庫訪問功能、以及二次開發(fā)功能等。在此系統(tǒng)平臺上可開通多種業(yè)務(wù),目前已實現(xiàn)的業(yè)務(wù)如:電話聽E-MAIL 、語音查詢天氣、股票行情查詢、航班查詢等多種通過語音取代按鍵操作的自動語音播放信息查詢業(yè)務(wù)。
1、天氣查詢
與傳統(tǒng)的天氣查詢 不同的是,用戶通過撥打一特服號接入到系統(tǒng)后,不用在系統(tǒng)語音提示下進(jìn)行多次按鍵選 擇,只需在系統(tǒng)語音提示下對著電話說出自己所要查詢的城市名即可查到自己所要的信息 。這種方式對用戶來說快捷方便,適于要查找多個地方的天氣情況 ,每查找完一個信息不用退出系統(tǒng)重新選擇,只需根據(jù)系統(tǒng)語音提示報出你所另外要查找的地名即可。因為每天的天氣是動態(tài)變化的,所以平臺要通過網(wǎng)關(guān)到氣象局實時取得數(shù)據(jù)。
2、股票行情查詢
證券交 易市場的發(fā)展伴隨著經(jīng)濟的發(fā)展而發(fā)展,股市的動態(tài)牽動著千萬股民的心,為了方便股民 及時快捷的查找股市行情,提供一種實時語音交互的信息查詢是市場與客戶所迫切需要的 。股民只需對著電話簡單的說出所要查找的股票代 碼即可獲得所需的信息。股市是隨時動態(tài)變化的,對用戶的查詢信息通過網(wǎng)關(guān)實時到證券所數(shù)據(jù)庫取得相關(guān)信息,送往TTS文語轉(zhuǎn)換模塊轉(zhuǎn)換為語音文件通過IVR播放給用戶。
3、航班查詢
隨著 社會的發(fā)展,人們出差旅游的機會越來越多,對各地航班的查詢訪問量也更頻繁。傳統(tǒng)航 班查詢都是通過話務(wù)員或航班公司售票處座席提供服務(wù),利用新太TTS/ASR系統(tǒng),用戶直 接對著電話說 出所要查詢的航班,平臺通過網(wǎng)關(guān)到航空公司數(shù)據(jù)庫查找,查找到的信息送至TTS文語合成模塊,根據(jù)ASR識別的用戶語音請求,將相應(yīng)用戶信息通過IVR節(jié)點播放給用戶。
4、電話收發(fā)E-mail
用電話接收E-mail的方法可 以有兩種,傳統(tǒng)的方法是由話務(wù)員把E- mail的內(nèi)容直接念給用戶聽。另一種即利用TTS技術(shù),平臺讀取E-mail的內(nèi)容,然后把文本內(nèi)容送往文語轉(zhuǎn)換模塊將其轉(zhuǎn)化為語音信息,通過IVR節(jié)點播放給用戶。
用電話發(fā)E-mail業(yè)務(wù)是指用 戶通過電話接入系統(tǒng),用戶打電話告知系統(tǒng)所要發(fā)信的目的電 子郵件地址,由ASR自動識別系統(tǒng)內(nèi)已定義好的IP地址,通過IVR節(jié)點錄音的語音文件以附件的方式生成Email通過Internet發(fā)送到對方的Email信箱中。
通過電話收發(fā)E-mail大大的方便了那些上網(wǎng)不方便,但又需要通過E-mail與外界聯(lián)系的朋友。
2001/03/30