聲訊TTS應(yīng)用解決方案
2001/08/29
一、語音合成技術(shù)及其在聲訊臺中的應(yīng)用
1 語音合成簡介
語音合成(Text To Speech),簡稱TTS技術(shù),它涉及聲學(xué)、語言學(xué)、數(shù)字信號處理技術(shù)、多媒體技術(shù)等多個學(xué)科技術(shù),是中文信息處理領(lǐng)域的一項前沿技術(shù)。解決的主要問題就是如何將文本狀態(tài)的文字信息轉(zhuǎn)化為可聽的聲音信息。使以往只能用眼睛看的文字信息,也可以用耳朵來聽。通俗地說,就是讓電腦開口說話的技術(shù)。這項技術(shù)在以語音信息服務(wù)為主要方式的聲訊業(yè)務(wù)中尤其有應(yīng)用意義。
2 語音合成技術(shù)的優(yōu)點
語音是信息傳播的一大媒介,隨著多媒體信息需求的增大,語音服務(wù)系統(tǒng)近年來發(fā)展較為迅速。下表是語音合成技術(shù)和傳統(tǒng)錄音回放技術(shù)在語音服務(wù)中相比較的情況。
TTS |
錄音制作 |
|
存儲空間的要求 |
較低 |
較高 |
節(jié)目開發(fā)周期 |
短 |
長 |
出錯可能 |
低 |
高 |
信息的更新速度 |
即時 |
慢 |
信息庫建立和維護(hù)的工作量 |
低 |
高 |
二、全省節(jié)目文本內(nèi)容聯(lián)網(wǎng)方案
在聲訊臺使用TTS技術(shù)能實現(xiàn)一種全新的節(jié)目聯(lián)網(wǎng)方式。在實現(xiàn)數(shù)據(jù)聯(lián)網(wǎng)情況下,節(jié)點聲訊臺中的一個或者多個制作的節(jié)目內(nèi)容能通過文本的方式在網(wǎng)絡(luò)上共享;其他的節(jié)點聲訊臺取得這些文本內(nèi)容,在本地進(jìn)行語音合成,進(jìn)而開通相應(yīng)的節(jié)目。從而可以使用少量的帶寬來輕松實現(xiàn)信息共享,為各地的用戶提供全面的語音服務(wù)。
1 集中制作、聯(lián)網(wǎng)下傳方式
單一的節(jié)目制作中心一般放置在省中心。在節(jié)目制作中心,節(jié)目數(shù)據(jù)以數(shù)據(jù)庫或者文本文件的方式存放于節(jié)目數(shù)據(jù)倉庫中。在節(jié)目制作中心運行文本訪問服務(wù)代理,接受各地市臺的數(shù)據(jù)請求并發(fā)送相應(yīng)的數(shù)據(jù)。各個地市臺通過文本請求、接收代理向中心請求或者接收文本數(shù)據(jù),存放于本地數(shù)據(jù)倉庫,等待語音合成服務(wù)器合成成語音文件,地市臺使用合成后的語音文件迅速開通相應(yīng)的節(jié)目。
節(jié)目文本數(shù)據(jù)的共享和消息通知,可以通過兩種方式實現(xiàn),即地市臺定時(或人為)向中心請求數(shù)據(jù),或者中心數(shù)據(jù)服務(wù)代理向地市臺廣播數(shù)據(jù)增加消息,并發(fā)送增加的數(shù)據(jù)。
三、TTS技術(shù)應(yīng)用方案通過節(jié)目文本內(nèi)容聯(lián)網(wǎng),實現(xiàn)節(jié)目文本內(nèi)容的共享,從文本到語音的轉(zhuǎn)換,開通相應(yīng)的節(jié)目則需要語音合成來完成。
科大訊飛針對各地聲訊平臺不同的建設(shè)狀況,提出實時合成和離線合成兩種解決方案,實現(xiàn)在現(xiàn)有平臺上嵌入語音合成功能。
1.離線合成
在用戶電話呼入之前生成相應(yīng)語音文件,每個語音文件可供多個用戶重復(fù)聽取。特點是資源消耗少(普通PC即可實現(xiàn)),硬件要求低,能較好的替代人工錄音的語音制作方式。
離線合成可以與省級甚至全國聲訊網(wǎng)絡(luò)結(jié)合,開發(fā)出靈活的聯(lián)網(wǎng)業(yè)務(wù)。即文本訪問代理從廣域網(wǎng)上取得節(jié)目文本數(shù)據(jù)存放于本地的文本數(shù)據(jù)共享目錄,語音合成服務(wù)器通過訪問該目錄獲取節(jié)目文本合成為語音文件存放與服務(wù)器的語音文件共享目錄中。局域網(wǎng)內(nèi)其他設(shè)備(IVR、MSI等等)訪問語音文件共享目錄,向用戶播放最新生成的語音信息。
2.在線合成嵌入方案
在線合成是在用戶電話呼入的同時實時生成語音文件,并在該用戶呼入的通道播放,每個語音文件僅供該用戶聽取。
在線合成包含離線合成的一切功能,且實時性好,業(yè)務(wù)靈活,可以開展出各種個性化信息服務(wù),主要適用于對語音合成的實時性要求高的場合。
聲訊平臺的TTS升級是在現(xiàn)有平臺上增加TTS語音合成服務(wù)器,語音節(jié)點通過語音合成網(wǎng)關(guān)調(diào)用TTS資源。語音合成服務(wù)器支持多路的實時語音合成,根據(jù)系統(tǒng)業(yè)務(wù)量可以方便地擴(kuò)容。
由于不涉及到話務(wù)接入處理層的內(nèi)容,聲訊臺采用前置交換方式還是后置交換方式不對嵌入改造工作的造成影響。
如圖所示,一個包含TTS服務(wù)的電話訪問流程大致可分為七步:
(1)用戶電話撥入,系統(tǒng)IVR響應(yīng),獲得用戶按鍵等信息。
(2)IVR根據(jù)用戶輸入,向數(shù)據(jù)庫或文件等信息源申請數(shù)據(jù)。
(3)信息源返回文本數(shù)據(jù)給IVR。
(4)IVR通過其TCP通訊接口將需要合成的文本信息發(fā)送給TTS Server。
(5)TTS Server將用戶文本合成為語音文件放置在一個共享目錄中。
(6)TTS Server通過其TCP通訊接口通知IVR合成完畢,并返回文件名。
(7)IVR播放相應(yīng)的語音文件給電話用戶。
四、TTS技術(shù)在聲訊臺的應(yīng)用意義
新業(yè)務(wù)的開發(fā)對現(xiàn)有聲訊平臺提出了更高的技術(shù)要求,目前全省聲訊平臺基本上沒有文字語音合成能力,數(shù)字合成也停留在單音報讀階段,播放出來的聲音生硬、不連續(xù)、不自然;而使用語音合成技術(shù)合成的語音自然、連續(xù),接近人的發(fā)音,用戶感覺較親切,易聽懂,可以大幅度提高服務(wù)質(zhì)量和用戶滿意度?梢哉f,TTS技術(shù)的應(yīng)用是聲訊平臺技術(shù)升級的當(dāng)務(wù)之急。
TTS技術(shù)在聲訊臺應(yīng)用后可以直接開發(fā)許多新業(yè)務(wù),如:
1.海量信息查詢類業(yè)務(wù)
大部分海量信息如考試查分、征婚啟事、人才信息、電話廣告等,由于其內(nèi)容龐大,往往無法在短期內(nèi)完成錄音,即使可以事先錄音,也需要很長的制作周期,而且在量大的時候肯定會出現(xiàn)人為錯誤;采用語音合成技術(shù)可以節(jié)約大量人力,縮短開發(fā)周期,而且能夠完全保證了所有信息100%正確。
2.動態(tài)信息查詢類業(yè)務(wù)
聲訊節(jié)目逐漸地由現(xiàn)在娛樂型節(jié)目為主的節(jié)目構(gòu)成轉(zhuǎn)向以應(yīng)用型的節(jié)目為主,而多數(shù)的應(yīng)用類節(jié)目對實時性要求比較高,如證券行情、訂票、訂房等,上述應(yīng)用中動態(tài)信息不可能事先錄音,需要實時地從數(shù)據(jù)庫中讀取,動態(tài)進(jìn)行語音合成,保證信息的實時性。
此外,在聲訊服務(wù)領(lǐng)域內(nèi),使用TTS技術(shù)不但對技術(shù)開發(fā)工作來說很重要,而且對于業(yè)務(wù)運營方面也同樣如此。傳統(tǒng)的聲訊服務(wù)領(lǐng)域,信息的組織和維護(hù)都是由人工來完成的,需要人工錄音、文件拷貝等一系列步驟,工作煩瑣,維護(hù)不便,很難做到信息的實時更新,影響了服務(wù)質(zhì)量,而且占用存儲資源多。
由此可見,TTS技術(shù)作為一個新興技術(shù),可以解決動態(tài)信息和海量信息的查詢問題,把它應(yīng)用于聲訊領(lǐng)域,對于開展增值業(yè)務(wù),改變傳統(tǒng)業(yè)務(wù)的實現(xiàn)方式,提高服務(wù)質(zhì)量都是很必要的。
科大訊飛供稿 CTI論壇編輯
訊飛暢言語音教具系統(tǒng)榮獲“創(chuàng)新軟件產(chǎn)品” 2009-09-08 |
科大訊飛嵌入式語音新產(chǎn)品發(fā)布會在深圳舉行 2009-09-07 |
“會說話”的顯示屏提升居民小區(qū)信息服務(wù)水平 2009-09-07 |
訊飛語音助力太平人壽客服中心 2009-08-28 |
訊飛語音助力CDMA手機(jī)競爭終端市場 2009-08-14 |