奧運之聲——捷通華聲語音合成技術(shù)v4.0奧運版
2006/01/26
一、產(chǎn)品背景
捷通華聲公司于2002年12月承接了國家信息產(chǎn)業(yè)部下達的《奧運之聲-面向奧運的多語種聲訊服務(wù)平臺》任務(wù)的開發(fā)工作。以此項目為基礎(chǔ),捷通華聲全力投入到多語種語音合成平臺的設(shè)計和開發(fā)工作中,并將此作為jTTS4.0升級的重要內(nèi)容。
在2003年4月,捷通華聲公司又承擔(dān)了北京市科委下達的《面向奧運的多語種語音合成產(chǎn)品研制》項目。這一項目是《面向奧運的多語言智能信息服務(wù)網(wǎng)絡(luò)系統(tǒng)》的一項重要的子課題,《面向奧運的多語言智能信息服務(wù)網(wǎng)絡(luò)系統(tǒng)》是北京市科學(xué)技術(shù)委員會批準(zhǔn)的2003年至2004年度重點科研項目,也是科技奧運十大專項之一。多語種語音合成產(chǎn)品是構(gòu)成整個服務(wù)網(wǎng)絡(luò)系統(tǒng)的重要組成部分,其主要目的是:借助語音合成技術(shù),利用計算機將文本自動播報出來,按用戶選定的語種自動播報出來,本產(chǎn)品支持包括漢語、英語、日語在內(nèi)的多種語言,從而打破語言的界限和隔閡,及時地以無障礙的語音形式提供各類奧運信息;采用語音這種最自然的人機交流方式,提供信息發(fā)布、信息查詢、人機交互等多種形式的信息服務(wù),保證任何人在任何時間、任何地點、通過任何手段獲取奧運相關(guān)信息。
《jTTS4.0多語種語音合成平臺產(chǎn)品》正是在這個背景下推出的。我們相信,這一產(chǎn)品的推出,必然會有力地促進國際交流,推動奧運建設(shè),為"科技奧運"、"人文奧運"貢獻自己的力量。
二、產(chǎn)品結(jié)構(gòu)
1、核心結(jié)構(gòu)
jTTS4.0多語種語音合成平臺系統(tǒng)結(jié)構(gòu)如上圖所示。jTTS4.0多語種語音合成平臺是以一種開發(fā)式的架構(gòu)進行設(shè)計的,其核心是一套統(tǒng)一的對外編程接口(API-Application
Programming Interface),即jTTS API 4.0,以及統(tǒng)一的多語種引擎管理模塊,即jTTS_ML.DLL。多語種的引擎(例如中文引擎jTTS_CH.DLL,英文引擎jTTS_EN.DLL等)在多語種引擎管理模塊的調(diào)度下進行實際的合成工作,而目前尚未提供的其他語種的引擎也可以方便地加入到這個體系結(jié)構(gòu)中來。
jTTS_CH.DLL, jTTS_JP.DLL, jTTS_EN.DLL 等則為各個語種的TTS實際引擎。引擎和音色庫的基本概念如下:
- 每個引擎可以支持多個語種。
- 可以有多個引擎支持同一個語種,例如上圖中的 jTTS_CH2.DLL也支持中文。
- 每個引擎可以有多個音色(一般也對應(yīng)了多個音庫),每個音色都有一個唯一的GUID 。
- 每個音色只能支持一種語種。
- 每個音色可以支持多個領(lǐng)域 (Domain),不同音色可以支持不同的領(lǐng)域范圍。
- 每種方言(例如廣東話)是作為一個獨立語種出現(xiàn)。
2、產(chǎn)品體系結(jié)構(gòu)
- 開發(fā)工具包--包括開發(fā)所需的頭文件、鏈接庫文件、示例程序。
- 語音合成服務(wù)器--語音合成服務(wù)軟件、監(jiān)視工具等。
- 基本運行時刻庫--包括最基本的引擎管理模塊,通用工具,說明書等。
- 多個獨立的音庫--包括相應(yīng)的合成引擎和所需的文本分析庫、音庫。
- 多個獨立的資源包--每個資源包針對某個音庫以及一個特定領(lǐng)域。
用戶在使用時同樣可以采用本地合成方案、網(wǎng)絡(luò)合成方案、集群網(wǎng)絡(luò)合成方案進行合成工作。
三、產(chǎn)品特點
- 支持多語種,支持多領(lǐng)域的設(shè)置。
- 支持音色的查找、訪問、加載等。
- 支持SSML(語音合成標(biāo)記語言,Speech Synthesis Markup language)。
- 可以直接播放文本文件,也支持外掛抽取文本的DLL以支持其它格式。
- 支持GB(包括 GB2312, GBK, GB18030)、Big5 、Shift-JIS、ISO-8859-1、Unicode、Unicode
Big Endian、UTF8 等各種字符集,自動識別具有 BOM 標(biāo)記的 Unicode 文本。
- 支持同步、異步合成一個Session ,通過被動的回調(diào)函數(shù)方式給用戶傳遞數(shù)據(jù)。在原有版本的主動獲取語音數(shù)據(jù)的基礎(chǔ)上又提供了一個選擇。
- 可以外掛語音格式轉(zhuǎn)換程序。
- 全新的中英文混讀引擎
中文引擎放棄了原來使用的第三方的英文引擎(即Microsoft Free的SAPI 英文引擎),采用了自行開發(fā)的英文引擎,達到了清晰流利、中英文同一音色的效果。
- 預(yù)處理功能
中文引擎在預(yù)處理部分做了比較大的改進:
- 采用了基于分詞和詞性標(biāo)注一體化的前端分析算法以及基于統(tǒng)計的韻律詞分析算法,提供了更好的韻律分析結(jié)果,閱讀更為自然流暢。
- 全面改進了多音字處理算法,多音字的誤讀率大為下降。
- 改進了數(shù)字符號讀法的分析算法,數(shù)字符號的讀法的閱讀準(zhǔn)確率更高。同時支持?jǐn)?shù)字、符號讀法的外部規(guī)則使用,提供給用戶自行定義數(shù)字符號讀法的方法。
- 多領(lǐng)域支持
中文引擎提供了多個領(lǐng)域的優(yōu)化資源包。例如,在天氣預(yù)報領(lǐng)域提供了利用模板拼接技術(shù)的特定領(lǐng)域音庫,在金融證券、旅游餐飲、體育賽事等領(lǐng)域提供了特定領(lǐng)域詞庫、預(yù)選音音庫等。通過這些針對不同專業(yè)領(lǐng)域的優(yōu)化資源包,可以大大提高特定領(lǐng)域文本的合成效果。同時,多領(lǐng)域支持也采用了一種模塊化的方式,用戶可以自行安裝不同領(lǐng)域的資源包。
- 對SSML的支持
SSML(Speech Synthesis Markup Language) 語音合成標(biāo)記語言定義了一套豐富的,基于 XML 的標(biāo)記語言以支持在Web語音瀏覽器或者其它應(yīng)用程序中生成合成語音。這一標(biāo)記語言的的主要作用在于提供給合成內(nèi)容的作者一個標(biāo)準(zhǔn)的方法來控制語音的各個方面,例如發(fā)音、音量、語速、基頻等。
從jTTS 4.0開始,捷通華聲語音合成系統(tǒng)定義了S3ML (SinoVoice Speech Synthesis Markup Language)
--捷通華聲語音標(biāo)記語言。S3ML符合基本的SSML規(guī)范,但更為詳細地定義了SSML沒有精確定義的部分(例如的具體語法),同時也支持一些針對中文語音合成的擴展。
捷通華聲公司供稿 CTI論壇編輯
相關(guān)鏈接: