首頁>>廠商>>語音識別與合成>>捷通華聲

開放式語音架構(gòu)與新一代呼叫中心應(yīng)用
--具有前瞻性的捷通華聲"奧運之聲"TTS引擎解析

2004/04/23

呼叫中心的發(fā)展趨勢

  隨著改革開放的腳步不斷加快,中國在政治、經(jīng)濟、文化等各個領(lǐng)域的國際化程度也在迅速提高,特別是近幾年來,隨著中國加入WTO、成功申辦北京奧運會、成功申辦上海世博會、博鰲論壇的成功舉辦,人們可以清楚的看到,中國已經(jīng)成為世界上最重要的國際交流中心之一。在中國走向世界的進程中,各行各業(yè)都在不斷進行著自我完善,來適應(yīng)這一變化的需要,CTI行業(yè)也不例外。

  在CTI領(lǐng)域里,人們首先感受到的是越來越多的國際知名企業(yè)、優(yōu)秀產(chǎn)品、先進技術(shù)相繼進入中國CTI市場,即為中國的CTI技術(shù)發(fā)展提供了強大的動力,也給國內(nèi)的企業(yè)帶來了巨大的壓力。各廠商在不斷提升自我競爭能力的同時,也在積極尋找CTI新的應(yīng)用點,進而使整個CTI產(chǎn)業(yè)無論是在技術(shù)上還是在應(yīng)用上都在朝著國際化方向飛速發(fā)展。

  捷通華聲公司作為語音技術(shù)核心供應(yīng)商,敏銳的捕捉到了這一市場變化,并早在2年多以前便開始著手準備,因而走了語音產(chǎn)業(yè)國際化發(fā)展的前列。

  捷通華聲公司由北京捷通軟件公司投資、我國著名語音專家呂士楠教授主持創(chuàng)建于2000年10月,并于2001年7月發(fā)布了具有里程碑意義的新一代語音合成產(chǎn)品--jTTS2.0,從此語音合成技術(shù)進入了大規(guī)模商用時代。就在各競爭對手爭相模仿的時候,捷通華聲已經(jīng)清楚的認識到:語音技術(shù)的發(fā)展必須走國際化道路。一方面,我們的技術(shù)必須走出國門,與國際同類產(chǎn)品同場競技,取得國際上的一致認可;另一方面,我們必須積極吸取國外先進的經(jīng)驗,使自己的技術(shù)能夠得到不斷的提升。在隨后的1年多中,捷通華聲按照這一方針"內(nèi)外兼修",無論是在技術(shù)上還是在市場上都獲得了巨大的成功,并已成為國際知名語音技術(shù)供應(yīng)商之一。

  2003年初,北京科技奧運十大重點項目陸續(xù)啟動,捷通華聲憑借雄厚的技術(shù)實力和良好的企業(yè)信譽,一舉中標《面向奧運的多語言語音合成產(chǎn)品研制》項目,為捷通華聲進一步發(fā)展多語言語音合成產(chǎn)品提供了良好的契機。

  "科技奧運"項目的需求與目前中國的呼叫中心市場需求有著很高的一致性,那就是要求開放式的架構(gòu)和國際化服務(wù)手段、服務(wù)質(zhì)量。呼叫中心已經(jīng)不再是只為中國人服務(wù),而是要充分考慮到各種國際政治、文化、商業(yè)活動的實際需求,為世界各國友人提供服務(wù)的必要手段。針對這一需求,捷通華聲用了近一年的時間潛心研究,并于2004年初發(fā)布了最新的語音合成產(chǎn)品"奧運之聲"(OlyVoice)--捷通華聲語音合成奧運版v4.0。該產(chǎn)品著重設(shè)計了開放式的系統(tǒng)架構(gòu)和多語種語音合成需求。

奧運之聲--捷通華聲開放式語音合成架構(gòu)

  捷通華聲語音合成奧運版v4.0(簡稱:jTTS奧運版)是以一種開發(fā)式的架構(gòu)進行設(shè)計的(如下圖所示),其核心是一套統(tǒng)一的對外編程接口(API-Application Programming Interface),即jTTS API 4.0,以及統(tǒng)一的多語種引擎管理模塊,即jTTS_ML.DLL。多語種的引擎(例如中文引擎jTTS_CH.DLL,英文引擎jTTS_EN.DLL等)在多語種引擎管理模塊的調(diào)度下進行實際的合成工作,而目前尚未提供的其他語種的引擎也可以方便地加入到這個體系結(jié)構(gòu)中來。


統(tǒng)一的應(yīng)用程序接口

jTTS_ML.DLL是主要模塊,在這個模塊中完成多數(shù)統(tǒng)一的工作。包括:

·各個語種引擎和音庫的管理、加載、卸載、選擇。
·與外部設(shè)備相關(guān)而與具體引擎無關(guān)的工作,例如打開文件,聲卡或文件輸出等。
·各個語種幾乎相同的工作,例如SSML TAG的處理等。
  jTTS_ML.DLL基本保持和jTTS_MA.DLL函數(shù)接口的一致性,但進行了一定的改動。這些改動主要是吸取了在前幾個版本中的開發(fā)經(jīng)驗和用戶的意見反饋,因此現(xiàn)有的API更為簡潔方便、功能卻更為強大。

充分的兼容性設(shè)計
  新版本的jTTS_MA.DLL是為了保持向下兼容,它完全繼承原有的jTTS API 3.0的所有函數(shù),不增加也不刪減任何函數(shù)。因此,它也僅能完成以前版本的功能(但可以利用最新的中文引擎,提高聲音質(zhì)量),提供它的目的僅僅在于用戶能夠不改動原有程序繼續(xù)運行,但如果希望使用新的功能,必須使用jTTS_ML.DLL,利用新的API進行開發(fā)。

支持多種調(diào)用方式
  jTTS4.ocx是在jTTS_ML.DLL之上的一個ActiveX控件,主要作用是以COM接口的方式提供了TTS的功能,方便Web頁面開發(fā)或者VB等編程語言的開發(fā)。由于COM接口支持的開發(fā)工具非常廣泛、語言類型多種多樣,因此用戶可以通過使用jTTS4.ocx組件來開發(fā)TTS應(yīng)用程序,以達到適應(yīng)多種開發(fā)環(huán)境、簡化開發(fā)過程的目的。使用此控件可以實現(xiàn)向文件或聲卡輸出,所有的設(shè)置、回調(diào)等功能也和jTTS_ML.DLL所提供的功能基本類似,但是它沒有底層合成(即Session)的概念,也不能直接獲得語音數(shù)據(jù)流。

  語音合成服務(wù)器jTTSService.EXE提供了對基于網(wǎng)絡(luò)的TTS服務(wù)的支持,讓用戶可以采用網(wǎng)絡(luò)合成方案或集群網(wǎng)絡(luò)合成方案進行合成。此語音合成服務(wù)器軟件作為Windows系統(tǒng)上的一個服務(wù)(Service)或Linux系統(tǒng)上的一個守護程序(daemon)實現(xiàn),監(jiān)聽網(wǎng)絡(luò)端口號,如果有連接,則通過jTTS Service Protocol 4.0版本為客戶端提供語音合成的服務(wù)。

良好的可擴展性
  系統(tǒng)采用外掛DLL的方式來提高擴展性。外掛DLL包括兩種:一種是文本抽取DLL,另一種是語音格式轉(zhuǎn)換DLL。在閱讀文件時(通過jTTS_Play或jTTS_PlayToFile),可以通過外掛的DLL來進行文本的抽取,然后利用TTS的功能進行合成,例如閱讀DOC文件或者Email。而得到語音數(shù)據(jù)后,可以利用外掛的語音格式轉(zhuǎn)換DLL來得到系統(tǒng)本身不支持的語音格式。

新增多種實用功能
·支持多語種,支持多領(lǐng)域的設(shè)置
·支持音色的查找、訪問、加載等
·支持SSML (語音合成標記語言, Speech Synthesis Markup language)
·可以直接播放文本文件,也支持外掛抽取文本的DLL以支持其它格式。
·支持GB(包括GB2312, GBK, GB18030)、Big5、Shift-JIS、ISO-8859-1、Unicode、Unicode Big Endian、UTF8等各種字符集,自動識別具有BOM標記的Unicode文本。
·支持同步、異步合成一個Session,通過被動的回調(diào)函數(shù)方式給用戶傳遞數(shù)據(jù)。在原有版本的主動獲取語音數(shù)據(jù)的基礎(chǔ)上又提供了一個選擇。
·可以外掛語音格式轉(zhuǎn)換程序。

  所有這些,都是捷通華聲在語音合成架構(gòu)上具有前瞻性的設(shè)計,通過這樣的系統(tǒng)結(jié)構(gòu),用戶可以靈活的為新一代呼叫中心、UMS系統(tǒng)添加豐富的語音合成資源,使整個系統(tǒng)最大限度的發(fā)揮其功效,為最終用戶提供方便實用的服務(wù)體系。

  除了在系統(tǒng)結(jié)構(gòu)上的重大改進外,捷通華聲在語音合成核心上也進行了深入的研究,并取得了重大突破。與以往的版本相比,新的中文合成核心主要進行了下列改進:

新的英文引擎支持
中文引擎放棄了原來使用的第三方的英文引擎,采用了自行開發(fā)的英文引擎,達到了清晰流利、中英文同一音色的效果。

新的預(yù)處理
·采用了基于分詞和詞性標注一體化的前端分析算法以及基于統(tǒng)計的韻律詞分析算法,提供了更好的韻律分析結(jié)果,閱讀更為自然流暢。
·全面改進了多音字處理算法,多音字的誤讀率大為下降。
·改進了數(shù)字符號讀法的分析算法,數(shù)字符號的讀法的閱讀準確率更高。同時支持數(shù)字、符號讀法的外部規(guī)則使用,提供給用戶自行定義數(shù)字符號讀法的方法。

多領(lǐng)域支持
  中文引擎提供了多個領(lǐng)域的優(yōu)化資源包。例如,在天氣預(yù)報領(lǐng)域提供了利用模板拼接技術(shù)的特定領(lǐng)域音庫,在金融證券、旅游餐飲、體育賽事等領(lǐng)域提供了特定領(lǐng)域詞庫、預(yù)選音音庫等。通過這些針對不同專業(yè)領(lǐng)域的優(yōu)化資源包,可以大大提高特定領(lǐng)域文本的合成效果。同時,多領(lǐng)域支持也采用了一種模塊化的方式,用戶可以自行地安裝不同領(lǐng)域的資源包。

對SSML的支持
  SSML(Speech Synthesis Markup Language)語音合成標記語言定義了一套豐富的,基于XML的標記語言以支持在Web語音瀏覽器或者其它應(yīng)用程序中生成合成語音。這一標記語言的的主要作用在于提供給合成內(nèi)容的作者一個標準的方法來控制語音的各個方面,例如發(fā)音、音量、語速、基頻等。SSML目前是W3C的草案,具體內(nèi)容參見 http://www.w3.org/TR/speech-synthesis/。

  從jTTS 4.0開始,捷通華聲語音合成系統(tǒng)定義了S3ML (SinoVoice Speech Synthesis Markup Language)-捷通華聲語音標記語言。S3ML符合基本的SSML規(guī)范,但更為詳細地定義了SSML沒有精確定義的部分(例如的具體語法),同時也支持一些針對中文語音合成的擴展。

  新版本將繼續(xù)支持原jTTS 3.0版本支持的文本標注方法(成為jTTS Tag),但jTTS Tag將不再發(fā)展。如有需要,新的應(yīng)用程序應(yīng)該使用S3ML對文本進行標注,以控制語音合成效果的功能,并獲得靈活的可擴展性。

  面向科技奧運,面向新一代呼叫中心應(yīng)用,捷通華聲做好了充分的準備,奧運之聲(OlyVoice)將與CTI行業(yè)的眾多合作伙伴一起,引領(lǐng)用戶進入一個全新的、開放式的CTI時代,整個CTI行業(yè)將在國際化、標準化、產(chǎn)業(yè)化方向上邁上一個新的臺階。

捷通華聲公司供稿 CTI論壇編輯



相關(guān)鏈接:
捷通華聲發(fā)布jASR5.5 ASR價格面前將無怯步 2008-04-16
捷通華聲TTS成功登陸中國郵政儲蓄銀行 2008-04-03
捷通華聲 jTTS 5.5 全面支持 MRCPv2標準 2008-03-31
捷通華聲移動導(dǎo)航HCI解決方案廣受青睞 2008-03-26
身邊的“智能”生活 2007-12-28

分類信息:     文摘   技術(shù)_語音合成_文摘