重慶巨佳科技語音網(wǎng)關(guān)(VoiceGateway)
2005/08/25
VoiceGateway是TTS與ASR的集成產(chǎn)品,完成TTS、ASR的集成與功能擴(kuò)展,系統(tǒng)的TTS核心可以支持多個(gè)廠家的產(chǎn)品,包括清華、科大、IBM、捷通等廠商的產(chǎn)品。ASR可以采用InfoTalk、Nuance、IBM的產(chǎn)品。VoiceGateway最主要的功能是完成TTS與ASR的集成,將底層變化封裝,不管采用那一家的的TTS與ASR產(chǎn)品,都與IVR服務(wù)器(VoxServer)無關(guān)。其次,VoiceGateway可以多機(jī)運(yùn)行,支持負(fù)載均衡控制,可以把TTS,ASR的處理能力提高到成百上千線。各種不同的TTS產(chǎn)生的Voice編碼文件還可能由VoiceGateway統(tǒng)一處理、重要編碼,然后送到IVR服務(wù)器。
語音合成網(wǎng)關(guān)
語音合成網(wǎng)關(guān)是新一代的語音處理中間系統(tǒng)。其核心技術(shù)TTS(Text to Speech)系統(tǒng)采用了國(guó)內(nèi)外最新的第二代文語轉(zhuǎn)換技術(shù),支持多語言的語音合成,音速、音質(zhì)及韻律均可靈活調(diào)整,合成質(zhì)量貼近自然話務(wù)播音員。
系統(tǒng)接收其他系統(tǒng)模塊(如IVR系統(tǒng))的文字信息,通過TTS合成對(duì)應(yīng)的語音文件,然后傳送到相應(yīng)的系統(tǒng)模塊。
系統(tǒng)可以與其他網(wǎng)關(guān)進(jìn)行接口,成為系統(tǒng)中的中間件模塊。
系統(tǒng)支持內(nèi)建排隊(duì)功能,支持多模塊調(diào)用。
系統(tǒng)采用中心控制管理,可以擴(kuò)展到多臺(tái)主機(jī)運(yùn)行,支持負(fù)載平衡技術(shù)。
語音合成網(wǎng)關(guān)將TTS包裝成一個(gè)開放的系統(tǒng)功能模塊,用戶不需要了解TTS的具體技術(shù)細(xì)節(jié),通過語音網(wǎng)關(guān)提供的開發(fā)工具就可以在自己的程序里實(shí)現(xiàn)TTS的功能。語音網(wǎng)關(guān)支持多種平臺(tái),底層通信建立在TCP/IP協(xié)議上,可以運(yùn)行在復(fù)雜的網(wǎng)絡(luò)環(huán)境中。
可擴(kuò)展性:語音合成網(wǎng)關(guān)可以運(yùn)行在任意一臺(tái)主機(jī)上,單主機(jī)支持32個(gè)并發(fā)請(qǐng)求,通過系統(tǒng)的負(fù)載平衡控制,可以在網(wǎng)絡(luò)中加入任意數(shù)量的語音網(wǎng)關(guān)系統(tǒng),通過主系統(tǒng)中的中央調(diào)度模塊,可以根據(jù)當(dāng)前各網(wǎng)關(guān)的工作量,把數(shù)據(jù)處理分配到最佳的語音網(wǎng)關(guān)中處理。通過這種系統(tǒng)模式,理論上可以支持任意數(shù)量的系統(tǒng)擴(kuò)展,甚至可以將語音網(wǎng)關(guān)擴(kuò)展到Internet的任意地方。
移植性:語音合成網(wǎng)關(guān)可以運(yùn)行在多種系統(tǒng)環(huán)境,包括Windows NT/2000、Linux、SCO OpenServer、及Solaris,可以根據(jù)用戶需求選用。
實(shí)用性:實(shí)際開發(fā)過程中,可以采用語音網(wǎng)關(guān)的軟件開發(fā)包(SDK),也可以采用TCP/IP數(shù)據(jù)包方式調(diào)用系統(tǒng)功能。
高可靠性:
采用多種容錯(cuò)機(jī)制,具有自動(dòng)恢復(fù)功能。
結(jié)構(gòu)說明:
在系統(tǒng)應(yīng)用中,語音網(wǎng)關(guān)與其他應(yīng)用程序處在一個(gè)網(wǎng)絡(luò)中。
其他應(yīng)用程序可以是IVR(交互式語音應(yīng)答系統(tǒng))、Email網(wǎng)關(guān),以及其他的各種應(yīng)用程序。只要采用語音網(wǎng)關(guān)的SDK(應(yīng)用程序開發(fā)包)或者符合語音網(wǎng)關(guān)底層的SOCKET通信協(xié)議,都可以向網(wǎng)關(guān)發(fā)送中英文語音合成請(qǐng)求。
對(duì)于任意一個(gè)應(yīng)用程序,當(dāng)需要語音合成時(shí),只要把文字信息發(fā)送到語音網(wǎng)關(guān),語音網(wǎng)關(guān)就可以將合成后的語音信息發(fā)送回相應(yīng)的應(yīng)用程序。在負(fù)載平衡的系統(tǒng)中,有時(shí)主語音網(wǎng)關(guān)需要將合成的數(shù)據(jù)發(fā)送到其他網(wǎng)關(guān)進(jìn)行處理,但對(duì)于應(yīng)用程序而言,不需要知道其中的處理細(xì)節(jié),主語音網(wǎng)關(guān)會(huì)進(jìn)行相應(yīng)的控制,當(dāng)從語音網(wǎng)關(guān)把數(shù)據(jù)處理完成后,會(huì)直接把合成的語音數(shù)據(jù)發(fā)送回相應(yīng)的應(yīng)用程序。
語音識(shí)別網(wǎng)關(guān)
語音識(shí)別正逐步成為信息技術(shù)中人機(jī)接口的關(guān)鍵技術(shù),語音識(shí)別技術(shù)與語音合成技術(shù)結(jié)合使人們能夠甩掉鍵盤,通過語音命令進(jìn)行操作。語音技術(shù)的應(yīng)用已經(jīng)成為一個(gè)具有競(jìng)爭(zhēng)性的新興高技術(shù)產(chǎn)業(yè)。
識(shí)別網(wǎng)關(guān)系統(tǒng)集成了中科院自動(dòng)化所的語音識(shí)別引擎,支持非特定人語音,采用有限詞匯模式,識(shí)別率高達(dá)98%以上,達(dá)到國(guó)內(nèi)外領(lǐng)先的技術(shù)水平。
ASR支持自己定義的語法規(guī)則,語音識(shí)別所需要用到的語法規(guī)則,遵循ABNF范式(Augmented BNF),兼容W3C語法定義。
語音識(shí)別網(wǎng)關(guān)系統(tǒng)把ASR進(jìn)行封裝處理,以網(wǎng)關(guān)中間件的方式把功能開放給其他服務(wù)系統(tǒng)。封裝后的網(wǎng)關(guān)系統(tǒng)簡(jiǎn)化了ASR系統(tǒng)的應(yīng)用,并對(duì)CTI系統(tǒng)做了大量工作,如語音編碼處理,語音分析處理。
語音識(shí)別網(wǎng)關(guān)采用合成網(wǎng)關(guān)相同的結(jié)構(gòu),所有在很多特性上與合成網(wǎng)關(guān)相似:
系統(tǒng)支持內(nèi)建排隊(duì)功能,支持多模塊調(diào)用。
系統(tǒng)采用中心控制管理,可以擴(kuò)展到多臺(tái)主機(jī)運(yùn)行,支持負(fù)載平衡技術(shù)。
系統(tǒng)支持多種平臺(tái),底層通信建立在TCP/IP協(xié)議上,可以運(yùn)行在復(fù)雜的網(wǎng)絡(luò)環(huán)境中。
可擴(kuò)展性:語音合成網(wǎng)關(guān)可以運(yùn)行在任意一臺(tái)主機(jī)上,單主機(jī)支持32個(gè)并發(fā)請(qǐng)求,通過系統(tǒng)的負(fù)載平衡控制,可以在網(wǎng)絡(luò)中加入任意數(shù)量的語音網(wǎng)關(guān)系統(tǒng),通過主系統(tǒng)中的中央調(diào)度模塊,可以根據(jù)當(dāng)前各網(wǎng)關(guān)的工作量,把數(shù)據(jù)處理分配到最佳的語音網(wǎng)關(guān)中處理。通過這種系統(tǒng)模式,理論上可以支持任意數(shù)量的系統(tǒng)擴(kuò)展,甚至可以將語音網(wǎng)關(guān)擴(kuò)展到Internet的任意地方。
移植性:語音合成網(wǎng)關(guān)可以運(yùn)行在多種系統(tǒng)環(huán)境,包括Windows NT/2000、Linux、SCO OpenServer、及Solaris,可以根據(jù)用戶需求選用。
實(shí)用性:實(shí)際開發(fā)過程中,可以采用語音網(wǎng)關(guān)的軟件開發(fā)包(SDK),也可以采用TCP/IP數(shù)據(jù)包方式調(diào)用系統(tǒng)功能。
高可靠性:采用多種容錯(cuò)機(jī)制,具有自動(dòng)恢復(fù)功能。
重慶巨佳公司供稿 CTI論壇編輯
相關(guān)鏈接: