科大訊飛InterPhonic 3.0語(yǔ)音合成系統(tǒng)新特性預(yù)覽
2004/01/12
領(lǐng)先的專業(yè)語(yǔ)音技術(shù)提供商-科大訊飛日前宣布其新一代重量級(jí)語(yǔ)音合成系統(tǒng)InterPhonic 3.0將于2004年第一季度推出。
科大訊飛每一代語(yǔ)音合成系統(tǒng)的推出都標(biāo)志著中文語(yǔ)音合成技術(shù)產(chǎn)品的一個(gè)全新里程碑,在效果表現(xiàn)和功能特性上的持續(xù)推進(jìn)也得到了眾多客戶的充分肯定。InterPhonic 3.0延續(xù)了科大訊飛的技術(shù)產(chǎn)品基本路線與原則,即基于對(duì)語(yǔ)音合成技術(shù)發(fā)展的深入思考、穩(wěn)健把握和對(duì)用戶需求的廣泛收集與詳細(xì)分析,將以全新的面貌展現(xiàn)在合作伙伴與客戶面前。
現(xiàn)在我們已經(jīng)可以預(yù)覽InterPhonic 3.0的一些重要新特性:
1.全新風(fēng)格的女聲音庫(kù),并支持多音庫(kù)管理和運(yùn)行時(shí)自由切換;
隨著語(yǔ)音技術(shù)的迅速發(fā)展,應(yīng)用也隨之不斷深入,語(yǔ)音合成技術(shù)正日益在更廣闊的范圍內(nèi)體現(xiàn)出其獨(dú)特的優(yōu)勢(shì),已由簡(jiǎn)單信息發(fā)布迅速向更加豐富的信息服務(wù)內(nèi)容擴(kuò)展。用戶對(duì)電話信道上的語(yǔ)音效果提出了新的要求,要求更加人性化,更加親切自然。基于運(yùn)營(yíng)商和集成商的新要求,并調(diào)查了最終用戶的反饋意見,科大訊飛確定了新一代合成系統(tǒng)的發(fā)音風(fēng)格,制作推出了新的女聲音庫(kù)。在制作新的音庫(kù)時(shí),對(duì)錄音語(yǔ)料的選取上充分考慮了新聞、財(cái)經(jīng)、電信等行業(yè)的內(nèi)容,使新的音庫(kù)能適合于更加廣泛的應(yīng)用范圍。新的女聲音庫(kù),由專業(yè)播音員錄制,音質(zhì)清脆甜美,節(jié)奏活潑自然,更加符合人性化合成語(yǔ)音的要求。
除支持全新風(fēng)格的女聲音庫(kù)外,InterPhonic 3.0語(yǔ)音合成系統(tǒng)也同時(shí)支持原有的語(yǔ)調(diào)平穩(wěn),語(yǔ)氣正式的女聲音庫(kù)。InterPhonic 3.0允許客戶選擇安裝兩種音庫(kù)中的任意一個(gè),或者是同時(shí)安裝兩個(gè)音庫(kù)。并且提供了這兩種音庫(kù)自由切換的功能?蛻艨梢栽谙到y(tǒng)運(yùn)行的情況下,通過(guò)參數(shù)設(shè)置切換合成服務(wù)的發(fā)音人。這樣客戶可以根據(jù)業(yè)務(wù)的變化,選擇更加適合應(yīng)用需要的發(fā)音人,而使整個(gè)語(yǔ)音應(yīng)用能提供給用戶更加自然的感受。
2.中文合成技術(shù)和中英文混讀合成技術(shù)方面都有新的突破;
科大訊飛在中文語(yǔ)音合成的研究領(lǐng)域一直走在業(yè)界的最前列,InterPhonic 3.0合成系統(tǒng)發(fā)布版本中,將基礎(chǔ)研究的重要技術(shù)成果成功轉(zhuǎn)化到產(chǎn)品中,包含了在中文合成技術(shù)和中英文混讀合成技術(shù)方面最新的成果。InterPhonic 3.0采用改進(jìn)的單元挑選算法,并增加了備選語(yǔ)音單元的數(shù)量,使合成系統(tǒng)能更加準(zhǔn)確選擇滿足實(shí)際應(yīng)用環(huán)境的語(yǔ)音單元,不僅使合成語(yǔ)音更加自然,而且使系統(tǒng)在更大的應(yīng)用范圍下也能保證合成效果的穩(wěn)定性。采用新的韻律預(yù)測(cè)算法,減少了合成語(yǔ)音中韻律跳躍的現(xiàn)象,保證合成效果更加的流暢。InterPhonic 3.0還采用了新的語(yǔ)音拼接的算法,解決了協(xié)同發(fā)音和單元銜接的問(wèn)題,使合成語(yǔ)音更加的清晰。
3.在中文文本分析和處理的多個(gè)方面都有顯著的改進(jìn);
要正確的進(jìn)行語(yǔ)音合成,必須要對(duì)輸入的文本進(jìn)行正確分析和處理,這個(gè)問(wèn)題不僅牽涉到對(duì)文本進(jìn)行語(yǔ)法層面的分析,還牽涉到對(duì)文本語(yǔ)意層面的理解,即自然語(yǔ)言理解層面,一直是研究領(lǐng)域的難題。科大訊飛的基礎(chǔ)研究部門在文本分析領(lǐng)域的長(zhǎng)期積累和不懈創(chuàng)新,保證了語(yǔ)音合成系統(tǒng)的文本分析能力在歷次評(píng)測(cè)中一向都是最領(lǐng)先的,在實(shí)際應(yīng)用中也得到了廣大客戶的一致認(rèn)可。
在分析了不同應(yīng)用領(lǐng)域的文本特征之后,采用了統(tǒng)計(jì)和規(guī)則相結(jié)合的方法來(lái)進(jìn)行中文信息的分析處理。收集了大量與客戶的業(yè)務(wù)領(lǐng)域相關(guān)的文本和實(shí)際應(yīng)用中需要合成的文本信息,在進(jìn)行統(tǒng)計(jì)分析之后,進(jìn)一步優(yōu)化了統(tǒng)計(jì)模型和數(shù)據(jù)庫(kù),并且增加了大量的處理規(guī)則,提升了文本中詞組的識(shí)別和特殊符號(hào)的處理的準(zhǔn)確性。通過(guò)統(tǒng)計(jì)和規(guī)則的結(jié)合,系統(tǒng)既保證了對(duì)大量文本分析處理的正確性,也保證在一些特殊語(yǔ)言環(huán)境下分析處理的正確性。
4.支持定制資源包和行業(yè)專用版;
InterPhonic CE 2.0開始支持以定制資源庫(kù)的方式,提供針對(duì)具體應(yīng)用領(lǐng)域的合成效果更加優(yōu)化的系統(tǒng)。經(jīng)多一年時(shí)間與客戶的交流和資源的制作,科大訊飛已經(jīng)可以提供證券、氣象、保險(xiǎn)、電力等行業(yè)的定制資源包。這些定制資源包在實(shí)際應(yīng)用環(huán)境取得效果提高已經(jīng)得到了驗(yàn)證。InterPhonic 3.0將繼續(xù)對(duì)定制資源包這一重要特性提供支持,同時(shí)還將繼續(xù)支持行業(yè)專用版,如銀行專業(yè)版,以滿足銀行業(yè)日益增長(zhǎng)的語(yǔ)音應(yīng)用需要。
5.背景音支持;
通過(guò)實(shí)驗(yàn)和對(duì)實(shí)際應(yīng)用環(huán)境的考察分析發(fā)現(xiàn),在合成語(yǔ)音或提示音中適當(dāng)?shù)奶砑颖尘耙魳?lè),可以改善用戶在實(shí)際應(yīng)用過(guò)程中的體驗(yàn),使語(yǔ)音服務(wù)更加的親切自然。在目前的電話語(yǔ)音應(yīng)用中,如果客戶希望實(shí)現(xiàn)背景音和合成語(yǔ)音的同步播放,必須了解一定的語(yǔ)音知識(shí),學(xué)習(xí)使用專業(yè)的語(yǔ)音制作工具?拼笥嶏w考慮了客戶的實(shí)際要求,在InterPhonic 3.0系統(tǒng)中實(shí)現(xiàn)了背景音的管理和與合成語(yǔ)音的自動(dòng)融合?蛻艨梢允褂孟到y(tǒng)提供的工具,添加預(yù)錄好的背景音樂(lè),調(diào)整背景音樂(lè)和合成語(yǔ)音的音量的對(duì)比關(guān)系,并且可以試聽增加了背景音之后的語(yǔ)音效果。在合成過(guò)程中,客戶只需要在文本中添加CSSML標(biāo)記,就可以通過(guò)序號(hào)引用已經(jīng)添加的背景音樂(lè)?蛻舨恍枰_發(fā)工作,不需要修改已有的應(yīng)用程序,就可以實(shí)現(xiàn)有背景音樂(lè)的語(yǔ)音合成功能。
6.用戶提示音資源管理;
目前的電話語(yǔ)音系統(tǒng)的業(yè)務(wù)流程中往往需要同時(shí)使用預(yù)錄的提示音和合成語(yǔ)音結(jié)合進(jìn)行提供語(yǔ)音服務(wù)。因此在應(yīng)用設(shè)計(jì)和業(yè)務(wù)開發(fā)過(guò)程中,需要頻繁地處理提示音播放與語(yǔ)音合成的切換以及之間的過(guò)渡銜接等問(wèn)題,增加了流程的復(fù)雜程度。而提示音與合成語(yǔ)音的銜接處理不好,就容易造成語(yǔ)音差異明顯,影響服務(wù)的整體效果與質(zhì)量。
InterPhonic 3.0中具有對(duì)提示音的統(tǒng)一管理和處理的功能。用戶可以將提示音添加到系統(tǒng)中作為資源,并提供了自動(dòng)或手動(dòng)的方式調(diào)整提示音的語(yǔ)音特征,使提示音和合成語(yǔ)音合成更好的銜接?蛻羰褂肅SSML文本標(biāo)記利用序號(hào)引用提示音,通過(guò)合成系統(tǒng)的開發(fā)接口得到的語(yǔ)音數(shù)據(jù)會(huì)自動(dòng)處理提示音與合成語(yǔ)音的拼接問(wèn)題?蛻舨恍枰念~外的開發(fā)工作就可以提升同時(shí)使用兩種語(yǔ)音的情況下播報(bào)的語(yǔ)音效果。如果結(jié)合InterPhonic 3.0新支持的背景音特性,兩段語(yǔ)音之間有背景音樂(lè)進(jìn)行過(guò)渡,語(yǔ)音應(yīng)用的效果將更加自然。
7.提供功能豐富、使用便捷的合成工具包。
致力于語(yǔ)音合成核心引擎的縱深研發(fā)和不斷提升之外,科大訊飛同時(shí)不斷推出方便語(yǔ)音開發(fā)與應(yīng)用的工具,幫助合作伙伴和客戶提高語(yǔ)音應(yīng)用的效果和效率。InterPhonic 3.0對(duì)語(yǔ)音合成工具包進(jìn)一步進(jìn)行豐富與完善,這里面既包括一些客戶已經(jīng)熟悉的TTS Doctor技術(shù)支持工具、CSSML Editor可視化編輯工具,還將新增性能評(píng)估計(jì)算工具,并完善離線語(yǔ)音合成套件等等。合理地運(yùn)用這些工具,有利于合作伙伴和客戶更好的維護(hù)與應(yīng)用語(yǔ)音合成系統(tǒng),縮短語(yǔ)音應(yīng)用集成開發(fā)的時(shí)間。
以上只是InterPhonic 3.0部分新特性的預(yù)覽,InterPhonic 3.0同時(shí)還支持目前市場(chǎng)主流應(yīng)用的InterPhonic CE 2.2的所有重要特性。我們相信,隨著InterPhonic 3.0的推出,將促使語(yǔ)音應(yīng)用邁上更高的臺(tái)階。
科大訊飛公司供稿 CTI論壇編輯
相關(guān)鏈接: