科大訊飛InterPhonic 3.0語音合成系統(tǒng)新特性預(yù)覽
2004/01/12
領(lǐng)先的專業(yè)語音技術(shù)提供商-科大訊飛日前宣布其新一代重量級語音合成系統(tǒng)InterPhonic 3.0將于2004年第一季度推出。
科大訊飛每一代語音合成系統(tǒng)的推出都標(biāo)志著中文語音合成技術(shù)產(chǎn)品的一個全新里程碑,在效果表現(xiàn)和功能特性上的持續(xù)推進(jìn)也得到了眾多客戶的充分肯定。InterPhonic 3.0延續(xù)了科大訊飛的技術(shù)產(chǎn)品基本路線與原則,即基于對語音合成技術(shù)發(fā)展的深入思考、穩(wěn)健把握和對用戶需求的廣泛收集與詳細(xì)分析,將以全新的面貌展現(xiàn)在合作伙伴與客戶面前。
現(xiàn)在我們已經(jīng)可以預(yù)覽InterPhonic 3.0的一些重要新特性:
1.全新風(fēng)格的女聲音庫,并支持多音庫管理和運(yùn)行時自由切換;
隨著語音技術(shù)的迅速發(fā)展,應(yīng)用也隨之不斷深入,語音合成技術(shù)正日益在更廣闊的范圍內(nèi)體現(xiàn)出其獨(dú)特的優(yōu)勢,已由簡單信息發(fā)布迅速向更加豐富的信息服務(wù)內(nèi)容擴(kuò)展。用戶對電話信道上的語音效果提出了新的要求,要求更加人性化,更加親切自然;谶\(yùn)營商和集成商的新要求,并調(diào)查了最終用戶的反饋意見,科大訊飛確定了新一代合成系統(tǒng)的發(fā)音風(fēng)格,制作推出了新的女聲音庫。在制作新的音庫時,對錄音語料的選取上充分考慮了新聞、財經(jīng)、電信等行業(yè)的內(nèi)容,使新的音庫能適合于更加廣泛的應(yīng)用范圍。新的女聲音庫,由專業(yè)播音員錄制,音質(zhì)清脆甜美,節(jié)奏活潑自然,更加符合人性化合成語音的要求。
除支持全新風(fēng)格的女聲音庫外,InterPhonic 3.0語音合成系統(tǒng)也同時支持原有的語調(diào)平穩(wěn),語氣正式的女聲音庫。InterPhonic 3.0允許客戶選擇安裝兩種音庫中的任意一個,或者是同時安裝兩個音庫。并且提供了這兩種音庫自由切換的功能?蛻艨梢栽谙到y(tǒng)運(yùn)行的情況下,通過參數(shù)設(shè)置切換合成服務(wù)的發(fā)音人。這樣客戶可以根據(jù)業(yè)務(wù)的變化,選擇更加適合應(yīng)用需要的發(fā)音人,而使整個語音應(yīng)用能提供給用戶更加自然的感受。
2.中文合成技術(shù)和中英文混讀合成技術(shù)方面都有新的突破;
科大訊飛在中文語音合成的研究領(lǐng)域一直走在業(yè)界的最前列,InterPhonic 3.0合成系統(tǒng)發(fā)布版本中,將基礎(chǔ)研究的重要技術(shù)成果成功轉(zhuǎn)化到產(chǎn)品中,包含了在中文合成技術(shù)和中英文混讀合成技術(shù)方面最新的成果。InterPhonic 3.0采用改進(jìn)的單元挑選算法,并增加了備選語音單元的數(shù)量,使合成系統(tǒng)能更加準(zhǔn)確選擇滿足實際應(yīng)用環(huán)境的語音單元,不僅使合成語音更加自然,而且使系統(tǒng)在更大的應(yīng)用范圍下也能保證合成效果的穩(wěn)定性。采用新的韻律預(yù)測算法,減少了合成語音中韻律跳躍的現(xiàn)象,保證合成效果更加的流暢。InterPhonic 3.0還采用了新的語音拼接的算法,解決了協(xié)同發(fā)音和單元銜接的問題,使合成語音更加的清晰。
3.在中文文本分析和處理的多個方面都有顯著的改進(jìn);
要正確的進(jìn)行語音合成,必須要對輸入的文本進(jìn)行正確分析和處理,這個問題不僅牽涉到對文本進(jìn)行語法層面的分析,還牽涉到對文本語意層面的理解,即自然語言理解層面,一直是研究領(lǐng)域的難題?拼笥嶏w的基礎(chǔ)研究部門在文本分析領(lǐng)域的長期積累和不懈創(chuàng)新,保證了語音合成系統(tǒng)的文本分析能力在歷次評測中一向都是最領(lǐng)先的,在實際應(yīng)用中也得到了廣大客戶的一致認(rèn)可。
在分析了不同應(yīng)用領(lǐng)域的文本特征之后,采用了統(tǒng)計和規(guī)則相結(jié)合的方法來進(jìn)行中文信息的分析處理。收集了大量與客戶的業(yè)務(wù)領(lǐng)域相關(guān)的文本和實際應(yīng)用中需要合成的文本信息,在進(jìn)行統(tǒng)計分析之后,進(jìn)一步優(yōu)化了統(tǒng)計模型和數(shù)據(jù)庫,并且增加了大量的處理規(guī)則,提升了文本中詞組的識別和特殊符號的處理的準(zhǔn)確性。通過統(tǒng)計和規(guī)則的結(jié)合,系統(tǒng)既保證了對大量文本分析處理的正確性,也保證在一些特殊語言環(huán)境下分析處理的正確性。
4.支持定制資源包和行業(yè)專用版;
InterPhonic CE 2.0開始支持以定制資源庫的方式,提供針對具體應(yīng)用領(lǐng)域的合成效果更加優(yōu)化的系統(tǒng)。經(jīng)多一年時間與客戶的交流和資源的制作,科大訊飛已經(jīng)可以提供證券、氣象、保險、電力等行業(yè)的定制資源包。這些定制資源包在實際應(yīng)用環(huán)境取得效果提高已經(jīng)得到了驗證。InterPhonic 3.0將繼續(xù)對定制資源包這一重要特性提供支持,同時還將繼續(xù)支持行業(yè)專用版,如銀行專業(yè)版,以滿足銀行業(yè)日益增長的語音應(yīng)用需要。
5.背景音支持;
通過實驗和對實際應(yīng)用環(huán)境的考察分析發(fā)現(xiàn),在合成語音或提示音中適當(dāng)?shù)奶砑颖尘耙魳,可以改善用戶在實際應(yīng)用過程中的體驗,使語音服務(wù)更加的親切自然。在目前的電話語音應(yīng)用中,如果客戶希望實現(xiàn)背景音和合成語音的同步播放,必須了解一定的語音知識,學(xué)習(xí)使用專業(yè)的語音制作工具。科大訊飛考慮了客戶的實際要求,在InterPhonic 3.0系統(tǒng)中實現(xiàn)了背景音的管理和與合成語音的自動融合?蛻艨梢允褂孟到y(tǒng)提供的工具,添加預(yù)錄好的背景音樂,調(diào)整背景音樂和合成語音的音量的對比關(guān)系,并且可以試聽增加了背景音之后的語音效果。在合成過程中,客戶只需要在文本中添加CSSML標(biāo)記,就可以通過序號引用已經(jīng)添加的背景音樂?蛻舨恍枰_發(fā)工作,不需要修改已有的應(yīng)用程序,就可以實現(xiàn)有背景音樂的語音合成功能。
6.用戶提示音資源管理;
目前的電話語音系統(tǒng)的業(yè)務(wù)流程中往往需要同時使用預(yù)錄的提示音和合成語音結(jié)合進(jìn)行提供語音服務(wù)。因此在應(yīng)用設(shè)計和業(yè)務(wù)開發(fā)過程中,需要頻繁地處理提示音播放與語音合成的切換以及之間的過渡銜接等問題,增加了流程的復(fù)雜程度。而提示音與合成語音的銜接處理不好,就容易造成語音差異明顯,影響服務(wù)的整體效果與質(zhì)量。
InterPhonic 3.0中具有對提示音的統(tǒng)一管理和處理的功能。用戶可以將提示音添加到系統(tǒng)中作為資源,并提供了自動或手動的方式調(diào)整提示音的語音特征,使提示音和合成語音合成更好的銜接?蛻羰褂肅SSML文本標(biāo)記利用序號引用提示音,通過合成系統(tǒng)的開發(fā)接口得到的語音數(shù)據(jù)會自動處理提示音與合成語音的拼接問題。客戶不需要的額外的開發(fā)工作就可以提升同時使用兩種語音的情況下播報的語音效果。如果結(jié)合InterPhonic 3.0新支持的背景音特性,兩段語音之間有背景音樂進(jìn)行過渡,語音應(yīng)用的效果將更加自然。
7.提供功能豐富、使用便捷的合成工具包。
致力于語音合成核心引擎的縱深研發(fā)和不斷提升之外,科大訊飛同時不斷推出方便語音開發(fā)與應(yīng)用的工具,幫助合作伙伴和客戶提高語音應(yīng)用的效果和效率。InterPhonic 3.0對語音合成工具包進(jìn)一步進(jìn)行豐富與完善,這里面既包括一些客戶已經(jīng)熟悉的TTS Doctor技術(shù)支持工具、CSSML Editor可視化編輯工具,還將新增性能評估計算工具,并完善離線語音合成套件等等。合理地運(yùn)用這些工具,有利于合作伙伴和客戶更好的維護(hù)與應(yīng)用語音合成系統(tǒng),縮短語音應(yīng)用集成開發(fā)的時間。
以上只是InterPhonic 3.0部分新特性的預(yù)覽,InterPhonic 3.0同時還支持目前市場主流應(yīng)用的InterPhonic CE 2.2的所有重要特性。我們相信,隨著InterPhonic 3.0的推出,將促使語音應(yīng)用邁上更高的臺階。
科大訊飛公司供稿 CTI論壇編輯
相關(guān)鏈接: