科大訊飛發(fā)布InterPhonic 4.0銀行專業(yè)版合成系統(tǒng)
--新特性搶先預覽
2005/12/08
隨著金融業(yè)呼叫中心的發(fā)展,越來越多的銀行在電話銀行業(yè)務的拓展和推廣中推陳出新,從而也引發(fā)了語音技術在銀行業(yè)中的應用熱潮?拼笥嶏w作為語音技術的開發(fā)商和語音應用推廣的拓荒者,早在2000年以前就開始在銀行業(yè)中推動語音的應用。在通用領域中,科大訊飛的語音技術一直處于國際領先地位,無論從合成效果的自然度、產品化以及實際應用中都比同類產品有著明顯的優(yōu)勢。2005年4月份科大訊飛發(fā)布了其最新的多語種語音合成平臺InterPhonic 4.0在業(yè)界又一次引起了人們對語音應用效果的關注,成為在電信、金融等領域高端應用中的主流產品。InterPhonic 4.0為提升應用效果而設計的靈活的定制架構,加上訊飛在金融領域多年的應用積累,時隔半年,基于InterPhonic 4.0的銀行專業(yè)版正式對外發(fā)布。
InterPhonic 4.0銀行專業(yè)版除了具備通用版的所有特性之外,主要針對金融行業(yè)特別是電話銀行應用當中的詞匯量、多音字處理、特殊符號處理、數字/數值、定制音庫、預錄音等環(huán)節(jié)進行了功能改進和應用效果的提升,具有以下幾種專門為金融行業(yè)量身定做的產品特性:
- 銀行專業(yè)版詞典
金融領域的詞匯量隨著近年來銀行業(yè)的發(fā)展在不斷擴大和更新,新業(yè)務、新名詞的出現(xiàn)層出不窮?拼笥嶏w在與銀行業(yè)合作伙伴的合作中廣泛收集電話銀行實用語料,并采用獨有的語料分析和搜索技術對主詞典進行添加和修正,使得銀行專業(yè)版中的詞典更適用于金融領域,提高了對金融領域新名詞的識別率,使分詞斷句更加準確。
- 多音字規(guī)則庫
多音字是漢語中的普遍現(xiàn)象,多音字的正確與否直接影響到語音合成的應用效果。通用領域內的多音字判斷與專業(yè)領域并不是很一致甚至會有沖突。一些僅在金融領域才出現(xiàn)的多音字現(xiàn)象被提煉成多音字規(guī)則,這些規(guī)則僅適用于在專業(yè)領域的語言環(huán)境中。在多音字規(guī)則的歸納方面需要大量語料的積累和系統(tǒng)的語法分析工具?拼笥嶏w公司和中國社會科學院語言研究所建立聯(lián)合實驗室,致力于漢語言的分析和研究,并且在語料收集和數據制作方面具有深厚的積淀。銀行專業(yè)版的多音字規(guī)則庫也是在此基礎上得到了更完善的補充,多音字自動識別的正確率可達到98%以上。
- 銀行專業(yè)版音庫
定制音庫可以更好的覆蓋金融領域的語言環(huán)境,使得合成出的語句更加流暢自然。采用在主音庫上補充定制音庫的手段提升合成效果是目前采用大語料庫技術的合成系統(tǒng)改善語音合成效果的一個最直接有效的方法。但是受到語料收集和分析能力以及數據制作能力的限制,能夠緊跟應用發(fā)展而定制出與當前應用環(huán)境更為接近的音庫的規(guī)模、質量和更新周期都必須有一個專業(yè)技術隊伍來保障?拼笥嶏w在推出Interphonic 4.0的同時即開始了基于Interphonic 4.0的銀行專業(yè)版定制音庫的制作。目前,Interphonic 4.0 銀行專業(yè)版已經提供了普通話女聲小燕的定制音庫,隨著應用需求的不斷增加,也將會陸續(xù)提供普通話男聲定制音庫和粵語定制音庫。
- 特殊符號規(guī)則庫
在Interphonic4.0的特殊符號集中常用符號的處理已經比較完備了,但是仍有一些特殊符號的使用會根據應用環(huán)境的特殊性而與通常環(huán)境中的判斷規(guī)則和讀法不一樣。Interphonic 4.0銀行專業(yè)版收集了金融領域常用符號及其出現(xiàn)的語言環(huán)境進行分析,對特殊符號規(guī)則庫進行了調整,從而提高了在金融領域內的特殊符號識別正確率。同時,Interphonic 4.0的定制架構允許對特殊符號的讀法和停頓時間進行用戶自定義的設置,在銀行專業(yè)版中已經根據行業(yè)特征對這些參數進行了調整,用戶一般不需要重新設置特殊符號的默認讀法和停頓時間。
- 數字數值
Interphonic4.0的數字數值為了適應電話銀行中用戶的使用習慣,進行了效果調整,使數字數值的發(fā)音更加飽滿。使用TTS合成的數字數值首先在清晰度和自然度方面就比原始的錄音拼接要高。此外,電話銀行業(yè)務中對于數字數值的可懂度和準確度要求更高,銀行專業(yè)版在數字數值方面做了更多的改進,在提高系統(tǒng)默認設置的數字數值可懂度的同時還開放了更多用戶可以自主設置的參數。銀行專業(yè)版中數字數值的報讀風格定位于語速較慢、發(fā)音飽滿、富有節(jié)奏感,從而提高了數字數值的可懂度。除了具備Interphonic4.0中的整體語速調節(jié)功能外,銀行專業(yè)版也支持對于數字數值單獨進行語速調節(jié)和節(jié)奏設置,這樣不同用戶都可以根據自己的需要進行設置便于用戶對于較長的賬號等數字數值進行核對和記錄。
- 預錄音
在電話銀行業(yè)務中很多提示音是固定不變的,在和語音合成系統(tǒng)合成出的語音配合使用時,往往讓程序設計者們?yōu)檫@些提示音采用預錄音還是采用TTS合成而取舍難定。如果采用預錄音當然能夠達到最好的自然度,但是不能適應提示音中的變化,一旦提示音有改動預錄音不能及時更新就會出現(xiàn)問題。而采用合成的方式來提供提示音,雖然靈活性問題解決了但是自然度又會略遜于預錄音。因此如何處理好提示音和語音合成的融合可以考驗一個語音合成系統(tǒng)在提升應用效果方面的功能和架構是否完善。銀行專業(yè)版的預錄音功能正是在Interphonic 4.0的定制架構上實現(xiàn)的一個平衡提示音自然度和靈活性的工具。預錄音與合成音統(tǒng)一發(fā)音人,過渡自然。調用時,不需要特殊標記,系統(tǒng)可自動識別預錄音庫中已有提示音,并和需要合成的語音一起進行輸出。在銀行專業(yè)版的預錄音庫中已經包含了近2000條常用中粵語提示音,同時提供提示音添加功能,方便用戶隨時添加預錄音。用戶還可向科大訊飛提出定制需求,可根據用戶的具體應用進行電話銀行菜單預錄音。
科大訊飛公司供稿 CTI論壇編輯
相關鏈接: