首頁>>廠商>>語音識別與合成>>科大訊飛

語音合成技術(shù)及國內(nèi)外發(fā)展現(xiàn)狀

王仁華 中國科學(xué)技術(shù)大學(xué)

一 語音合成技術(shù)簡介

-----語音識別和語音合成技術(shù)是實現(xiàn)人機(jī)語音通信,建立一個有聽和講能力的口語系統(tǒng)所必需的兩項關(guān)鍵技術(shù)。使電腦具有類似于人一樣的說話和聽懂人說話的能力,是90年代信息產(chǎn)業(yè)的重要競爭市場。和語言識別相比,語言合成的技術(shù)相對說來要成熟一些,是該領(lǐng)域中近期最有希望產(chǎn)生突破并形成產(chǎn)業(yè)化的一項技術(shù)。

-----語言合成或者讓計算機(jī)說話包含著二個方面的可能性:一是機(jī)器能再生一個預(yù)先存入的語音信號,就象普通的錄音機(jī)一樣,不同之處只是采用了數(shù)字存儲技術(shù)。簡單地將預(yù)先存入的單音或詞組拼接起來也能作到“機(jī)器開口”, 但是“一字一蹦”,機(jī)器味十足,人們很難接受。然而如果預(yù)先存入足夠的語音單元,在合成時采用恰當(dāng)?shù)募夹g(shù)手段挑選出所需的語音單元拼接起來,也有可能生成高自然度的語句,這就是波形拼接的語音合成方法。為了節(jié)省存儲容量,在存入機(jī)器之前還可以對語音信號先進(jìn)行數(shù)據(jù)壓縮。另一種可能是采用數(shù)字信號處理的方法,將人類發(fā)聲過程看作是一個模擬聲門狀態(tài)的源,去激勵一個表征聲道諧振特性的時變數(shù)字濾波器,這個源可能是周期脈沖序列,它代表濁音情況下的聲帶振動,或者是隨機(jī)噪聲序列,代表不出聲的清音. 調(diào)整濾波器的參數(shù)等效于改變口腔及聲道形狀,達(dá)到控制發(fā)不同音的目的,而調(diào)整激勵源脈沖序列的周期或強(qiáng)度,將改變合成語音的音調(diào)、重音等. 因此,只要正確控制激勵源和濾波器參數(shù)(一般每隔10~30ms送一組),這個模型就能靈活地合成出各種語句來,因此又稱作為參數(shù)合成的方法。根據(jù)時變?yōu)V波器的結(jié)構(gòu)形式不同,又有LPC合成和共振峰合成器等之分。

-----按照人類言語功能的不同層次,語言合成也可分成三個層次,它們是:(1)從文字到語音的合成(Text-To-Speech);(2)從概念到語音的合成(Concept-To-Speech);(3)從意向到語音的合成(Intention-To-Speech)。這三個層次反映了人類大腦中形成說話內(nèi)容的不同過程,涉及人類大腦的高級神經(jīng)活動。不難想象,即使是按規(guī)則的文字到語音合成(文語合成)也已經(jīng)是相當(dāng)困難的任務(wù)。為了合成出高質(zhì)量的語言,除了依賴于各種規(guī)則,包括語義學(xué)規(guī)則、詞匯規(guī)則、語音學(xué)規(guī)則外,還必須對文字的內(nèi)容有很好的理解,這將涉及自然語言理解的問題。從這一點講,文語轉(zhuǎn)換系統(tǒng)實際上也可看作一個人工智能系統(tǒng)。圖1顯示了一個完整的文語轉(zhuǎn)換系統(tǒng)示意圖。文語轉(zhuǎn)換過程是先將文字序列轉(zhuǎn)換成音韻序列,再由語音合成器生成語音波形。其中第一步涉及語言學(xué)處理,例如分詞、字音轉(zhuǎn)換等,以及一整套有效的韻律控制規(guī)則;第二步需要先進(jìn)的語音合成技術(shù),能按要求實時合成出高質(zhì)量的語音流。因此一般說來,文語合成系統(tǒng)都需要一套復(fù)雜的文字序列到音素序列的轉(zhuǎn)換程序,也就是說,文語轉(zhuǎn)換系統(tǒng)不僅要應(yīng)用數(shù)字信號處理技術(shù),而且必須有大量的語言學(xué)知識的支持。當(dāng)然其中語音合成終究還是最基本的部分,它相當(dāng)于“人工嘴巴”,任何語言合成系統(tǒng)包括文語轉(zhuǎn)換系統(tǒng),都離不開語音合成器。


圖 1 文語轉(zhuǎn)換系統(tǒng)示意圖

二 國內(nèi)外語音合成技術(shù)發(fā)展現(xiàn)狀

-----綜觀語言合成技術(shù)的研究已有二百多年的歷史,但是真正有實用意義的近代語音合成技術(shù)是隨著計算機(jī)技術(shù)和數(shù)字信號處理技術(shù)的發(fā)展而發(fā)展起來的,主要是讓計算機(jī)能夠產(chǎn)生高清晰度、高自然度的連續(xù)語音。近幾十年來國際和國內(nèi)的研究主要集中在按規(guī)則文語轉(zhuǎn)換,即將書面語言轉(zhuǎn)換成口頭語言。在語音合成技術(shù)的發(fā)展中,早期的研究主要是采用參數(shù)合成方法。值得提及的是Holmes的并聯(lián)共振峰合成器(1973)和Klatt的串/并聯(lián)共振峰合成器(1980),只要精心調(diào)整參數(shù),這兩個合成器都能合成出非常自然的語音。而最具代表性的文語轉(zhuǎn)換系統(tǒng)數(shù)美國DEC 公司的DECtalk(1987),該系統(tǒng)采用Klatt的串/并聯(lián)共振峰合成器,可以通過標(biāo)準(zhǔn)的接口和計算機(jī)連網(wǎng)或單獨接到電話網(wǎng)上提供各種語音信息服務(wù),它的發(fā)音清晰,并可產(chǎn)生七種不同音色的聲音,供用戶選擇。但是經(jīng)過多年的研究與實踐表明,由于準(zhǔn)確提取共振峰參數(shù)比較困難,雖然利用共振峰合成器可以得到許多逼真的合成語音,但是整體合成語音的音質(zhì)難以達(dá)到文語轉(zhuǎn)換系統(tǒng)的實用要求。自八十年代末期至今,語言合成技術(shù)又有了新的進(jìn)展,特別是基音同步疊加(PSOLA)方法的提出(1990),使基于時域波形拼接方法合成的語音的音色和自然度大大提高。九十年代初,基于PSOLA技術(shù)的法語、德語、英語、日語等語種的文語轉(zhuǎn)換系統(tǒng)都已經(jīng)研制成功。這些系統(tǒng)的自然度比以前基于LPC方法或共振峰合成器的文語合成系統(tǒng)的自然度要高,并且基于PSOLA方法的合成器結(jié)構(gòu)簡單易于實時實現(xiàn),有很大的商用前景。最近幾年,一種新的基于數(shù)據(jù)庫的語音合成方法正引起人們的注意。在這個方法中,合成語句的語音單元是從一個預(yù)先錄下的龐大的語音數(shù)據(jù)庫中挑選出來的, 不難想象只要語音數(shù)據(jù)庫足夠大,包括了各種可能語境下的語音單元,理論上講有可能拼接出任何語句。由于合成的語音基元都是來自自然的原始發(fā)音,合成語句的清晰度和自然度都將會非常高。

-----國內(nèi)的漢語語音合成研究起步較晚些,但從八十年代初就基本上與國際上研究同步發(fā)展。大致也經(jīng)歷了共振峰合成、LPC合成至應(yīng)用PSOLA技術(shù)的過程。在國家863計劃,國家自然科學(xué)基金委,國家攻關(guān)計劃,中國科學(xué)院有關(guān)項目等支持下,漢語文語轉(zhuǎn)換系統(tǒng)研究近年來取得了令人舉目的進(jìn)展,其中不乏成功的例子:如中國科學(xué)院聲學(xué)所的KX-PSOLA(1993), 聯(lián)想佳音(1995);清華大學(xué)的TH_SPEECH(1993);中國科技大學(xué)的KDTALK(1995)等系統(tǒng)。這些系統(tǒng)基本上都是采用基于PSOLA方法的時域波形拼接技術(shù),其合成漢語普通話的可懂度、清晰度達(dá)到了很高的水平。然而同國外其它語種的文語轉(zhuǎn)換系統(tǒng)一樣,這些系統(tǒng)合成的句子及篇章語音機(jī)器味較濃,其自然度還不能達(dá)到用戶可廣泛接受的程度,從而制約了這項技術(shù)的大規(guī)模進(jìn)入市場。

-----1998年中國科技大學(xué)在國家863 計劃和國家自然科學(xué)基金委支持下,研制成功KD-863漢語文語轉(zhuǎn)換系統(tǒng)。和采用國內(nèi)外流行的PSOLA技術(shù)的系統(tǒng)相比,在輸出語音的音質(zhì)和自然度上有了突破性的提高。KD-863采用了一種全新的基于語音數(shù)據(jù)庫的語音合成方法, 該技術(shù)的基本思想是將實際語流中漢語音節(jié)千變?nèi)f化的音變進(jìn)行聽感上的量化歸并,設(shè)計出多樣本的漢語語音基元庫,這個庫蘊涵了漢語韻律變化信息,合成時只要通過對基元庫樣本的選取便可實現(xiàn)韻律控制。同時語音基元庫中的樣本是直接從自然語音中截取,避免了采用信號處理技術(shù)獲取音變單元對音質(zhì)的損害,因而合成語音具有接近自然語音的音質(zhì)。KD-863文語轉(zhuǎn)換系統(tǒng)一經(jīng)推出,就因其合成語音的高清晰度與高自然度引起了社會各方的重視。先后應(yīng)用于為深圳華為技術(shù)公司設(shè)計的“114自動電話報號系統(tǒng)”,和為國家工商總局設(shè)計的“工商企業(yè)語音(傳真)查詢系統(tǒng)”。使得漢語語音合成技術(shù)走出實驗室,向市場應(yīng)用邁出了重要的一步。KD-863系統(tǒng)參加了在1998年4月國家科委組織的全國漢語語音合成系統(tǒng)的性能評測,其輸出語音的自然度居同類系統(tǒng)之首,是唯一達(dá)到用戶可以接受程度的系統(tǒng)。KD-863還在日本,新加坡,香港的有關(guān)研究所和大學(xué)進(jìn)行過演示,均得到了有關(guān)方面專家的認(rèn)同。最近中國科技大學(xué)又推出了KD-2000漢語文語轉(zhuǎn)換系統(tǒng),不僅在語音合成技術(shù)方面有進(jìn)一步的發(fā)展,特別是在文本預(yù)處理中圍繞層次化結(jié)構(gòu)思想,運用大量的統(tǒng)計和規(guī)則的方法,較好地解決了三個大的處理環(huán)節(jié):特殊符號處理,分詞處理和拼接處理,使得漢語文語轉(zhuǎn)換系統(tǒng)的整體性能有很大提高。以KD-2000文語轉(zhuǎn)換為核心的“暢言2000”智能漢語平臺軟件已開始進(jìn)入市場。

三 語音合成發(fā)展方向

1. 提高合成語音的自然度

-----提高合成語音的自然度仍然是高性能文語轉(zhuǎn)換的當(dāng)務(wù)之急。就漢語語音合成來說,目前在單字和詞組一級上,合成語音的可懂度和自然度已基本解決,但是到句子乃至篇章一級時其自然度問題就比較大。

-----基于語音數(shù)據(jù)庫的語音合成方法有望進(jìn)一步提高語音合成的自然度。 因為這是一種采用自然語音波形直接拼接的方法,進(jìn)行拼接的語音單元是從一個預(yù)先錄下的自然語音數(shù)據(jù)庫中挑選出來的,因此有可能最大限度地保留語音的自然度。但由此產(chǎn)生了一系列新的需要研究的問題,包括:如何確定語音合成的基元,根據(jù)什么準(zhǔn)則去挑選合適的基元;韻律參數(shù)定量化問題,對數(shù)據(jù)庫進(jìn)行定標(biāo)問題;以及如何將統(tǒng)計的方法和規(guī)則方法相結(jié)合使機(jī)器能自動發(fā)現(xiàn)和找出所需的語音單元,保證最高的合成語句自然度等等。

-----無論用哪種合成方法,韻律規(guī)則的總結(jié),特別是連續(xù)語音的韻律規(guī)則總結(jié),盡可能將定性的規(guī)則描述定量化,對自然度始終有最重要的影響。還有前端文本處理, 對合成語音的自然度也具有舉足輕重的影響, 完整全面的解決, 需要自然語言理解的突破。

2 豐富合成語音的表現(xiàn)力

-----目前國內(nèi)外大多數(shù)語音合成研究是針對文語轉(zhuǎn)換系統(tǒng),且只能解決以某種朗讀風(fēng)格將書面語言轉(zhuǎn)換成口語輸出,缺乏不同年齡、性別特征及語氣、語速的表現(xiàn),更不用說賦予個人的感情色彩。隨著信息社會的需求發(fā)展,對人機(jī)交互提出了更高的要求,人機(jī)口語對話系統(tǒng)的研究也提到了日程上。即語音合成研究已開始從文字到語音的轉(zhuǎn)換階段向概念到語音的轉(zhuǎn)換階段發(fā)展。這不僅對語音合成技術(shù)提出了更高的要求,而且涉及到計算機(jī)語言生成,涉及人類大腦的高級神經(jīng)活動。但就語音合成來說,仍是一個要豐富合成語音的表現(xiàn)力問題。相對來說采用波形拼接方法來增強(qiáng)合成語音表現(xiàn)力比較困難,盡管也可以通過增加音庫容量和音庫個數(shù)來達(dá)到改變合成語音的特性,但畢竟它對韻律的控制能力非常有限。更為有效的辦法是采用參數(shù)合成法,分析參數(shù)特征,通過對相關(guān)參數(shù)的調(diào)整來實現(xiàn)對年齡、性別特征的改變,進(jìn)一步實現(xiàn)語氣、語調(diào)的變化,由于這種改變是連續(xù)的,對象特征可以千千萬萬,顯得更有生命力。近年來提出的基于LMA(對數(shù)振幅近似)技術(shù)的語音合成器,Hybrid Harmonic/Stochastic 模型 , Sinusoidal 模型等已被證實是一些新穎的能合成出高質(zhì)量語音的參數(shù)合成方法,為此應(yīng)繼續(xù)深入這方面的研究,以期在參數(shù)合成技術(shù)上取得突破。

3 降低語音合成技術(shù)的復(fù)雜度

-----語音合成技術(shù)正在走向市場。為了適應(yīng)社會的需求,擴(kuò)大文語合成的應(yīng)用場合,除了解決好上面兩個問題,提高合成語音的質(zhì)量和增強(qiáng)語音合成的表現(xiàn)力以外,在其他實用化方面也有要加以改進(jìn)的地方。就目前漢語文語轉(zhuǎn)換系統(tǒng)而言,減小音庫容量就是一個重要課題。目前高質(zhì)量的漢語文語轉(zhuǎn)換系統(tǒng)一般需要幾兆字節(jié)到幾十兆,甚至幾百兆字節(jié)的存儲容量,這在以PC機(jī)或工作站為硬件平臺的應(yīng)用中是沒有問題的,而對于象HPC, PDA及無線通信手機(jī),商務(wù)通等資源有限的設(shè)備上就沒法承受。解決的方法可以是通過語音壓縮編碼的方法來壓縮音庫所需的容量,或者采用更小的合成基元,例如用聲母、韻母或雙音素、半音節(jié), 以及減少合成語音所需的音節(jié)基元數(shù)等等。然而又不能增加算法的復(fù)雜度,因為運算量及系統(tǒng)開銷同樣會直接影響漢語語音合成的應(yīng)用。既要提高語音合成的質(zhì)量,又要降低語音合成的復(fù)雜度,這始終是一個矛盾的兩個方面。

4 多語種文語合成

-----語言是人們交流的工具,不同民族有自己不同的語言,不同語言之間的交流在今天開放的信息社會和網(wǎng)絡(luò)時代顯得十分重要,多語種的文語合成有著獨特的應(yīng)用價值。例如在自動電話翻譯,有聲的電子郵件等中都提出多語種的合成,即使是對漢語合成也有多方言文語轉(zhuǎn)換的需求。理想的多語種合成系統(tǒng)最好是各種語言共用一種合成算法或語音合成器,但是現(xiàn)有的語音合成系統(tǒng)大多是針對某一種語言或若干種語言開發(fā)出來的,所采用的算法及規(guī)則都是和某種語言密切相關(guān)的,因此很難推廣到其他的語種。例如漢語就和西方語言有很大的差異,國內(nèi)的系統(tǒng)都是做漢語文語轉(zhuǎn)換,它的一套韻律控制規(guī)則完全不適合于英語,而且主要是合成漢語普通話,即使推廣到廣東話和上海話都有相當(dāng)?shù)碾y度?梢娨嬲鉀Q多語種的文語合成,從文本處理到語音合成都必須有新的思路。美國貝爾實驗室在多語種文語轉(zhuǎn)換方面作了大量的工作,其中包括漢語普通話合成,值得注意。

四 結(jié)語

-----計算機(jī)要真正能夠象人一樣的說話,和人類自由地進(jìn)行交談,這仍然是需假以時日,還有大量的研究工作要去做;今天的文語轉(zhuǎn)換系統(tǒng)只能機(jī)械地朗讀文章,與生動活潑、感情豐富多彩的人類語言相比差距是如此之大;但是毋庸置疑,語音合成技術(shù)確實已經(jīng)可以走出實驗室了,其潛在的巨大市場已露出曙光。

王仁華,男,F(xiàn)為中國科技大學(xué)、電子工程與信息科學(xué)系教授、博士生導(dǎo)師;中國科技大學(xué)、國家智能計算機(jī)研究開發(fā)中心、人機(jī)語言通信研究評測室主任;中國通信學(xué)會會士、理事;安徽省通信學(xué)會副理事長;中國電子學(xué)會、中國儀器儀表學(xué)會、信號處理學(xué)會委員會委員;國家自然科學(xué)基金會自動化學(xué)科評審組成員;全國信標(biāo)委非鍵盤輸入分委員會委員;國際漢語口語處理委員會常任委員。自1999年起任國家863智能計算機(jī)成果轉(zhuǎn)換基地中央研究院院長,中科大訊飛信息科技股份有限公司董事長。

 



相關(guān)鏈接:
訊飛暢言語音教具系統(tǒng)榮獲“創(chuàng)新軟件產(chǎn)品” 2009-09-08
科大訊飛嵌入式語音新產(chǎn)品發(fā)布會在深圳舉行 2009-09-07
“會說話”的顯示屏提升居民小區(qū)信息服務(wù)水平 2009-09-07
訊飛語音助力太平人壽客服中心 2009-08-28
訊飛語音助力CDMA手機(jī)競爭終端市場 2009-08-14

分類信息:  語音合成TTS_與_語音識別ASR     技術(shù)_語音合成_新聞   技術(shù)_語音識別_新聞   技術(shù)_語音合成_文摘