首頁(yè)>>>技術(shù)>>>語(yǔ)音應(yīng)用>>>語(yǔ)音合成(TTS)  語(yǔ)音合成產(chǎn)品

 

語(yǔ)音技術(shù)的拓展與展望

清華大學(xué)計(jì)算機(jī)系人機(jī)交互與媒體集成研究所

蔡蓮紅 吳志勇 王瑋 陶建華 王志明

2001/06/01

研究現(xiàn)狀

1.語(yǔ)音識(shí)別獲得應(yīng)用

  伴隨著語(yǔ)音識(shí)別技術(shù)的不斷發(fā)展,誕生了全球首套多語(yǔ)種交談式語(yǔ)音識(shí)別系統(tǒng)E-talk。這是全球惟一擁有中英混合語(yǔ)言的識(shí)別系統(tǒng),能聽(tīng)能講普通話、廣東話和英語(yǔ),還可以高度適應(yīng)不同的口音,因而可以廣泛適用于不同文化背景的使用者,尤其是中國(guó)地區(qū)語(yǔ)言差別較大的廣大用戶。由于E-talk可以大大提高工作效率,降低運(yùn)營(yíng)成本,并為用戶提供更便捷的增值服務(wù),我們相信它必將成為電信、證券、金融、旅游等重視客戶服務(wù)的行業(yè)爭(zhēng)相引用的電子商務(wù)應(yīng)用系統(tǒng),并成為電子商務(wù)發(fā)展的新趨勢(shì),為整個(gè)信息產(chǎn)業(yè)帶來(lái)無(wú)限商機(jī)。

  目前,飛利浦推出的語(yǔ)音識(shí)別自然會(huì)話平臺(tái)SpeechPearlSpeechMania已成功地應(yīng)用于國(guó)內(nèi)呼叫中心,SpeechPearl中的每個(gè)識(shí)別引擎可提供高達(dá)20萬(wàn)字的超大容量詞庫(kù),尤其在具有大詞匯量、識(shí)別準(zhǔn)確性和靈活性等要求的各種電信增值服務(wù)中有著廣泛的應(yīng)用。

2.語(yǔ)音合成信息服務(wù)被用戶接受

  語(yǔ)音合成技術(shù)把可視的文本信息轉(zhuǎn)化為可聽(tīng)的聲音信息,其應(yīng)用的經(jīng)濟(jì)效益和社會(huì)效益前景良好。尤其對(duì)漢語(yǔ)語(yǔ)音合成技術(shù)的應(yīng)用而言,全球有十幾億人使用中文,其市場(chǎng)需求、應(yīng)用前景和經(jīng)濟(jì)效益等可見(jiàn)一斑。

  語(yǔ)音技術(shù)已逐漸在電信聲訊信息服務(wù)領(lǐng)域智能電話查詢系統(tǒng)中展開(kāi)應(yīng)用,并迅速推廣。在電話高度普及的今天,如果打電話就能查詢到所需信息,無(wú)疑將給人們的日常生活帶來(lái)極大方便。漢語(yǔ)語(yǔ)音合成技術(shù)應(yīng)用到聲訊服務(wù)領(lǐng)域內(nèi),對(duì)現(xiàn)有的電話查詢系統(tǒng)將產(chǎn)生革命性的影響。

  語(yǔ)音技術(shù)與互聯(lián)網(wǎng)已成功地結(jié)合。電話Internet網(wǎng)關(guān)是一種用于實(shí)現(xiàn)電話網(wǎng)和Internet網(wǎng)之間信息互訪的系統(tǒng)。簡(jiǎn)而言之,就是讓電話用戶能夠輕松地通過(guò)電話訪問(wèn)Internet網(wǎng)。系統(tǒng)的功能主要體現(xiàn)在兩個(gè)方面。一方面,讓用戶通過(guò)電話、手機(jī)或傳真機(jī)隨時(shí)隨地訪問(wèn)Internet上的各種信息,如新聞、電子郵件等,大大擴(kuò)展了Internet信息的用戶群和地域范圍,同時(shí)大大降低了用戶參與到Internet的技術(shù)難度;另一方面,能夠?qū)㈦娫捊K端上信息流或控制指令發(fā)送到Internet上,例如用戶可以通過(guò)電話方便地發(fā)送電子郵件和類(lèi)似的留言信息,不僅具有傳統(tǒng)的語(yǔ)音信箱功能,還可以將用戶語(yǔ)音以IP的方式廉價(jià)地發(fā)送到全球任何一個(gè)電腦或電話終端上,大大降低了信息交流的成本。利用語(yǔ)音合成技術(shù)的信息服務(wù)得到了用戶的廣泛接納,給用戶生活提供了極大的方便。

3.面向?qū)ο蟮恼Z(yǔ)音編碼

  長(zhǎng)期以來(lái),在通信網(wǎng)的發(fā)展中,解決信息傳輸效率是一個(gè)關(guān)鍵問(wèn)題,極其重要。目前科研人員已通過(guò)兩個(gè)途徑研究這一課題,其一是研究新的調(diào)制方法與技術(shù),來(lái)提高信道傳輸信息的比特率,指標(biāo)是每赫茲帶寬所傳送的比特?cái)?shù);其二是壓縮信源編碼的比特率,例如標(biāo)準(zhǔn)PCM編碼,對(duì)3.4kHz頻帶信號(hào)需用64Kbps編碼比特率傳送,而壓縮這一比特率顯然可以提高信道傳送的話路數(shù)。這對(duì)任何頻率資源有限的傳輸環(huán)境來(lái)說(shuō),無(wú)疑是極為重要的,尤其是在無(wú)線通信技術(shù)決定今后通信發(fā)展命運(yùn)的今天更顯得重要。實(shí)際上,壓縮語(yǔ)音編碼比特率與話音存儲(chǔ)、語(yǔ)音識(shí)別及語(yǔ)音合成等技術(shù)都直接相關(guān)。

  語(yǔ)音編碼技術(shù)的進(jìn)展對(duì)通信新業(yè)務(wù)的發(fā)展有極為明顯的影響,例如IP電話業(yè)務(wù)、實(shí)時(shí)長(zhǎng)途翻譯業(yè)務(wù)、交換機(jī)的人工智能接口等。因此,國(guó)際電報(bào)電話咨詢委員會(huì)(CCITT)15組提出了許多急需制訂的話音編碼標(biāo)準(zhǔn)建議,以推動(dòng)通信網(wǎng)的發(fā)展。由于VLSI的發(fā)展,實(shí)現(xiàn)這一技術(shù)的代價(jià)已從在昂貴的信道中采用,發(fā)展到一般信道中都可接受的水平,因此,編碼技術(shù)日益受到重視。當(dāng)前,數(shù)字移動(dòng)通信和個(gè)人通信(PCN)是深受人們重視的通信手段,其重要問(wèn)題之一是壓縮語(yǔ)音編碼速率,形成面向?qū)ο蟮恼Z(yǔ)音編碼技術(shù)。

  數(shù)字語(yǔ)音編碼技術(shù)從1938年提出PCM開(kāi)始,其編碼方法已有了很大的發(fā)展,如1968年提出的線性預(yù)測(cè)編碼技術(shù)(LPC)、20世紀(jì)70年代末出現(xiàn)的隱馬科夫技術(shù)(HMM)以及矢量量化(VQ)等。

  當(dāng)前,語(yǔ)音編碼技術(shù)不僅受到研究部門(mén)、應(yīng)用部門(mén)的重視,而且推動(dòng)了標(biāo)準(zhǔn)的制訂,因?yàn)闃?biāo)準(zhǔn)是工業(yè)生產(chǎn)的一個(gè)重要前提,對(duì)通信體制的確定有很大影響。目前,關(guān)于低速率語(yǔ)音編碼的算法發(fā)展較快,它可應(yīng)用的范圍也相當(dāng)廣泛,人們將從中獲得極大的效益。這些對(duì)推動(dòng)各種通信標(biāo)準(zhǔn)及網(wǎng)絡(luò)的建設(shè)都十分重要。

4.口語(yǔ)機(jī)器翻譯受到重視

  口語(yǔ)翻譯的一個(gè)重要目的就是幫助聾啞人與正常人交流,近來(lái)越來(lái)越受到人們的重視。首先,聾啞人要戴上一副特制的手套,計(jì)算機(jī)根據(jù)他打出的手語(yǔ)進(jìn)行識(shí)別,然后,通過(guò)語(yǔ)音合成系統(tǒng)就可以把圖像信息翻譯成語(yǔ)言信息。同時(shí),系統(tǒng)還能夠完成將正常人的語(yǔ)言翻譯成聾啞人的手語(yǔ),只要將正常人說(shuō)的話鍵入計(jì)算機(jī),經(jīng)程序分析處理之后,翻譯成有表情、有動(dòng)作的三維圖像,從而最終達(dá)到聾啞人與正常人之間通過(guò)翻譯機(jī)進(jìn)行交流的目的?谡Z(yǔ)翻譯的研究在其他很多方面都有重要價(jià)值,如用手勢(shì)控制計(jì)算機(jī),甚至用手勢(shì)導(dǎo)航等。

語(yǔ)音合成的最新進(jìn)展

1.神經(jīng)網(wǎng)絡(luò)用于訓(xùn)練韻律模型

  由于人工神經(jīng)網(wǎng)絡(luò)具備良好的自學(xué)習(xí)和自適應(yīng)能力,將其應(yīng)用于語(yǔ)音合成系統(tǒng)中的韻律模型研究具有很重要的意義。將神經(jīng)網(wǎng)絡(luò)模型與已有的文語(yǔ)轉(zhuǎn)換系統(tǒng)有機(jī)結(jié)合,可以改變傳統(tǒng)的文語(yǔ)轉(zhuǎn)換系統(tǒng)的韻律模型,具有更強(qiáng)的適應(yīng)性和可訓(xùn)練性,使合成語(yǔ)音的自然度得到顯著提高,增加了系統(tǒng)的靈活性和風(fēng)格的多樣性。

2.?dāng)?shù)據(jù)挖掘用于發(fā)現(xiàn)語(yǔ)音知識(shí)

  數(shù)據(jù)挖掘作為一種在大量數(shù)據(jù)庫(kù)中發(fā)現(xiàn)隱藏新知識(shí)的計(jì)算技術(shù)方法,通過(guò)語(yǔ)音定性模型的建立,將數(shù)據(jù)分析和挖掘結(jié)果轉(zhuǎn)化為邏輯規(guī)則或用可視化的形式進(jìn)行表達(dá)。因此,將數(shù)據(jù)挖掘和人機(jī)交互接口緊密地聯(lián)系在一起,將對(duì)計(jì)算機(jī)語(yǔ)音信號(hào)處理的研究工作產(chǎn)生巨大的推動(dòng)力,為語(yǔ)音信號(hào)處理提供了一條嶄新的研究途徑。

3.文本-可視語(yǔ)音轉(zhuǎn)換系統(tǒng)研制成功

  文本-可視語(yǔ)音轉(zhuǎn)換技術(shù)的出現(xiàn)是多媒體技術(shù)迅速發(fā)展的產(chǎn)物,也迎合了社會(huì)發(fā)展的需求。它給人們的生活增添了新的色彩,使計(jì)算機(jī)更加人性化,人們與計(jì)算機(jī)的交流變得更為簡(jiǎn)單。相信在不久的將來(lái),它會(huì)在眾多的技術(shù)、商業(yè)和娛樂(lè)領(lǐng)域得到廣泛的應(yīng)用,并逐步進(jìn)入我們每個(gè)人的生活。

拓展語(yǔ)音計(jì)算

1.韻律研究與感知相結(jié)合

  韻律是語(yǔ)音信號(hào)的自身屬性,它反映了一個(gè)人說(shuō)話時(shí)的語(yǔ)調(diào)高低和時(shí)間長(zhǎng)短信息,同時(shí)反映了說(shuō)話人說(shuō)話時(shí)的語(yǔ)境信息。韻律模塊也是語(yǔ)音合成系統(tǒng)中的重要組成模塊,韻律參數(shù)研究的成功與否直接影響合成系統(tǒng)的輸出。感知信息主要體現(xiàn)說(shuō)話人對(duì)一句話中某些部分的強(qiáng)調(diào)和語(yǔ)句重音信息,語(yǔ)句重音也會(huì)對(duì)系統(tǒng)的合成輸出產(chǎn)生很大的影響,因此,要想得到較好的語(yǔ)音合成效果,需要對(duì)韻律和感知進(jìn)行深入的研究。

2.從語(yǔ)法、語(yǔ)義層面探索語(yǔ)音計(jì)算的理論和方法

  語(yǔ)音計(jì)算中包含對(duì)語(yǔ)言語(yǔ)法、語(yǔ)義的理解,語(yǔ)音合成系統(tǒng)的輸出不僅僅取決于語(yǔ)音數(shù)據(jù)音質(zhì)的好壞,同時(shí)在很大程度上受到所處理文本的語(yǔ)法及語(yǔ)義現(xiàn)象的制約,如果沒(méi)有正確的語(yǔ)法描述、合理地體現(xiàn)語(yǔ)義信息,就不可能產(chǎn)生很好的合成效果。而獲得這種相互關(guān)系只有通過(guò)對(duì)大量的語(yǔ)言現(xiàn)象進(jìn)行分析總結(jié),形成規(guī)則描述。為了更加客觀地進(jìn)行描述,可以借助于人工智能領(lǐng)域里的數(shù)據(jù)挖掘方法,因此,語(yǔ)音計(jì)算的關(guān)鍵技術(shù)是挖掘語(yǔ)法、語(yǔ)義和語(yǔ)音之間的相互關(guān)系,采用規(guī)則描述,將這種關(guān)系結(jié)合到實(shí)際合成語(yǔ)音系統(tǒng)中,提高語(yǔ)音合成輸出的自然度。

3.建設(shè)海量語(yǔ)音數(shù)據(jù)資源

  語(yǔ)音計(jì)算的成功與否在很大程度上取決于語(yǔ)音資源的積累。目前,在比較先進(jìn)的語(yǔ)音處理方法中,無(wú)一例外都提到了采用基于數(shù)據(jù)的驅(qū)動(dòng)方式,然而這種方式首先就需要大量的語(yǔ)料數(shù)據(jù),沒(méi)有大語(yǔ)料,數(shù)據(jù)的驅(qū)動(dòng)就無(wú)從談起。因此,為了盡可能地覆蓋各種語(yǔ)言現(xiàn)象,需要長(zhǎng)期積累各種語(yǔ)音資源,同時(shí)對(duì)于語(yǔ)音信號(hào)的處理也需要大量的語(yǔ)音處理軟件。這些都是日積月累的過(guò)程。

語(yǔ)音技術(shù)的研究方向

1.連續(xù)自然語(yǔ)音的識(shí)別與理解

  自然語(yǔ)音識(shí)別與理解研究的是計(jì)算機(jī)如何理解人類(lèi)的語(yǔ)言,其目的就是讓計(jì)算機(jī)能夠理解人說(shuō)的話,當(dāng)我們使用計(jì)算機(jī)時(shí),只要告訴它應(yīng)該做什么,它就能按照所理解的去執(zhí)行。雖然現(xiàn)在自然語(yǔ)音識(shí)別與理解的理論研究得到了進(jìn)一步完善,同時(shí),計(jì)算機(jī)的功能、容量和速度都有了很大的提高,但研究仍局限在對(duì)孤立音節(jié)的識(shí)別與理解上。人類(lèi)流暢的自然發(fā)音不是孤立音節(jié)發(fā)音的簡(jiǎn)單組合,它是在一定時(shí)間范圍內(nèi)輸出的一種連續(xù)語(yǔ)流,因此,需要對(duì)連續(xù)語(yǔ)音進(jìn)行處理。連續(xù)語(yǔ)音識(shí)別與理解技術(shù)中需要解決的難點(diǎn)很多,對(duì)它的研究是語(yǔ)音技術(shù)今后的目標(biāo)之一。

2.高自然度、具有表現(xiàn)力的合成語(yǔ)音

  提高合成語(yǔ)音的自然度仍然是高性能文語(yǔ)轉(zhuǎn)換的當(dāng)務(wù)之急。就漢語(yǔ)語(yǔ)音合成來(lái)說(shuō),目前在單字和詞組級(jí)上,合成語(yǔ)音的可懂度和自然度已基本解決,但是對(duì)于句子乃至篇章級(jí),其自然度問(wèn)題就比較大。未來(lái)的文語(yǔ)轉(zhuǎn)換系統(tǒng)的發(fā)展趨勢(shì)是采用基于語(yǔ)境相關(guān)的合成思想進(jìn)行設(shè)計(jì),能夠?qū)l(fā)音人的原始發(fā)音特征最大限度地保留下來(lái),輔助以先進(jìn)的層次化語(yǔ)言韻律模型,通過(guò)分散統(tǒng)計(jì)的模型方法來(lái)涵蓋語(yǔ)義語(yǔ)音之間的內(nèi)在聯(lián)系,使系統(tǒng)能夠輸出具有高自然度和表現(xiàn)力的合成語(yǔ)音。但是,在目前的合成系統(tǒng)中,普遍存在合成輸出語(yǔ)音的機(jī)器味比較濃、語(yǔ)境的知識(shí)層次模型研究不完善等問(wèn)題。因此,獲得高自然度、具有表現(xiàn)力的合成語(yǔ)音也是今后語(yǔ)音技術(shù)的研究目標(biāo)之一。

3.語(yǔ)音技術(shù)與多媒體技術(shù)的結(jié)合

  伴隨著現(xiàn)代語(yǔ)音技術(shù)的不斷發(fā)展,人類(lèi)對(duì)語(yǔ)音信號(hào)的需要已經(jīng)不僅僅停留在可懂性和正確性上,語(yǔ)音合成技術(shù)的研究方向已是合成語(yǔ)音的美感并同時(shí)輸出輔助的視頻特征,實(shí)現(xiàn)虛擬主持人的效果,通過(guò)將視覺(jué)效果包括人的頭部建模、唇形同步技術(shù)和表情因素等視頻信息的加入,可以更好地體現(xiàn)語(yǔ)音合成系統(tǒng)的表現(xiàn)力和感染力。因此,我們完全有理由相信,語(yǔ)音技術(shù)和多媒體技術(shù)的有機(jī)結(jié)合將使合成系統(tǒng)展現(xiàn)出廣闊的應(yīng)用前景。

4.語(yǔ)音技術(shù)與網(wǎng)絡(luò)技術(shù)的結(jié)合

  目前,語(yǔ)音技術(shù)已逐漸應(yīng)用于電信的聲訊信息服務(wù)領(lǐng)域和互聯(lián)網(wǎng)消息收發(fā)方面。隨著電話網(wǎng)與互聯(lián)網(wǎng)的融合、網(wǎng)絡(luò)信息項(xiàng)目的增多和時(shí)效性要求逐步提高,建立適合于股票交易、航班動(dòng)態(tài)查詢、電話自動(dòng)報(bào)稅等業(yè)務(wù)的語(yǔ)音系統(tǒng)成為可能,電話用戶可以通過(guò)傳統(tǒng)的語(yǔ)音、傳真獲取互聯(lián)網(wǎng)上無(wú)窮無(wú)盡的信息。這些業(yè)務(wù)將徹底解決傳統(tǒng)數(shù)字錄音回放技術(shù)所無(wú)法解決的海量信息庫(kù)和動(dòng)態(tài)變化信息的實(shí)時(shí)生成與存儲(chǔ)的難題,因此,將語(yǔ)音技術(shù)與網(wǎng)絡(luò)進(jìn)行完美的結(jié)合具有強(qiáng)大的生命力。

5.多語(yǔ)種

  語(yǔ)言是人們交流的工具,不同民族有自己不同的語(yǔ)言,不同語(yǔ)言之間的交流在今天開(kāi)放的信息社會(huì)和網(wǎng)絡(luò)時(shí)代顯得十分重要,因此,多語(yǔ)種的文語(yǔ)合成有著獨(dú)特的應(yīng)用價(jià)值。例如在自動(dòng)電話翻譯、有聲電子郵件等應(yīng)用中都提出了多語(yǔ)種語(yǔ)音合成的需求,即使是對(duì)漢語(yǔ)合成也有多方言文語(yǔ)轉(zhuǎn)換問(wèn)題。理想的多語(yǔ)種合成系統(tǒng)最好是各種語(yǔ)言共用一種合成算法或語(yǔ)音合成器,但現(xiàn)有的語(yǔ)音合成系統(tǒng)大多是針對(duì)某一種語(yǔ)言或若干種語(yǔ)言開(kāi)發(fā)出來(lái)的,所采用的算法及規(guī)則都是與某種語(yǔ)言密切相關(guān)的,因此很難推廣到其他語(yǔ)種。如漢語(yǔ)和西方語(yǔ)言之間存在著很大的差異,而目前國(guó)內(nèi)的系統(tǒng)都是做漢語(yǔ)文語(yǔ)轉(zhuǎn)換的,其韻律控制規(guī)則完全不適合于英語(yǔ),而且它們主要是合成漢語(yǔ)普通話的,即使推廣到廣東話和上海話都有相當(dāng)?shù)碾y度?梢(jiàn)要真正解決多語(yǔ)種的文語(yǔ)合成,從文本處理到語(yǔ)音合成都必須有新的思路,因此,研制多語(yǔ)種語(yǔ)音合成轉(zhuǎn)換系統(tǒng)具有重要的理論和現(xiàn)實(shí)意義。

《計(jì)算機(jī)世界》 2001/06/01



相關(guān)鏈接:
神經(jīng)網(wǎng)絡(luò)與漢語(yǔ)TTS韻律模型 2001-06-01
語(yǔ)音門(mén)戶:讓網(wǎng)絡(luò)接入更便捷 2001-05-11
VoiceXML簡(jiǎn)介 2001-04-19
語(yǔ)音網(wǎng)站不是信息臺(tái) 2001-02-16
網(wǎng)絡(luò)與電話技術(shù)的完美結(jié)合 -- VoiceXml 2001-02-07