刘亦菲下海视频,鞠婧祎接吻视频,美女视频免费看应用

首頁(yè)>>>技術(shù)>>>語(yǔ)音應(yīng)用>>>語(yǔ)音合成(TTS)　　語(yǔ)音合成產(chǎn)品

神經(jīng)網(wǎng)絡(luò)與漢語(yǔ)TTS韻律模型

陶建華蔡蓮紅 2001/06/01

韻律模型

　　每個(gè)人說(shuō)話的語(yǔ)音中都有一個(gè)基本頻率，被稱做基頻，它體現(xiàn)了說(shuō)話人聲音的高低。在漢語(yǔ)文語(yǔ)轉(zhuǎn)換系統(tǒng)（TTS）中，對(duì)基頻、語(yǔ)音單元的長(zhǎng)度、說(shuō)話停頓、能量等韻律信息進(jìn)行預(yù)測(cè)的模塊一般稱做韻律模塊。

　　眾所周知，漢語(yǔ)是一個(gè)有調(diào)的語(yǔ)言，這是它與其他西方語(yǔ)系最大的不同之處。漢語(yǔ)的每一個(gè)字（兒化音除外），通常都被認(rèn)為是一個(gè)有調(diào)的音節(jié)。每一個(gè)聲調(diào)都有一些固定的調(diào)型（基頻形狀），但我們通常所說(shuō)的話往往是由多個(gè)字組成的連續(xù)語(yǔ)句，這些聲調(diào)的調(diào)型受相鄰其他字或詞的影響，常常會(huì)產(chǎn)生變換，甚至失去原有的調(diào)型，這就是漢語(yǔ)中常說(shuō)的協(xié)同發(fā)音現(xiàn)象。這也就是為什么人說(shuō)話時(shí)會(huì)有連續(xù)感，而不是一個(gè)字一個(gè)字地發(fā)音。同時(shí)，連續(xù)語(yǔ)句發(fā)音的中間還會(huì)有短暫的停頓，這些又體現(xiàn)了人說(shuō)話的節(jié)奏感。漢語(yǔ)TTS韻律模型的主要任務(wù)就是根據(jù)文字中的信息，通過(guò)對(duì)基頻、音長(zhǎng)、停頓等參數(shù)的預(yù)測(cè)，達(dá)到控制TTS系統(tǒng)發(fā)音方式的目的，使發(fā)音自然、好聽(tīng)。

采用神經(jīng)網(wǎng)絡(luò)模型的背景

　　隨著語(yǔ)音學(xué)和計(jì)算機(jī)技術(shù)的發(fā)展，TTS系統(tǒng)的研究目前已獲得了重大進(jìn)展，并成功地應(yīng)用在許多不同的場(chǎng)合。但是，以往語(yǔ)音合成的結(jié)果與人自然流暢的發(fā)音仍相去甚遠(yuǎn)，其中的關(guān)鍵就在于語(yǔ)音韻律模型還不很完善。另外，人有思想、會(huì)思考，語(yǔ)音合成系統(tǒng)不僅應(yīng)該發(fā)音清晰、自然，還應(yīng)該能像人一樣具有自我學(xué)習(xí)的功能，具有個(gè)人特色，甚至具有模擬特定人發(fā)音的能力。

　　近幾年來(lái)，隨著計(jì)算機(jī)處理的進(jìn)一步深入，從大量語(yǔ)料中提取連續(xù)語(yǔ)句的韻律特征已逐漸成為可能。鑒于神經(jīng)網(wǎng)絡(luò)具有良好的自動(dòng)學(xué)習(xí)和參數(shù)映射的特點(diǎn)，可以使系統(tǒng)具有不斷自我學(xué)習(xí)和輸出優(yōu)化功能，因此，將神經(jīng)網(wǎng)絡(luò)用于語(yǔ)音合成系統(tǒng)的研究越來(lái)越受到重視。研究結(jié)果表明，對(duì)比傳統(tǒng)的規(guī)則語(yǔ)音合成方法，運(yùn)用神經(jīng)網(wǎng)絡(luò)技術(shù)合成的語(yǔ)音的自然度均得到了相當(dāng)程度的提高。

　　清華大學(xué)計(jì)算機(jī)系在國(guó)內(nèi)最早進(jìn)行了神經(jīng)網(wǎng)絡(luò)用于漢語(yǔ)TTS系統(tǒng)的研究，目前已經(jīng)取得了非常成功的結(jié)果。所提出的帶特殊加權(quán)因子的神經(jīng)網(wǎng)絡(luò)韻律模型，無(wú)論在提高TTS系統(tǒng)自然度方面，還是在執(zhí)行效率上，相比較其他已有的模型，均獲得了較大的提高。

　　清華大學(xué)計(jì)算機(jī)系對(duì)人機(jī)語(yǔ)音交互的研究始于1979年，并長(zhǎng)期致力于語(yǔ)音合成的聲學(xué)模型、韻律模型、文本分析、韻律描述語(yǔ)言、語(yǔ)音數(shù)字編碼、多媒體等相關(guān)技術(shù)的研究和開(kāi)發(fā)。下面介紹由清華大學(xué)計(jì)算機(jī)系人機(jī)交互與媒體集成研究所提出的漢語(yǔ)TTS系統(tǒng)神經(jīng)網(wǎng)絡(luò)韻律模型。

神經(jīng)網(wǎng)絡(luò)韻律模型的輸入和輸出

　　構(gòu)筑神經(jīng)網(wǎng)絡(luò)韻律模型必須首先解決模型的輸入和輸出問(wèn)題。對(duì)TTS系統(tǒng)來(lái)說(shuō)，系統(tǒng)的輸入就是從計(jì)算機(jī)屏幕或文件中得到的文字，輸出則是連續(xù)語(yǔ)音。因此，神經(jīng)網(wǎng)絡(luò)韻律模型的輸入必須是與文字相關(guān)的信息，通常稱其為語(yǔ)境信息，而輸出則是與語(yǔ)音相關(guān)的韻律信息。

　　正如前面所述，當(dāng)漢語(yǔ)中多個(gè)字組成詞或詞組而連續(xù)發(fā)音時(shí)，它們之間會(huì)相互影響，形成較獨(dú)立、完整的韻律塊，這些韻律塊的韻律特征對(duì)語(yǔ)音的自然度起著非常重要的作用，而不同的韻律塊組合在一起，往往可以形成不同的語(yǔ)調(diào)，使人的發(fā)音具有不同的語(yǔ)氣。根據(jù)這樣的思路，可以將漢語(yǔ)的文字信息沿著語(yǔ)句（sentence）→短語(yǔ)（phrase）→音節(jié)（syllable）的思路劃分，共分為五組：音節(jié)（字）信息、相鄰音節(jié)（字）信息、短語(yǔ)信息、語(yǔ)句信息及重音信息。有17個(gè)參數(shù)能對(duì)漢語(yǔ)韻律產(chǎn)生重要的影響，這些參數(shù)就是神經(jīng)網(wǎng)絡(luò)韻律模型的輸入。當(dāng)然，這些參數(shù)都能夠從文字中得到，但必須輔以另外的文本分析模塊。

神經(jīng)網(wǎng)絡(luò)的輸出就是漢語(yǔ)韻律控制參數(shù)。在基頻方面，使用SPiS模型，如圖1所示。

圖1 漢語(yǔ)音節(jié)基頻規(guī)格化模型－－SPiS

神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)

　　神經(jīng)網(wǎng)絡(luò)的拓?fù)浣Y(jié)構(gòu)如圖2所示，基本可以分為三層，即輸入層（語(yǔ)境標(biāo)注矢量層）、輸出層（韻律控制矢量層）和中間隱層。

圖2 韻律神經(jīng)網(wǎng)絡(luò)模擬

　　語(yǔ)音學(xué)的研究表明，漢語(yǔ)較其他語(yǔ)言更強(qiáng)調(diào)文字發(fā)音的輕重和語(yǔ)氣的走勢(shì)。前面所述的模型輸入?yún)?shù)（語(yǔ)境參數(shù)）被分為兩組，同時(shí)在其中一組上加入一個(gè)特殊的加權(quán)隱層，以突出改組的權(quán)重，該隱層的神經(jīng)元函數(shù)為:y=x2。

　　測(cè)試結(jié)果證明，加權(quán)隱層的引入使網(wǎng)絡(luò)結(jié)構(gòu)進(jìn)一步體現(xiàn)了漢語(yǔ)獨(dú)特的韻律特點(diǎn)，使網(wǎng)絡(luò)的收斂速度在原有的基礎(chǔ)上提高了約18%，從而較大地改善了網(wǎng)絡(luò)的收斂性。同時(shí)，在模型的建立中，還利用概率分布的原理，采用輸出離散化并取其質(zhì)心的方法，對(duì)神經(jīng)網(wǎng)絡(luò)的輸出進(jìn)行優(yōu)化，使網(wǎng)絡(luò)的輸出精度進(jìn)一步提高了約7%，從而增強(qiáng)了網(wǎng)絡(luò)輸出值的穩(wěn)定性，最大限度地減少了因輸入和輸出參數(shù)的隨機(jī)特性而導(dǎo)致的輸出誤差。

結(jié)果分析

1．可訓(xùn)練漢語(yǔ)TTS系統(tǒng)

圖3 可訓(xùn)練漢語(yǔ)TTS系統(tǒng)結(jié)構(gòu)

圖3給出了完整的可訓(xùn)練漢語(yǔ)TTS系統(tǒng)結(jié)構(gòu)。

　　系統(tǒng)的構(gòu)成分為用戶編程接口和TTS內(nèi)核兩大部分。其中，內(nèi)核部分又可按照系統(tǒng)運(yùn)作的不同過(guò)程分為多個(gè)子模塊，包含了訓(xùn)練模塊、文本分析模塊、神經(jīng)網(wǎng)絡(luò)韻律生成模塊、語(yǔ)音合成模塊以及與語(yǔ)料庫(kù)之間的通信協(xié)議等。同時(shí)，系統(tǒng)還考慮了不同類型用戶對(duì)TTS系統(tǒng)功能的需要，提供了豐富的編程接口。

　　系統(tǒng)使用了2270個(gè)句子分別對(duì)模型進(jìn)行了訓(xùn)練和測(cè)試。語(yǔ)句內(nèi)容涵蓋了漢語(yǔ)中常見(jiàn)的句型、漢語(yǔ)中所有的讀音、文字上下文的特性、聲調(diào)、重音等信息。語(yǔ)音的采樣頻率為16kHz。其中，75%的語(yǔ)料用來(lái)進(jìn)行訓(xùn)練，而25%的語(yǔ)料則用來(lái)測(cè)試。

2．基頻控制參數(shù)(SPiS參數(shù))的測(cè)試結(jié)果

圖4 陳述句基頻曲線的測(cè)試結(jié)果

　　韻律模型的基頻輸出基本反應(yīng)了漢語(yǔ)語(yǔ)句的韻律特征。由圖4可以看出，其基頻參數(shù)的測(cè)試結(jié)果與真實(shí)的基頻參數(shù)比較接近，基頻變化過(guò)程基本保持了陳述語(yǔ)氣的下傾趨勢(shì)，同時(shí)它還反映出了發(fā)音過(guò)程的韻律塊特性。如圖中陳述句“他總標(biāo)榜自己是一個(gè)老手”，受發(fā)音停頓的影響，“是”作為一個(gè)韻律短語(yǔ)的開(kāi)頭，其基頻和音域變得相對(duì)較高。另外，神經(jīng)網(wǎng)絡(luò)韻律模型還能很好地反映上聲變調(diào)的現(xiàn)象。如“老手”中的“老”字，受后音的影響，由上聲變?yōu)榱岁?yáng)平。

3．連續(xù)語(yǔ)句中音長(zhǎng)參數(shù)的測(cè)試結(jié)果

圖5 陳述句音節(jié)音長(zhǎng)參數(shù)的測(cè)試結(jié)果

　　神經(jīng)網(wǎng)絡(luò)韻律模型同樣輸出了較好的音節(jié)音長(zhǎng)參數(shù)，圖5很好地反映出了語(yǔ)句音長(zhǎng)的變換趨勢(shì)。由于在自然語(yǔ)句中，音節(jié)音長(zhǎng)參數(shù)對(duì)控制音節(jié)發(fā)音的節(jié)奏和輕重起著非常重要的作用。我們對(duì)所有測(cè)試結(jié)果進(jìn)行的統(tǒng)計(jì)表明，81%的音節(jié)輸出誤差在0～50ms，約14%的音節(jié)輸出誤差在50～120ms，而只有約5%的音節(jié)輸出誤差會(huì)超過(guò)120ms。從音長(zhǎng)改變的百分比上看：89.8%的音節(jié)，其音長(zhǎng)輸出誤差占目標(biāo)音長(zhǎng)的百分比在0～20%之間；另外，9%的音節(jié)輸出誤差百分比在20%～50%之間，而只有1.2%的音節(jié)輸出誤差百分比會(huì)超過(guò)50%。因此，該模型的音長(zhǎng)參數(shù)輸出結(jié)果基本上滿足了較高質(zhì)量韻律控制參數(shù)的要求。

　　將神經(jīng)網(wǎng)絡(luò)模型與已有的TTS系統(tǒng)相結(jié)合，改變了傳統(tǒng)的TTS系統(tǒng)的構(gòu)筑方式。新系統(tǒng)合成語(yǔ)音的自然度得到了提高，同時(shí)也使語(yǔ)音合成系統(tǒng)中的韻律模型具有更強(qiáng)的適應(yīng)性和可訓(xùn)練性。新系統(tǒng)經(jīng)過(guò)學(xué)習(xí)和訓(xùn)練，合成的語(yǔ)音能體現(xiàn)不同的韻律特征，增加了系統(tǒng)的靈活性和風(fēng)格的多樣性。大量測(cè)試表明，漢語(yǔ)神經(jīng)網(wǎng)絡(luò)韻律模型及其輸出參數(shù)的優(yōu)化方法，能適于漢語(yǔ)韻律特征的處理。目前，這一模型已集成在清華大學(xué)計(jì)算機(jī)系研制的語(yǔ)音合成系統(tǒng)中，輸出了較為滿意的合成語(yǔ)音，其輸出的語(yǔ)音自然度在相當(dāng)程度上幾乎可以和自然語(yǔ)音相比，整體水平上達(dá)到了國(guó)際先進(jìn)水平并獲得專家和用戶的一致好評(píng)。

《計(jì)算機(jī)世界》 2001/06/01

相關(guān)鏈接:

語(yǔ)音技術(shù)的拓展與展望 2001-06-01

語(yǔ)音門戶:讓網(wǎng)絡(luò)接入更便捷 2001-05-11

VoiceXML簡(jiǎn)介 2001-04-19

語(yǔ)音網(wǎng)站不是信息臺(tái) 2001-02-16

網(wǎng)絡(luò)與電話技術(shù)的完美結(jié)合 -- VoiceXml 2001-02-07