自然流暢的文語轉(zhuǎn)換系統(tǒng)——木蘭
2004/06/11
語音門戶、呼叫中心、聲訊服務等基于語音合成技術(shù)的文語轉(zhuǎn)換應用已經(jīng)越來越多地進入我們的工作和生活中!澳咎m”是由位于北京的微軟亞洲研究院研發(fā)并具有頂級性能的文語轉(zhuǎn)換系統(tǒng),木蘭有哪些重要特點?木蘭文語轉(zhuǎn)換的真實應用效果如何?
語音技術(shù)的飛速發(fā)展使語音技術(shù)的應用日趨普及,特別是語音合成和語音識別兩種技術(shù)的結(jié)合,已經(jīng)使越來越多的嶄新應用與服務成為現(xiàn)實。
例如,在2002年韓日世界杯期間,中國電信在全國296個168信息臺同步采用語音技術(shù),將中央電視臺不斷發(fā)出的比賽花絮和最新賽況的文字信息播報給通過電話查詢的廣大球迷。
語音合成技術(shù)已經(jīng)被應用在奇瑞QQ轎車的“i-Say數(shù)碼聽”系統(tǒng)上,通過“i-Say數(shù)碼聽”系統(tǒng),用戶可以將下載到系統(tǒng)電腦中的文本文件、電子郵件、網(wǎng)絡(luò)新聞或小說等轉(zhuǎn)換成語音在車內(nèi)收聽。還可以通過特定的服務網(wǎng)站訂閱新聞、天氣預報、英語學習等信息至車上收聽,享受個性化的網(wǎng)絡(luò)信息服務。
“木蘭”文語轉(zhuǎn)換系統(tǒng)是由位于北京的微軟亞洲研究院(MSRA)研發(fā)的,基于領(lǐng)先的語音合成技術(shù)的頂級文語轉(zhuǎn)換系統(tǒng)。通過對“木蘭”介紹和分析,我們將對語音合成技術(shù)及其應用有更進一步的了解,并展望機器人向人類“進化”的動人前景。
“木蘭”文語轉(zhuǎn)換系統(tǒng)
“木蘭”文語轉(zhuǎn)換系統(tǒng)是由MSRA研發(fā)的中英文雙語文語轉(zhuǎn)換系統(tǒng),其性能在中英文文語轉(zhuǎn)換系統(tǒng)中處于頂級水準!澳咎m”文語轉(zhuǎn)換系統(tǒng)有兩個重要的特征:1. 它是第一個真正的雙語系統(tǒng),可以非常自然地處理包含有英文詞句的中文語句。2. 它應用了諸如“韻律生成的最小錯誤準則”等先進技術(shù),能夠最大程度地保證所生成語音的自然度。
在我們用到的各種中文文字材料中(如技術(shù)文獻或電子郵件),常常包含有英文單詞和短語,甚至包含一些英文句子。而普通的漢語文語轉(zhuǎn)換系統(tǒng)通常不能很自然和正確地讀出夾雜在中文文稿中的英文文字,這成為了漢語文語轉(zhuǎn)換系統(tǒng)應用的一個重要障礙。為了解決這個問題,通常的做法是采用在兩個不同文語轉(zhuǎn)換系統(tǒng)之間不斷切換的方式。這種切換方式的最大缺點是最后生成的語音會喪失整體的語調(diào),由于一個句子被切分成若干段并由兩個系統(tǒng)分別合成,人們聽起來會很不舒服,甚至聽不懂。MSRA的“木蘭”系統(tǒng)是第一個真正的雙語系統(tǒng)。在“木蘭”文語轉(zhuǎn)換系統(tǒng)中,由于兩種語言之間的切換完全在系統(tǒng)內(nèi)進行,因此生成的雙語語音具有非常自然的整句語調(diào)。
“木蘭”區(qū)別于傳統(tǒng)語音合成系統(tǒng)的另一個重要特征是:它充分兼顧了自然言語韻律特性中的全局穩(wěn)定性和局部可變性。也就是說,在不違反韻律特征的全局約束的前提下,“木蘭”盡可能地保留了自然言語韻律中所固有的自由度。因此木蘭系統(tǒng)合成出來的語音克服了在其他系統(tǒng)中常會出現(xiàn)的音質(zhì)下降問題,如由于韻律預測模型的局限性導致的單一語調(diào)問題或由音高、音長調(diào)節(jié)算法引入的機器味和嗡嗡聲。木蘭系統(tǒng)最大程度上保持了原始音庫中發(fā)音人的韻律特點,所以生成的語音聽起來相當自然。
合成語音的質(zhì)量
合成語音的質(zhì)量,我們通?梢詮目啥群妥匀欢葍煞矫孢M行評價。代表當前先進水平的文語轉(zhuǎn)換系統(tǒng)都已經(jīng)能夠合成出可懂度相當高的語音。但是這些系統(tǒng)生成的語音的自然度與人類實際的語音之間還有明顯的差距。在對幾個代表目前最高水平的漢語TTS 系統(tǒng)進行的主觀評價中,播音員語音的測試得分是4.5,而合成語音的最高分只有3.2。雖然合成語音的質(zhì)量已達到了基本可以接受的水平,但其自然度與人的語音還有相當明顯的差距。雖然目前最先進的語音合成技術(shù)在以傳播信息為主要目的的場合,如語音門戶、呼叫中心、聲訊服務等應用中已經(jīng)越來越被廣大用戶接受,但如果將它們用于更強調(diào)語言內(nèi)涵的場合,如講故事、讀小說、講笑話等,往往會不盡人意。增強合成語音的表現(xiàn)力是語音合成技術(shù)的未來發(fā)展方向。
韻律組織
韻律組織在言語交流中起著非常重要的作用,它不僅是清楚表達語義的關(guān)鍵,還能直接反映講話人的態(tài)度、意向、情緒以及對聽話人的期望等信息。人在講話時,總是先將這些意識層的信息轉(zhuǎn)化成音系層的表達手段,如選擇怎樣的聲調(diào)、語調(diào)、輕重模式、節(jié)律模式等,最后再通過控制發(fā)音器官來實現(xiàn)相應的聲學目標。通常認為與韻律有關(guān)的聲學參數(shù)包括音高、音長、音強和停延等。在語音合成的研究歷程中,建立韻律預測模型一直都是一個研究重點。
語音合成
語音合成和語音識別技術(shù)是實現(xiàn)人機語音交流,建立一個具有能聽會說功能的應用系統(tǒng)所必需的兩項關(guān)鍵技術(shù)。使電腦具有類似于人一樣的說話能力,無疑將使其更具人性化特征,為相關(guān)應用帶來更廣闊的發(fā)展空間。與語音識別相比,語音合成技術(shù)相對說來要成熟一些,并已開始向產(chǎn)業(yè)化方向邁進。
語音合成,又稱文語轉(zhuǎn)換(Text to Speech,TTS)技術(shù),它是一門涉及到聲學、語言學、統(tǒng)計分析、人工智能、數(shù)字信號處理等多個學科的技術(shù)。語音合成技術(shù)要解決的主要問題就是如何將文字信息轉(zhuǎn)化為可聽的聲音信息,也就是說讓電腦可以像人一樣開口說話。這里所說的“像人一樣開口說話”與傳統(tǒng)的聲音回放有著本質(zhì)的區(qū)別。諸如錄音機等這些傳統(tǒng)的聲音回放設(shè)備是通過預先錄制聲音,然后回放來讓設(shè)備“說話”的。而計算機語音合成技術(shù)則可以實現(xiàn)在任何時候?qū)⑷我馕谋巨D(zhuǎn)換成具有高自然度的語音的目的,真正讓電腦“像人一樣開口說話”。
由木蘭合成的中文、英文和中英文雙語的例子
SOHO是Small Office Home Office的縮寫,亦即“小型的、家庭的辦公室”的含義。
木蘭TTS:http://research.microsoft.com/users/minchu/singlevoice/smp5.wav
其他TTS:http://research.microsoft.com/users/minchu/twovoice/smp5.wav
它與InternetInformationServer、MicrosoftExchange、SNAServer結(jié)合可形成一個數(shù)據(jù)集市的工作平臺。
木蘭TTS:http://research.microsoft.com/users/minchu/singlevoice/smp7.wav
其他TTS:http://research.microsoft.com/users/minchu/twovoice/smp7.wav
比如“很久沒見了”這句話,英文正確的說法應該是“I haven't seen you for a long time.”,一些人湊湊合合地說成“Long time no see.”——不合語法,但意思明白了。
木蘭TTS:http://research.microsoft.com/users/minchu/singlevoice/smp15.wav
More recently, we have expanded our efforts in both speech synthesis and speech recognition to other languages.
木蘭TTS:http://research.microsoft.com/users/minchu/english/smp3.wav
清晨,從陽臺上一抹朝陽斜射進來。設(shè)計方案將使每套住戶都有朝陽的房間。
木蘭TTS:http://research.microsoft.com/users/minchu/mandarin/smp1.wav
詞典詞與韻律詞
目前的多數(shù)漢語語音合成系統(tǒng)都是以詞典詞為單位合成。但是在口語中經(jīng)常是以韻律詞為韻律單位。韻律詞在漢語普通話的合成中是最重要韻律單位。韻律詞被定義為一組在實際語流中聯(lián)系緊密的、經(jīng)常聯(lián)在一起發(fā)音的音節(jié)。
一個韻律詞可以包含幾個詞典詞,一個詞典詞也可以包含幾個韻律詞。
例如:我/買/了/一/本/好/書。
如果按照語法每個字都是一個詞典詞,然而在自然口語中可以分為:
我/買了/一本/好書。
這里看出,詞典詞與韻律詞有極大的差異,其中“買了”“一本”“好書”,都是韻律詞。而我們平常說話是正是根據(jù)這種韻律詞來分詞斷句的。只有按照韻律詞來合成語句,才符合人們的習慣。
“木蘭”的特征技術(shù)
下面,讓我們來看看MSRA的研究人員是如何對自然言語韻律組織中的不確定性進行研究的。我們還將進一步了解為何MSAR的“韻律生成的最小錯誤準則”技術(shù)的應用,能夠最大程度地保證所生成語音的自然度。
研究方法
MSRA用于研究材料屬于微軟亞洲研究院語音合成語料庫的一個部分,這個部分包括1000個漢語單句的兩遍錄音。這些句子主要選自人民日報,部分選自小說、散文和天氣預報,長度在10~30字之間,三分之一是單句,其余是復句。兩遍錄音是由同一個專業(yè)發(fā)音人在相隔半年時間內(nèi)重復錄制的。由于發(fā)音人沒有特意通過改變某些韻律參數(shù)來表達特殊的語義,可以認為兩遍錄音的發(fā)音規(guī)劃是基本相同的,所表達的語義也是相同的。因此,可以進一步斷定,兩遍錄音中的韻律參數(shù)和韻律結(jié)構(gòu)如果存在差異,這種差異不是語義表達的需要而導致的,這種差異可以理解為韻律組織中的不確定性。
研究人員將對兩遍錄音中的節(jié)律組織和相應語音單元的音高和音長進行比較,從而探討在相同的發(fā)音規(guī)劃和語義表達前提下,發(fā)音人在節(jié)律層級的組織和韻律參數(shù)的控制上有多大的自由度。為了敘述方便,在下文中將這1000個句子的兩遍錄音分別稱為HF1 和HF2, 而同一個句子中的同一個字的兩遍讀音稱為兩遍錄音中的相應語音單元。
同一句子,進行兩遍錄音(在圖中,一次用藍色表示,另一次用橙色表示)。研究發(fā)現(xiàn),盡管兩遍錄音的內(nèi)容和所表達的意思完全相同,但在連續(xù)語流中各音段的長度和音高都有相當大的變化范圍。
時長組織的不確定性
MSRA的研究人員發(fā)現(xiàn):兩遍錄音的整體時間長度分布是相當一致的。但是,如果比較兩遍錄音中的相應語音單元的時長,就會看到明顯的差異。這些差異說明,雖然受到特定的上下文和語義表達的約束,音段長度的取值仍有相當大的變化范圍,其可變范圍可以大到所有音段的整體變化范圍的50%左右。
由此可以看出,在言語組織中,各音段長度的選擇不存在惟一的最優(yōu)解。事實上,在不改變所要傳達的各種意識層面的信息的前提下,連續(xù)語流中各音段的長度可在相當大的范圍內(nèi)變化,即語音單元的音段長度有相當大的不確定性。
音高組織的不確定性
MSRA的研究人員發(fā)現(xiàn):兩遍錄音的整體音高分布是相當一致的。但是,如果比較兩遍錄音中相應單元的音高,也會看到明顯的差異。也就是說,雖然受到特定的上下文和語義表達的約束,音段音高的取值也有相當大的變化范圍,其可變范圍可以大到所有音段的整體變化范圍的45%左右。
由此可以看出,言語組織中,在不改變所要傳達的各種意識層面的信息的前提下,連續(xù)語流中各音段的音高也可在相當大的范圍內(nèi)變化,即,音高組織也存在不確定性。
韻律組塊中的不確定性
韻律組織的一個重要表現(xiàn)是組塊。同一句子可以由不同的韻律組塊構(gòu)成,例如,對于“從經(jīng)濟和環(huán)保的角度看”這句話,在HF1 中被處理成了四個韻律詞的“從經(jīng)濟 | 和環(huán)保的 | 角度 | 看”,在HF2中,則被處理成“從 | 經(jīng)濟 | 和 | 環(huán)保的 | 角度 | 看”, 包含六個韻律詞。
從研究的結(jié)果可以看出:實際朗讀或講話時具體使用那種組織方式,可能受個人講話習慣、語速等因素的影響,也有相當大的隨意性。
從上述音高、音長的分配以及節(jié)律單元三組對比分析可以看出,在自然言語的韻律組織中,音高、音長和韻律組塊等都存在相當大的不確定性。由此可以得到結(jié)論,韻律參數(shù)的取值存在一定的不確定性是自然言語的一個重要特征。事實上,正像我們寫作時經(jīng)常特意選用不同的詞匯來表達同一個意思以避免文字上的重復,我們在講話時也會特意調(diào)節(jié)一下韻律參數(shù)以避免韻律的重復(調(diào)節(jié)的前提是不改變所要傳達的信息)。如果反復重復同樣的韻律結(jié)構(gòu)就會使講出來的話單調(diào)、缺乏表現(xiàn)力,使聽者很快疲憊、跑神。
通過“木蘭”在線演示系統(tǒng):“http://research.microsoft.com/speech/tts”(中文)與“http://research.microsoft.com/speech/engtts”(英文),人們可以親身體驗MSRA的研究成果。
傳統(tǒng)韻律模型的局限
傳統(tǒng)的韻律預測模型都是建立在一個確定性假設(shè)上,即,對于任意給定的一個文字串,存在一個惟一且最優(yōu)的韻律實現(xiàn)方案。許多學者嘗試著用各種機器學習的方法,通過一個給的定文本預測合成語音中應當使用的韻律,或者從給定的一系列韻律中預測最終的韻律參數(shù)。在對音高、音長的預測中最常用的優(yōu)化準則是使每個預測值與它相應的參考值最接近;谶@樣的準則,預測模型的輸出將是自然言語中可能出現(xiàn)的各種韻律變化在某種條件下的最常用值。如果自然言語的韻律參數(shù)的可變范圍不太大,這樣的處理是適當?shù)摹?
但事實上,即便是同一個發(fā)音人在同樣的語義和情感規(guī)劃下重復發(fā)音,他采用的韻律參數(shù)仍然存在相當大的變化,即言語的韻律組織中存在著不確定性。傳統(tǒng)韻律模型的弱點在于過度強調(diào)韻律的確定性或可預測性,而忽視了韻律組織中存在的不確定性,即在表達同樣的語義和情感的前提下,韻律參數(shù)的取值并不惟一,而是存在一個可選擇的范圍。要合成接近真人講話的語音必須同時抓住韻律組織的確定性和不確定性。
韻律生成的最小錯誤準則
要想合成與真人發(fā)音逼近的語音,必須在生成語音的韻律模式中適當引入不確定性。因此,MSAR提出通過改變韻律預測的優(yōu)化準則,在韻律建模中引入適當?shù)牟淮_定性。其關(guān)鍵在于:將韻律預測的準則從“使生成的韻律模式的出現(xiàn)概率最大化”轉(zhuǎn)變?yōu)椤笆股慑e誤的韻律模式的概率最小化”。這樣在排除可能產(chǎn)生韻律錯誤的區(qū)域后,剩余區(qū)域內(nèi)通常還保留著不止一條完整的路徑。在這些保留路徑中,很難說其中哪條比其它路徑更好,因此,可以認為它們是等價的韻律實現(xiàn)。在生成語音時,采用其中任意一條都是可以的。
人講話時在音高、音長的分配以及節(jié)律單元的組織中都有相當大的自由度。自然言語的豐富性在相當大的程度上得益于這種自由度的運用。而傳統(tǒng)語音合成系統(tǒng)中的韻律預測模型的弱點恰恰在于忽略了韻律組織中的自由度。因此,MSRA在“木蘭”文語轉(zhuǎn)換系統(tǒng)中應用了獨特的韻律預測基本原則,即,用最小錯誤概率準則代替?zhèn)鹘y(tǒng)的最大生成概率準則。用該準則技術(shù)生成的語音的自然度比以往有了顯著提高。
語音合成技術(shù)的應用
近年來,語音對話系統(tǒng)、語音呼叫中心、語音觸發(fā)的網(wǎng)站和電子郵件服務等實際應用的迅速發(fā)展,掀起了對文語轉(zhuǎn)換(TTS)技術(shù)的一個前所未有的需求高峰。大量的應用需求也促使TTS 技術(shù)的研究和開發(fā)邁上了一個新臺階。一方面,TTS 核心技術(shù)的研發(fā)單位不斷推出新的開發(fā)平臺。另一方面,越來越多的語音技術(shù)開發(fā)商致力于在各種TTS 開發(fā)平臺上的應用產(chǎn)品開發(fā),TTS 技術(shù)的在線應用實例也不斷涌現(xiàn)。
語音合成技術(shù)可以代替人工錄音,為聲訊平臺提供功能更強大的信息查詢節(jié)目。早期的電話高考查分系統(tǒng),通常只提供考分查詢功能。其中涉及文字的部分采用錄音剪切(事先錄音,流程回放)的方式來實現(xiàn),而在涉及分數(shù)的部分則采用語音卡進行簡單數(shù)字合成的方式來實現(xiàn),查詢的內(nèi)容較單一。應用了語音合成技術(shù)后,電話查分系統(tǒng)就可以提供更大信息量和動態(tài)信息的查詢,如考分查詢、學校和專業(yè)錄取分數(shù)線查詢、學校和專業(yè)情況介紹等。此外,使用語音合成技術(shù)還可以使服務推出的速度大大加快。
語音門戶是語音合成技術(shù)應用的又一個實例。語音門戶是一種電話服務,通過這種服務,用戶能夠從任何一個普通電話機上獲取基于互聯(lián)網(wǎng)的信息、開展電子商務以及獲得個人通信服務。這是一項在語音技術(shù)發(fā)展基礎(chǔ)上產(chǎn)生的新的交流方式,充分顯示了語音合成和語音識別的強大功能。語音門戶系統(tǒng)可以提供用戶網(wǎng)絡(luò)上所有的信息,用戶通過電話接入網(wǎng)絡(luò)操縱遠程的信息源,以得到信息或進行電子化交易。目前在國內(nèi)已經(jīng)投入運行的語音門戶系統(tǒng)主要的功能是查詢服務,查詢的內(nèi)容主要包括:新聞、生活公告、天氣預報、航班查詢、財經(jīng)參考、股票行情、外匯牌價、農(nóng)業(yè)供求、自我教育、法律顧問等。
在以2008年“數(shù)字奧運”為目標的“面向奧運多語言信息服務系統(tǒng)”的研發(fā)中,語音合成是最為關(guān)鍵技術(shù)之一。多語種語音合成產(chǎn)品是構(gòu)成整個服務網(wǎng)絡(luò)系統(tǒng)的重要組成部分,其主要目的是:借助語音合成技術(shù),利用電腦將文本信息按用戶選定的語種自動播報出來。相關(guān)系統(tǒng)將支持包括漢語、英語、日語在內(nèi)的多種語言,及時地為來自全球各地的用戶以語音形式提供信息發(fā)布、信息查詢、人機交互等多種形式的奧運信息服務。這些語音合成產(chǎn)品的推出,必然會為“科技奧運”、“人文奧運”貢獻自己的力量。
CHIP新電腦
相關(guān)鏈接: