自然流暢的文語(yǔ)轉(zhuǎn)換系統(tǒng)——木蘭

2004/06/11

  語(yǔ)音門戶、呼叫中心、聲訊服務(wù)等基于語(yǔ)音合成技術(shù)的文語(yǔ)轉(zhuǎn)換應(yīng)用已經(jīng)越來(lái)越多地進(jìn)入我們的工作和生活中!澳咎m”是由位于北京的微軟亞洲研究院研發(fā)并具有頂級(jí)性能的文語(yǔ)轉(zhuǎn)換系統(tǒng),木蘭有哪些重要特點(diǎn)?木蘭文語(yǔ)轉(zhuǎn)換的真實(shí)應(yīng)用效果如何?

  語(yǔ)音技術(shù)的飛速發(fā)展使語(yǔ)音技術(shù)的應(yīng)用日趨普及,特別是語(yǔ)音合成和語(yǔ)音識(shí)別兩種技術(shù)的結(jié)合,已經(jīng)使越來(lái)越多的嶄新應(yīng)用與服務(wù)成為現(xiàn)實(shí)。

  例如,在2002年韓日世界杯期間,中國(guó)電信在全國(guó)296個(gè)168信息臺(tái)同步采用語(yǔ)音技術(shù),將中央電視臺(tái)不斷發(fā)出的比賽花絮和最新賽況的文字信息播報(bào)給通過(guò)電話查詢的廣大球迷。

  語(yǔ)音合成技術(shù)已經(jīng)被應(yīng)用在奇瑞QQ轎車的“i-Say數(shù)碼聽(tīng)”系統(tǒng)上,通過(guò)“i-Say數(shù)碼聽(tīng)”系統(tǒng),用戶可以將下載到系統(tǒng)電腦中的文本文件、電子郵件、網(wǎng)絡(luò)新聞或小說(shuō)等轉(zhuǎn)換成語(yǔ)音在車內(nèi)收聽(tīng)。還可以通過(guò)特定的服務(wù)網(wǎng)站訂閱新聞、天氣預(yù)報(bào)、英語(yǔ)學(xué)習(xí)等信息至車上收聽(tīng),享受個(gè)性化的網(wǎng)絡(luò)信息服務(wù)。

  “木蘭”文語(yǔ)轉(zhuǎn)換系統(tǒng)是由位于北京的微軟亞洲研究院(MSRA)研發(fā)的,基于領(lǐng)先的語(yǔ)音合成技術(shù)的頂級(jí)文語(yǔ)轉(zhuǎn)換系統(tǒng)。通過(guò)對(duì)“木蘭”介紹和分析,我們將對(duì)語(yǔ)音合成技術(shù)及其應(yīng)用有更進(jìn)一步的了解,并展望機(jī)器人向人類“進(jìn)化”的動(dòng)人前景。

“木蘭”文語(yǔ)轉(zhuǎn)換系統(tǒng)

  “木蘭”文語(yǔ)轉(zhuǎn)換系統(tǒng)是由MSRA研發(fā)的中英文雙語(yǔ)文語(yǔ)轉(zhuǎn)換系統(tǒng),其性能在中英文文語(yǔ)轉(zhuǎn)換系統(tǒng)中處于頂級(jí)水準(zhǔn)!澳咎m”文語(yǔ)轉(zhuǎn)換系統(tǒng)有兩個(gè)重要的特征:1. 它是第一個(gè)真正的雙語(yǔ)系統(tǒng),可以非常自然地處理包含有英文詞句的中文語(yǔ)句。2. 它應(yīng)用了諸如“韻律生成的最小錯(cuò)誤準(zhǔn)則”等先進(jìn)技術(shù),能夠最大程度地保證所生成語(yǔ)音的自然度。

  在我們用到的各種中文文字材料中(如技術(shù)文獻(xiàn)或電子郵件),常常包含有英文單詞和短語(yǔ),甚至包含一些英文句子。而普通的漢語(yǔ)文語(yǔ)轉(zhuǎn)換系統(tǒng)通常不能很自然和正確地讀出夾雜在中文文稿中的英文文字,這成為了漢語(yǔ)文語(yǔ)轉(zhuǎn)換系統(tǒng)應(yīng)用的一個(gè)重要障礙。為了解決這個(gè)問(wèn)題,通常的做法是采用在兩個(gè)不同文語(yǔ)轉(zhuǎn)換系統(tǒng)之間不斷切換的方式。這種切換方式的最大缺點(diǎn)是最后生成的語(yǔ)音會(huì)喪失整體的語(yǔ)調(diào),由于一個(gè)句子被切分成若干段并由兩個(gè)系統(tǒng)分別合成,人們聽(tīng)起來(lái)會(huì)很不舒服,甚至聽(tīng)不懂。MSRA的“木蘭”系統(tǒng)是第一個(gè)真正的雙語(yǔ)系統(tǒng)。在“木蘭”文語(yǔ)轉(zhuǎn)換系統(tǒng)中,由于兩種語(yǔ)言之間的切換完全在系統(tǒng)內(nèi)進(jìn)行,因此生成的雙語(yǔ)語(yǔ)音具有非常自然的整句語(yǔ)調(diào)。

  “木蘭”區(qū)別于傳統(tǒng)語(yǔ)音合成系統(tǒng)的另一個(gè)重要特征是:它充分兼顧了自然言語(yǔ)韻律特性中的全局穩(wěn)定性和局部可變性。也就是說(shuō),在不違反韻律特征的全局約束的前提下,“木蘭”盡可能地保留了自然言語(yǔ)韻律中所固有的自由度。因此木蘭系統(tǒng)合成出來(lái)的語(yǔ)音克服了在其他系統(tǒng)中常會(huì)出現(xiàn)的音質(zhì)下降問(wèn)題,如由于韻律預(yù)測(cè)模型的局限性導(dǎo)致的單一語(yǔ)調(diào)問(wèn)題或由音高、音長(zhǎng)調(diào)節(jié)算法引入的機(jī)器味和嗡嗡聲。木蘭系統(tǒng)最大程度上保持了原始音庫(kù)中發(fā)音人的韻律特點(diǎn),所以生成的語(yǔ)音聽(tīng)起來(lái)相當(dāng)自然。

合成語(yǔ)音的質(zhì)量

  合成語(yǔ)音的質(zhì)量,我們通?梢詮目啥群妥匀欢葍煞矫孢M(jìn)行評(píng)價(jià)。代表當(dāng)前先進(jìn)水平的文語(yǔ)轉(zhuǎn)換系統(tǒng)都已經(jīng)能夠合成出可懂度相當(dāng)高的語(yǔ)音。但是這些系統(tǒng)生成的語(yǔ)音的自然度與人類實(shí)際的語(yǔ)音之間還有明顯的差距。在對(duì)幾個(gè)代表目前最高水平的漢語(yǔ)TTS 系統(tǒng)進(jìn)行的主觀評(píng)價(jià)中,播音員語(yǔ)音的測(cè)試得分是4.5,而合成語(yǔ)音的最高分只有3.2。雖然合成語(yǔ)音的質(zhì)量已達(dá)到了基本可以接受的水平,但其自然度與人的語(yǔ)音還有相當(dāng)明顯的差距。雖然目前最先進(jìn)的語(yǔ)音合成技術(shù)在以傳播信息為主要目的的場(chǎng)合,如語(yǔ)音門戶、呼叫中心、聲訊服務(wù)等應(yīng)用中已經(jīng)越來(lái)越被廣大用戶接受,但如果將它們用于更強(qiáng)調(diào)語(yǔ)言內(nèi)涵的場(chǎng)合,如講故事、讀小說(shuō)、講笑話等,往往會(huì)不盡人意。增強(qiáng)合成語(yǔ)音的表現(xiàn)力是語(yǔ)音合成技術(shù)的未來(lái)發(fā)展方向。

韻律組織

  韻律組織在言語(yǔ)交流中起著非常重要的作用,它不僅是清楚表達(dá)語(yǔ)義的關(guān)鍵,還能直接反映講話人的態(tài)度、意向、情緒以及對(duì)聽(tīng)話人的期望等信息。人在講話時(shí),總是先將這些意識(shí)層的信息轉(zhuǎn)化成音系層的表達(dá)手段,如選擇怎樣的聲調(diào)、語(yǔ)調(diào)、輕重模式、節(jié)律模式等,最后再通過(guò)控制發(fā)音器官來(lái)實(shí)現(xiàn)相應(yīng)的聲學(xué)目標(biāo)。通常認(rèn)為與韻律有關(guān)的聲學(xué)參數(shù)包括音高、音長(zhǎng)、音強(qiáng)和停延等。在語(yǔ)音合成的研究歷程中,建立韻律預(yù)測(cè)模型一直都是一個(gè)研究重點(diǎn)。

語(yǔ)音合成

  語(yǔ)音合成和語(yǔ)音識(shí)別技術(shù)是實(shí)現(xiàn)人機(jī)語(yǔ)音交流,建立一個(gè)具有能聽(tīng)會(huì)說(shuō)功能的應(yīng)用系統(tǒng)所必需的兩項(xiàng)關(guān)鍵技術(shù)。使電腦具有類似于人一樣的說(shuō)話能力,無(wú)疑將使其更具人性化特征,為相關(guān)應(yīng)用帶來(lái)更廣闊的發(fā)展空間。與語(yǔ)音識(shí)別相比,語(yǔ)音合成技術(shù)相對(duì)說(shuō)來(lái)要成熟一些,并已開(kāi)始向產(chǎn)業(yè)化方向邁進(jìn)。

  語(yǔ)音合成,又稱文語(yǔ)轉(zhuǎn)換(Text to Speech,TTS)技術(shù),它是一門涉及到聲學(xué)、語(yǔ)言學(xué)、統(tǒng)計(jì)分析、人工智能、數(shù)字信號(hào)處理等多個(gè)學(xué)科的技術(shù)。語(yǔ)音合成技術(shù)要解決的主要問(wèn)題就是如何將文字信息轉(zhuǎn)化為可聽(tīng)的聲音信息,也就是說(shuō)讓電腦可以像人一樣開(kāi)口說(shuō)話。這里所說(shuō)的“像人一樣開(kāi)口說(shuō)話”與傳統(tǒng)的聲音回放有著本質(zhì)的區(qū)別。諸如錄音機(jī)等這些傳統(tǒng)的聲音回放設(shè)備是通過(guò)預(yù)先錄制聲音,然后回放來(lái)讓設(shè)備“說(shuō)話”的。而計(jì)算機(jī)語(yǔ)音合成技術(shù)則可以實(shí)現(xiàn)在任何時(shí)候?qū)⑷我馕谋巨D(zhuǎn)換成具有高自然度的語(yǔ)音的目的,真正讓電腦“像人一樣開(kāi)口說(shuō)話”。

由木蘭合成的中文、英文和中英文雙語(yǔ)的例子

SOHO是Small Office Home Office的縮寫,亦即“小型的、家庭的辦公室”的含義。
木蘭TTS:http://research.microsoft.com/users/minchu/singlevoice/smp5.wav
其他TTS:http://research.microsoft.com/users/minchu/twovoice/smp5.wav

它與InternetInformationServer、MicrosoftExchange、SNAServer結(jié)合可形成一個(gè)數(shù)據(jù)集市的工作平臺(tái)。
木蘭TTS:http://research.microsoft.com/users/minchu/singlevoice/smp7.wav
其他TTS:http://research.microsoft.com/users/minchu/twovoice/smp7.wav

比如“很久沒(méi)見(jiàn)了”這句話,英文正確的說(shuō)法應(yīng)該是“I haven't seen you for a long time.”,一些人湊湊合合地說(shuō)成“Long time no see.”——不合語(yǔ)法,但意思明白了。
木蘭TTS:http://research.microsoft.com/users/minchu/singlevoice/smp15.wav

More recently, we have expanded our efforts in both speech synthesis and speech recognition to other languages.
木蘭TTS:http://research.microsoft.com/users/minchu/english/smp3.wav

清晨,從陽(yáng)臺(tái)上一抹朝陽(yáng)斜射進(jìn)來(lái)。設(shè)計(jì)方案將使每套住戶都有朝陽(yáng)的房間。
木蘭TTS:http://research.microsoft.com/users/minchu/mandarin/smp1.wav

詞典詞與韻律詞

  目前的多數(shù)漢語(yǔ)語(yǔ)音合成系統(tǒng)都是以詞典詞為單位合成。但是在口語(yǔ)中經(jīng)常是以韻律詞為韻律單位。韻律詞在漢語(yǔ)普通話的合成中是最重要韻律單位。韻律詞被定義為一組在實(shí)際語(yǔ)流中聯(lián)系緊密的、經(jīng)常聯(lián)在一起發(fā)音的音節(jié)。

  一個(gè)韻律詞可以包含幾個(gè)詞典詞,一個(gè)詞典詞也可以包含幾個(gè)韻律詞。

例如:我/買/了/一/本/好/書。

  如果按照語(yǔ)法每個(gè)字都是一個(gè)詞典詞,然而在自然口語(yǔ)中可以分為:

  我/買了/一本/好書。

  這里看出,詞典詞與韻律詞有極大的差異,其中“買了”“一本”“好書”,都是韻律詞。而我們平常說(shuō)話是正是根據(jù)這種韻律詞來(lái)分詞斷句的。只有按照韻律詞來(lái)合成語(yǔ)句,才符合人們的習(xí)慣。

“木蘭”的特征技術(shù)

  下面,讓我們來(lái)看看MSRA的研究人員是如何對(duì)自然言語(yǔ)韻律組織中的不確定性進(jìn)行研究的。我們還將進(jìn)一步了解為何MSAR的“韻律生成的最小錯(cuò)誤準(zhǔn)則”技術(shù)的應(yīng)用,能夠最大程度地保證所生成語(yǔ)音的自然度。

研究方法

  MSRA用于研究材料屬于微軟亞洲研究院語(yǔ)音合成語(yǔ)料庫(kù)的一個(gè)部分,這個(gè)部分包括1000個(gè)漢語(yǔ)單句的兩遍錄音。這些句子主要選自人民日?qǐng)?bào),部分選自小說(shuō)、散文和天氣預(yù)報(bào),長(zhǎng)度在10~30字之間,三分之一是單句,其余是復(fù)句。兩遍錄音是由同一個(gè)專業(yè)發(fā)音人在相隔半年時(shí)間內(nèi)重復(fù)錄制的。由于發(fā)音人沒(méi)有特意通過(guò)改變某些韻律參數(shù)來(lái)表達(dá)特殊的語(yǔ)義,可以認(rèn)為兩遍錄音的發(fā)音規(guī)劃是基本相同的,所表達(dá)的語(yǔ)義也是相同的。因此,可以進(jìn)一步斷定,兩遍錄音中的韻律參數(shù)和韻律結(jié)構(gòu)如果存在差異,這種差異不是語(yǔ)義表達(dá)的需要而導(dǎo)致的,這種差異可以理解為韻律組織中的不確定性。

  研究人員將對(duì)兩遍錄音中的節(jié)律組織和相應(yīng)語(yǔ)音單元的音高和音長(zhǎng)進(jìn)行比較,從而探討在相同的發(fā)音規(guī)劃和語(yǔ)義表達(dá)前提下,發(fā)音人在節(jié)律層級(jí)的組織和韻律參數(shù)的控制上有多大的自由度。為了敘述方便,在下文中將這1000個(gè)句子的兩遍錄音分別稱為HF1 和HF2, 而同一個(gè)句子中的同一個(gè)字的兩遍讀音稱為兩遍錄音中的相應(yīng)語(yǔ)音單元。


  同一句子,進(jìn)行兩遍錄音(在圖中,一次用藍(lán)色表示,另一次用橙色表示)。研究發(fā)現(xiàn),盡管兩遍錄音的內(nèi)容和所表達(dá)的意思完全相同,但在連續(xù)語(yǔ)流中各音段的長(zhǎng)度和音高都有相當(dāng)大的變化范圍。

時(shí)長(zhǎng)組織的不確定性

  MSRA的研究人員發(fā)現(xiàn):兩遍錄音的整體時(shí)間長(zhǎng)度分布是相當(dāng)一致的。但是,如果比較兩遍錄音中的相應(yīng)語(yǔ)音單元的時(shí)長(zhǎng),就會(huì)看到明顯的差異。這些差異說(shuō)明,雖然受到特定的上下文和語(yǔ)義表達(dá)的約束,音段長(zhǎng)度的取值仍有相當(dāng)大的變化范圍,其可變范圍可以大到所有音段的整體變化范圍的50%左右。

  由此可以看出,在言語(yǔ)組織中,各音段長(zhǎng)度的選擇不存在惟一的最優(yōu)解。事實(shí)上,在不改變所要傳達(dá)的各種意識(shí)層面的信息的前提下,連續(xù)語(yǔ)流中各音段的長(zhǎng)度可在相當(dāng)大的范圍內(nèi)變化,即語(yǔ)音單元的音段長(zhǎng)度有相當(dāng)大的不確定性。

音高組織的不確定性

  MSRA的研究人員發(fā)現(xiàn):兩遍錄音的整體音高分布是相當(dāng)一致的。但是,如果比較兩遍錄音中相應(yīng)單元的音高,也會(huì)看到明顯的差異。也就是說(shuō),雖然受到特定的上下文和語(yǔ)義表達(dá)的約束,音段音高的取值也有相當(dāng)大的變化范圍,其可變范圍可以大到所有音段的整體變化范圍的45%左右。

  由此可以看出,言語(yǔ)組織中,在不改變所要傳達(dá)的各種意識(shí)層面的信息的前提下,連續(xù)語(yǔ)流中各音段的音高也可在相當(dāng)大的范圍內(nèi)變化,即,音高組織也存在不確定性。

韻律組塊中的不確定性

  韻律組織的一個(gè)重要表現(xiàn)是組塊。同一句子可以由不同的韻律組塊構(gòu)成,例如,對(duì)于“從經(jīng)濟(jì)和環(huán)保的角度看”這句話,在HF1 中被處理成了四個(gè)韻律詞的“從經(jīng)濟(jì) | 和環(huán)保的 | 角度 | 看”,在HF2中,則被處理成“從 | 經(jīng)濟(jì) | 和 | 環(huán)保的 | 角度 | 看”, 包含六個(gè)韻律詞。

  從研究的結(jié)果可以看出:實(shí)際朗讀或講話時(shí)具體使用那種組織方式,可能受個(gè)人講話習(xí)慣、語(yǔ)速等因素的影響,也有相當(dāng)大的隨意性。

  從上述音高、音長(zhǎng)的分配以及節(jié)律單元三組對(duì)比分析可以看出,在自然言語(yǔ)的韻律組織中,音高、音長(zhǎng)和韻律組塊等都存在相當(dāng)大的不確定性。由此可以得到結(jié)論,韻律參數(shù)的取值存在一定的不確定性是自然言語(yǔ)的一個(gè)重要特征。事實(shí)上,正像我們寫作時(shí)經(jīng)常特意選用不同的詞匯來(lái)表達(dá)同一個(gè)意思以避免文字上的重復(fù),我們?cè)谥v話時(shí)也會(huì)特意調(diào)節(jié)一下韻律參數(shù)以避免韻律的重復(fù)(調(diào)節(jié)的前提是不改變所要傳達(dá)的信息)。如果反復(fù)重復(fù)同樣的韻律結(jié)構(gòu)就會(huì)使講出來(lái)的話單調(diào)、缺乏表現(xiàn)力,使聽(tīng)者很快疲憊、跑神。


  通過(guò)“木蘭”在線演示系統(tǒng):“http://research.microsoft.com/speech/tts”(中文)與“http://research.microsoft.com/speech/engtts”(英文),人們可以親身體驗(yàn)MSRA的研究成果。

傳統(tǒng)韻律模型的局限

  傳統(tǒng)的韻律預(yù)測(cè)模型都是建立在一個(gè)確定性假設(shè)上,即,對(duì)于任意給定的一個(gè)文字串,存在一個(gè)惟一且最優(yōu)的韻律實(shí)現(xiàn)方案。許多學(xué)者嘗試著用各種機(jī)器學(xué)習(xí)的方法,通過(guò)一個(gè)給的定文本預(yù)測(cè)合成語(yǔ)音中應(yīng)當(dāng)使用的韻律,或者從給定的一系列韻律中預(yù)測(cè)最終的韻律參數(shù)。在對(duì)音高、音長(zhǎng)的預(yù)測(cè)中最常用的優(yōu)化準(zhǔn)則是使每個(gè)預(yù)測(cè)值與它相應(yīng)的參考值最接近;谶@樣的準(zhǔn)則,預(yù)測(cè)模型的輸出將是自然言語(yǔ)中可能出現(xiàn)的各種韻律變化在某種條件下的最常用值。如果自然言語(yǔ)的韻律參數(shù)的可變范圍不太大,這樣的處理是適當(dāng)?shù)摹?

  但事實(shí)上,即便是同一個(gè)發(fā)音人在同樣的語(yǔ)義和情感規(guī)劃下重復(fù)發(fā)音,他采用的韻律參數(shù)仍然存在相當(dāng)大的變化,即言語(yǔ)的韻律組織中存在著不確定性。傳統(tǒng)韻律模型的弱點(diǎn)在于過(guò)度強(qiáng)調(diào)韻律的確定性或可預(yù)測(cè)性,而忽視了韻律組織中存在的不確定性,即在表達(dá)同樣的語(yǔ)義和情感的前提下,韻律參數(shù)的取值并不惟一,而是存在一個(gè)可選擇的范圍。要合成接近真人講話的語(yǔ)音必須同時(shí)抓住韻律組織的確定性和不確定性。

韻律生成的最小錯(cuò)誤準(zhǔn)則

  要想合成與真人發(fā)音逼近的語(yǔ)音,必須在生成語(yǔ)音的韻律模式中適當(dāng)引入不確定性。因此,MSAR提出通過(guò)改變韻律預(yù)測(cè)的優(yōu)化準(zhǔn)則,在韻律建模中引入適當(dāng)?shù)牟淮_定性。其關(guān)鍵在于:將韻律預(yù)測(cè)的準(zhǔn)則從“使生成的韻律模式的出現(xiàn)概率最大化”轉(zhuǎn)變?yōu)椤笆股慑e(cuò)誤的韻律模式的概率最小化”。這樣在排除可能產(chǎn)生韻律錯(cuò)誤的區(qū)域后,剩余區(qū)域內(nèi)通常還保留著不止一條完整的路徑。在這些保留路徑中,很難說(shuō)其中哪條比其它路徑更好,因此,可以認(rèn)為它們是等價(jià)的韻律實(shí)現(xiàn)。在生成語(yǔ)音時(shí),采用其中任意一條都是可以的。

  人講話時(shí)在音高、音長(zhǎng)的分配以及節(jié)律單元的組織中都有相當(dāng)大的自由度。自然言語(yǔ)的豐富性在相當(dāng)大的程度上得益于這種自由度的運(yùn)用。而傳統(tǒng)語(yǔ)音合成系統(tǒng)中的韻律預(yù)測(cè)模型的弱點(diǎn)恰恰在于忽略了韻律組織中的自由度。因此,MSRA在“木蘭”文語(yǔ)轉(zhuǎn)換系統(tǒng)中應(yīng)用了獨(dú)特的韻律預(yù)測(cè)基本原則,即,用最小錯(cuò)誤概率準(zhǔn)則代替?zhèn)鹘y(tǒng)的最大生成概率準(zhǔn)則。用該準(zhǔn)則技術(shù)生成的語(yǔ)音的自然度比以往有了顯著提高。

語(yǔ)音合成技術(shù)的應(yīng)用

  近年來(lái),語(yǔ)音對(duì)話系統(tǒng)、語(yǔ)音呼叫中心、語(yǔ)音觸發(fā)的網(wǎng)站和電子郵件服務(wù)等實(shí)際應(yīng)用的迅速發(fā)展,掀起了對(duì)文語(yǔ)轉(zhuǎn)換(TTS)技術(shù)的一個(gè)前所未有的需求高峰。大量的應(yīng)用需求也促使TTS 技術(shù)的研究和開(kāi)發(fā)邁上了一個(gè)新臺(tái)階。一方面,TTS 核心技術(shù)的研發(fā)單位不斷推出新的開(kāi)發(fā)平臺(tái)。另一方面,越來(lái)越多的語(yǔ)音技術(shù)開(kāi)發(fā)商致力于在各種TTS 開(kāi)發(fā)平臺(tái)上的應(yīng)用產(chǎn)品開(kāi)發(fā),TTS 技術(shù)的在線應(yīng)用實(shí)例也不斷涌現(xiàn)。

  語(yǔ)音合成技術(shù)可以代替人工錄音,為聲訊平臺(tái)提供功能更強(qiáng)大的信息查詢節(jié)目。早期的電話高考查分系統(tǒng),通常只提供考分查詢功能。其中涉及文字的部分采用錄音剪切(事先錄音,流程回放)的方式來(lái)實(shí)現(xiàn),而在涉及分?jǐn)?shù)的部分則采用語(yǔ)音卡進(jìn)行簡(jiǎn)單數(shù)字合成的方式來(lái)實(shí)現(xiàn),查詢的內(nèi)容較單一。應(yīng)用了語(yǔ)音合成技術(shù)后,電話查分系統(tǒng)就可以提供更大信息量和動(dòng)態(tài)信息的查詢,如考分查詢、學(xué)校和專業(yè)錄取分?jǐn)?shù)線查詢、學(xué)校和專業(yè)情況介紹等。此外,使用語(yǔ)音合成技術(shù)還可以使服務(wù)推出的速度大大加快。

  語(yǔ)音門戶是語(yǔ)音合成技術(shù)應(yīng)用的又一個(gè)實(shí)例。語(yǔ)音門戶是一種電話服務(wù),通過(guò)這種服務(wù),用戶能夠從任何一個(gè)普通電話機(jī)上獲取基于互聯(lián)網(wǎng)的信息、開(kāi)展電子商務(wù)以及獲得個(gè)人通信服務(wù)。這是一項(xiàng)在語(yǔ)音技術(shù)發(fā)展基礎(chǔ)上產(chǎn)生的新的交流方式,充分顯示了語(yǔ)音合成和語(yǔ)音識(shí)別的強(qiáng)大功能。語(yǔ)音門戶系統(tǒng)可以提供用戶網(wǎng)絡(luò)上所有的信息,用戶通過(guò)電話接入網(wǎng)絡(luò)操縱遠(yuǎn)程的信息源,以得到信息或進(jìn)行電子化交易。目前在國(guó)內(nèi)已經(jīng)投入運(yùn)行的語(yǔ)音門戶系統(tǒng)主要的功能是查詢服務(wù),查詢的內(nèi)容主要包括:新聞、生活公告、天氣預(yù)報(bào)、航班查詢、財(cái)經(jīng)參考、股票行情、外匯牌價(jià)、農(nóng)業(yè)供求、自我教育、法律顧問(wèn)等。

  在以2008年“數(shù)字奧運(yùn)”為目標(biāo)的“面向奧運(yùn)多語(yǔ)言信息服務(wù)系統(tǒng)”的研發(fā)中,語(yǔ)音合成是最為關(guān)鍵技術(shù)之一。多語(yǔ)種語(yǔ)音合成產(chǎn)品是構(gòu)成整個(gè)服務(wù)網(wǎng)絡(luò)系統(tǒng)的重要組成部分,其主要目的是:借助語(yǔ)音合成技術(shù),利用電腦將文本信息按用戶選定的語(yǔ)種自動(dòng)播報(bào)出來(lái)。相關(guān)系統(tǒng)將支持包括漢語(yǔ)、英語(yǔ)、日語(yǔ)在內(nèi)的多種語(yǔ)言,及時(shí)地為來(lái)自全球各地的用戶以語(yǔ)音形式提供信息發(fā)布、信息查詢、人機(jī)交互等多種形式的奧運(yùn)信息服務(wù)。這些語(yǔ)音合成產(chǎn)品的推出,必然會(huì)為“科技奧運(yùn)”、“人文奧運(yùn)”貢獻(xiàn)自己的力量。

CHIP新電腦



相關(guān)鏈接:
Dynamics的“靈活”戰(zhàn)略 2009-09-28
微軟國(guó)內(nèi)首推Push mail 酷派3G產(chǎn)品率先支持 2009-09-28
鮑爾默:我們搞砸了Windows Mobile 7 2009-09-25
微軟全球基礎(chǔ)服務(wù)部門副總裁離職加盟思科 2009-09-24
微軟推最新手機(jī)操作系統(tǒng)WindowsMobile6.5 2009-09-04

分類信息:     技術(shù)_語(yǔ)音合成_解決方案