美女视频网站怎么下载,赵丽颖床震视频

首頁(yè)>>>技術(shù)>>>語(yǔ)音應(yīng)用>>>語(yǔ)音合成(TTS)　　語(yǔ)音合成產(chǎn)品

回歸到“通天塔”之前
——語(yǔ)音翻譯技術(shù)和應(yīng)用展望

徐波 2002/03/11

　　西方圣經(jīng)上“通天塔”和 “巴別塔”的故事路人皆知，其目的就是為了說(shuō)明人類(lèi)溝通的重要性。事實(shí)上，人類(lèi)一直在尋找克服語(yǔ)言障礙的途徑:先是翻譯，再是世界語(yǔ)，直到目前的自動(dòng)翻譯。甚至還有人提出，隨著語(yǔ)言的逐漸消融，最終將回歸到造“通天塔”之前天下人的語(yǔ)言都一樣的原始狀態(tài)，徹底掃除語(yǔ)言障礙。

作者簡(jiǎn)介:

　　徐波 1988年畢業(yè)于浙江大學(xué)，此后在中科院自動(dòng)化所從事語(yǔ)音、語(yǔ)言信息處理和識(shí)別等方面的研究，于1992年和1997年分別獲得工學(xué)碩士和博士學(xué)位，1997年被破格提升為該所研究員、博士生導(dǎo)師�，F(xiàn)任國(guó)家模式識(shí)別重點(diǎn)實(shí)驗(yàn)室副主任、口語(yǔ)信息處理研究組組長(zhǎng)、清華大學(xué)信息學(xué)院客座教授、中國(guó)中文信息處理學(xué)會(huì)常務(wù)理事、YOCSEF學(xué)術(shù)委員會(huì)委員、中國(guó)聲學(xué)學(xué)會(huì)和中國(guó)自動(dòng)化學(xué)會(huì)委員及《自動(dòng)化學(xué)報(bào)》編委。目前主要的研究方向包括語(yǔ)音識(shí)別的魯棒性問(wèn)題、口語(yǔ)理解、智能搜索、人機(jī)對(duì)話(huà)、口語(yǔ)的統(tǒng)計(jì)翻譯等。

　　計(jì)算技術(shù)的發(fā)展為機(jī)器代替人從事翻譯工作、最終消除人類(lèi)交流障礙打開(kāi)了希望之門(mén)。這個(gè)思路可以追溯到1945年，當(dāng)時(shí)信息論的先驅(qū)Warren Weaver就認(rèn)為語(yǔ)言的翻譯過(guò)程可以抽象成編碼和解碼過(guò)程，這種思想其實(shí)就是機(jī)器翻譯的基石，并提出了機(jī)器翻譯的可計(jì)算性。不過(guò)要從理論上證明機(jī)器翻譯完全可計(jì)算并不是一件容易的事情，50年自動(dòng)翻譯的發(fā)展也表明，從實(shí)踐上證明其可計(jì)算性同樣非常困難。針對(duì)機(jī)器翻譯的現(xiàn)狀，有人挖苦地說(shuō)：“MT，不是Machine Translation的縮寫(xiě)，而是Mad Translation的縮寫(xiě)�！边@雖然有些極端，但真實(shí)地道出了實(shí)現(xiàn)自動(dòng)翻譯有多難。

領(lǐng)域限定更可行

　　既然無(wú)領(lǐng)域限制的自動(dòng)翻譯是如此之難，那限定領(lǐng)域的自動(dòng)翻譯是否可行？20世紀(jì)80年代以來(lái)，自動(dòng)翻譯技術(shù)的一個(gè)分支就是著手把機(jī)器翻譯和語(yǔ)音識(shí)別、語(yǔ)音合成相結(jié)合，進(jìn)行直接的口語(yǔ)翻譯，這方面的研究首先起源于對(duì)語(yǔ)音識(shí)別技術(shù)的研究。2000年，在北京召開(kāi)的口語(yǔ)信息處理國(guó)際會(huì)議（ICSLP2000）上，就把“新世紀(jì)跨語(yǔ)言的口語(yǔ)交流（Spoken Language Processing in Trans-language and Trans-modal Communications for the New Century）”作為大會(huì)的主題。

　　計(jì)算機(jī)的口語(yǔ)信息處理不僅僅是人機(jī)交互的強(qiáng)大工具，也是使用不同語(yǔ)言的人群之間交流的強(qiáng)大工具。與書(shū)面語(yǔ)言翻譯相比，語(yǔ)音翻譯在限定場(chǎng)景下的口語(yǔ)交流上更具優(yōu)勢(shì)，例如機(jī)場(chǎng)、海關(guān)、旅館咨詢(xún)、購(gòu)物、餐館對(duì)話(huà)、旅游觀光、娛樂(lè)、天氣預(yù)報(bào)、公共交通等場(chǎng)景中的交流。對(duì)其中的巨大市場(chǎng)需求，人們已達(dá)成共識(shí)。另一方面，語(yǔ)音翻譯比文本翻譯更加復(fù)雜和艱難，系統(tǒng)要面對(duì)從語(yǔ)音識(shí)別、機(jī)器翻譯到語(yǔ)音合成的所有難題。所以，語(yǔ)音翻譯對(duì)應(yīng)用領(lǐng)域進(jìn)行限制很自然，這意味著我們可以用一些針對(duì)性較強(qiáng)的翻譯方法來(lái)完成語(yǔ)音翻譯的目標(biāo)，而不必過(guò)分追求系統(tǒng)的通用性。

　　翻譯方法需綜合

　　在有明確限定的領(lǐng)域中，語(yǔ)音識(shí)別技術(shù)一般能取得比較高的準(zhǔn)確率。只要收集的樣本能對(duì)限定領(lǐng)域的語(yǔ)言現(xiàn)象有比較好的覆蓋，翻譯方法特別是基于經(jīng)驗(yàn)主義的翻譯方法，就會(huì)非常適用。最典型的經(jīng)驗(yàn)主義方法是基于實(shí)例或模板的方法，其基本思想是研究語(yǔ)料庫(kù)中出現(xiàn)的句型，然后進(jìn)行通用化處理，并建立一個(gè)句型庫(kù)，在翻譯的時(shí)候，通過(guò)匹配庫(kù)中的模板就可以獲得可靠性較高的翻譯。

　　另一種更加高級(jí)的模型是基于雙語(yǔ)語(yǔ)料的統(tǒng)計(jì)方法，這種方法從研究雙語(yǔ)語(yǔ)料句對(duì)之間的對(duì)位關(guān)系開(kāi)始。下圖中的例句表示了在詞匯層和短語(yǔ)層的混合對(duì)位。

　　從圖中可以看出，互譯句對(duì)之間存在著不同層次上的對(duì)應(yīng)關(guān)系，通過(guò)統(tǒng)計(jì)的方法，可算出中文和英文詞匯之間的翻譯概率，以及位置關(guān)系對(duì)翻譯概率的影響，最終可通過(guò)純數(shù)學(xué)的方法來(lái)實(shí)現(xiàn)翻譯過(guò)程。該方法目前在雙語(yǔ)的口語(yǔ)翻譯中逐步成為一種主流方法。在對(duì)德國(guó)的Verbmobil項(xiàng)目第二階段的完整評(píng)估中，一共測(cè)試了四種方法，分別是基于轉(zhuǎn)換的翻譯、基于對(duì)話(huà)意圖的翻譯、基于實(shí)例的翻譯和基于統(tǒng)計(jì)的翻譯。由于基于統(tǒng)計(jì)的翻譯對(duì)語(yǔ)音識(shí)別錯(cuò)誤具有較好的容錯(cuò)性，加上統(tǒng)計(jì)學(xué)的大量?jī)?yōu)點(diǎn)，使其翻譯錯(cuò)誤率還不到其他方法的一半。

　　當(dāng)然統(tǒng)計(jì)方法也有缺點(diǎn)，它缺少語(yǔ)言知識(shí)和結(jié)構(gòu)信息，因而需要與其他方法結(jié)合使用，例如與基于實(shí)例的翻譯方法相結(jié)合。這樣不僅可以考慮句子的整體結(jié)構(gòu)，還可以利用語(yǔ)言語(yǔ)法結(jié)構(gòu)的統(tǒng)計(jì)信息。

　　此外，找到適當(dāng)?shù)闹虚g語(yǔ)言一直是自動(dòng)翻譯的理想，但由于自然語(yǔ)言的復(fù)雜性，要找到既完備又具有很強(qiáng)表達(dá)能力的中間語(yǔ)言非常困難。不過(guò)，為了實(shí)現(xiàn)多國(guó)語(yǔ)言之間的互譯，中間語(yǔ)言是一個(gè)非常好的思路，那樣任何兩種語(yǔ)言之間的翻譯所需的工作量只與語(yǔ)種的數(shù)量成正比。在多語(yǔ)種互譯中類(lèi)似于C-STAR Ⅲ IF的中間語(yǔ)言口語(yǔ)翻譯是一個(gè)非常重要的方向。

　　發(fā)展前景美好而曲折

　　目前國(guó)際上對(duì)口語(yǔ)翻譯比較有影響的研究計(jì)劃和組織主要有德國(guó)的Verbmobil開(kāi)發(fā)計(jì)劃和國(guó)際口語(yǔ)翻譯先進(jìn)研究組織（C-STAR）。Verbmobil計(jì)劃是由德國(guó)BMBF出資，日本ATR International、美國(guó)Carnegie Mellon University、德國(guó)Deutsches Forschungszentrum für Künstliche Intelligenz等22所大學(xué)和7個(gè)公司參與，Siemens負(fù)責(zé)集成的一個(gè)語(yǔ)音翻譯系統(tǒng)研究計(jì)劃。

　　1993～1996年，該計(jì)劃完成了第一階段原型系統(tǒng)的設(shè)計(jì)，該系統(tǒng)又稱(chēng)為Verbmobil Demonstrator，包括2500個(gè)單詞量的德英翻譯和400個(gè)單詞量的德日翻譯，主要應(yīng)用在商業(yè)會(huì)晤和日程安排領(lǐng)域。

　　1997～2000年，該系統(tǒng)的單詞量增加到1萬(wàn)個(gè)，語(yǔ)種以德、英、日為主向多語(yǔ)種擴(kuò)展，應(yīng)用領(lǐng)域也擴(kuò)展為旅游日程安排、旅館預(yù)訂等多個(gè)領(lǐng)域。

　　C-STAR的全稱(chēng)是International consortium for Speech Translation Advanced Research，成立于1991年，發(fā)起者為日本ATR、美國(guó)CMU大學(xué)、Siemens等國(guó)際知名研究機(jī)構(gòu)，最初稱(chēng)為C-STAR I。這個(gè)國(guó)際組織以實(shí)現(xiàn)多語(yǔ)種的自由交談為目標(biāo)，并于1993年進(jìn)行了世界上第一個(gè)語(yǔ)音翻譯系統(tǒng)的演示。其后，許多科技機(jī)構(gòu)相繼投入其中，并得到各國(guó)政府部門(mén)的支持，C-STAR也隨之發(fā)展壯大。到今天，已經(jīng)發(fā)展到了C-STAR Ⅲ，其中包括7個(gè)核心成員和20多個(gè)觀察成員。

　　語(yǔ)音翻譯是一個(gè)很具挑戰(zhàn)性的人類(lèi)科學(xué)工程，然而人類(lèi)對(duì)挑戰(zhàn)的應(yīng)對(duì)也是充滿(mǎn)智慧的，過(guò)去10年不斷取得進(jìn)展的語(yǔ)音翻譯也證明了這一點(diǎn)。雖然我們很難為語(yǔ)音翻譯給出一個(gè)準(zhǔn)確的進(jìn)展時(shí)間表，但可以大膽地給出一個(gè)對(duì)未來(lái)展望的時(shí)間表：

5年之內(nèi)將產(chǎn)生專(zhuān)用小范圍語(yǔ)音翻譯裝置和服務(wù)，并會(huì)在統(tǒng)計(jì)機(jī)器翻譯模型方面有實(shí)質(zhì)性突破；

8年之內(nèi)將在實(shí)驗(yàn)室范圍內(nèi)產(chǎn)生一般通用領(lǐng)域的翻譯裝置；

15年之后將出現(xiàn)大量語(yǔ)音翻譯應(yīng)用和產(chǎn)品；

　　 30年之后將會(huì)有無(wú)領(lǐng)域限制的翻譯系統(tǒng)，屆時(shí)人類(lèi)的全球交流基本沒(méi)有障礙。北京成功申請(qǐng)到了2008年奧運(yùn)會(huì)的舉辦權(quán)，這對(duì)語(yǔ)音翻譯的需求更加迫切。要實(shí)現(xiàn)奧申委提出的在整個(gè)奧運(yùn)期間“Any Time”、“Any Where”、“Any One”和“Any Device”提供智能化多語(yǔ)言信息服務(wù)的承諾，首先就要克服語(yǔ)言交流的瓶頸問(wèn)題，我們相信語(yǔ)音翻譯技術(shù)在這方面將大有可為。

計(jì)算機(jī)世界報(bào)　2002/03/11

語(yǔ)音合成——燦爛的前景巨大的商機(jī) 2002-01-30

語(yǔ)音合成技術(shù)及國(guó)內(nèi)外發(fā)展現(xiàn)狀 2002-01-30

Evoice有聲電子郵件系統(tǒng) 2002-01-30

語(yǔ)音合成系統(tǒng)的關(guān)鍵技術(shù) 2002-01-30

分類(lèi)信息: 語(yǔ)音合成TTS_與_語(yǔ)音識(shí)別ASR 技術(shù)_語(yǔ)音合成_文摘技術(shù)_語(yǔ)音識(shí)別_文摘