首頁(yè)>>>技術(shù)>>>語(yǔ)音應(yīng)用>>>語(yǔ)音合成(TTS)  語(yǔ)音合成產(chǎn)品

 

回歸到“通天塔”之前
——語(yǔ)音翻譯技術(shù)和應(yīng)用展望

徐波 2002/03/11

  西方圣經(jīng)上“通天塔”和 “巴別塔”的故事路人皆知,其目的就是為了說(shuō)明人類(lèi)溝通的重要性。事實(shí)上,人類(lèi)一直在尋找克服語(yǔ)言障礙的途徑:先是翻譯,再是世界語(yǔ),直到目前的自動(dòng)翻譯。甚至還有人提出,隨著語(yǔ)言的逐漸消融,最終將回歸到造“通天塔”之前天下人的語(yǔ)言都一樣的原始狀態(tài),徹底掃除語(yǔ)言障礙。

作者簡(jiǎn)介:

  徐波 1988年畢業(yè)于浙江大學(xué),此后在中科院自動(dòng)化所從事語(yǔ)音、語(yǔ)言信息處理和識(shí)別等方面的研究,于1992年和1997年分別獲得工學(xué)碩士和博士學(xué)位,1997年被破格提升為該所研究員、博士生導(dǎo)師,F(xiàn)任國(guó)家模式識(shí)別重點(diǎn)實(shí)驗(yàn)室副主任、口語(yǔ)信息處理研究組組長(zhǎng)、清華大學(xué)信息學(xué)院客座教授、中國(guó)中文信息處理學(xué)會(huì)常務(wù)理事、YOCSEF學(xué)術(shù)委員會(huì)委員、中國(guó)聲學(xué)學(xué)會(huì)和中國(guó)自動(dòng)化學(xué)會(huì)委員及《自動(dòng)化學(xué)報(bào)》編委。目前主要的研究方向包括語(yǔ)音識(shí)別的魯棒性問(wèn)題、口語(yǔ)理解、智能搜索、人機(jī)對(duì)話(huà)、口語(yǔ)的統(tǒng)計(jì)翻譯等。

  計(jì)算技術(shù)的發(fā)展為機(jī)器代替人從事翻譯工作、最終消除人類(lèi)交流障礙打開(kāi)了希望之門(mén)。這個(gè)思路可以追溯到1945年,當(dāng)時(shí)信息論的先驅(qū)Warren Weaver就認(rèn)為語(yǔ)言的翻譯過(guò)程可以抽象成編碼和解碼過(guò)程,這種思想其實(shí)就是機(jī)器翻譯的基石,并提出了機(jī)器翻譯的可計(jì)算性。不過(guò)要從理論上證明機(jī)器翻譯完全可計(jì)算并不是一件容易的事情,50年自動(dòng)翻譯的發(fā)展也表明,從實(shí)踐上證明其可計(jì)算性同樣非常困難。針對(duì)機(jī)器翻譯的現(xiàn)狀,有人挖苦地說(shuō):“MT,不是Machine Translation的縮寫(xiě),而是Mad Translation的縮寫(xiě)!边@雖然有些極端,但真實(shí)地道出了實(shí)現(xiàn)自動(dòng)翻譯有多難。

領(lǐng)域限定更可行

  既然無(wú)領(lǐng)域限制的自動(dòng)翻譯是如此之難,那限定領(lǐng)域的自動(dòng)翻譯是否可行?20世紀(jì)80年代以來(lái),自動(dòng)翻譯技術(shù)的一個(gè)分支就是著手把機(jī)器翻譯和語(yǔ)音識(shí)別、語(yǔ)音合成相結(jié)合,進(jìn)行直接的口語(yǔ)翻譯,這方面的研究首先起源于對(duì)語(yǔ)音識(shí)別技術(shù)的研究。2000年,在北京召開(kāi)的口語(yǔ)信息處理國(guó)際會(huì)議(ICSLP2000)上,就把“新世紀(jì)跨語(yǔ)言的口語(yǔ)交流(Spoken Language Processing in Trans-language and Trans-modal Communications for the New Century)”作為大會(huì)的主題。

  計(jì)算機(jī)的口語(yǔ)信息處理不僅僅是人機(jī)交互的強(qiáng)大工具,也是使用不同語(yǔ)言的人群之間交流的強(qiáng)大工具。與書(shū)面語(yǔ)言翻譯相比,語(yǔ)音翻譯在限定場(chǎng)景下的口語(yǔ)交流上更具優(yōu)勢(shì),例如機(jī)場(chǎng)、海關(guān)、旅館咨詢(xún)、購(gòu)物、餐館對(duì)話(huà)、旅游觀光、娛樂(lè)、天氣預(yù)報(bào)、公共交通等場(chǎng)景中的交流。對(duì)其中的巨大市場(chǎng)需求,人們已達(dá)成共識(shí)。另一方面,語(yǔ)音翻譯比文本翻譯更加復(fù)雜和艱難,系統(tǒng)要面對(duì)從語(yǔ)音識(shí)別、機(jī)器翻譯到語(yǔ)音合成的所有難題。所以,語(yǔ)音翻譯對(duì)應(yīng)用領(lǐng)域進(jìn)行限制很自然,這意味著我們可以用一些針對(duì)性較強(qiáng)的翻譯方法來(lái)完成語(yǔ)音翻譯的目標(biāo),而不必過(guò)分追求系統(tǒng)的通用性。

  翻譯方法需綜合

  在有明確限定的領(lǐng)域中,語(yǔ)音識(shí)別技術(shù)一般能取得比較高的準(zhǔn)確率。只要收集的樣本能對(duì)限定領(lǐng)域的語(yǔ)言現(xiàn)象有比較好的覆蓋,翻譯方法特別是基于經(jīng)驗(yàn)主義的翻譯方法,就會(huì)非常適用。最典型的經(jīng)驗(yàn)主義方法是基于實(shí)例或模板的方法,其基本思想是研究語(yǔ)料庫(kù)中出現(xiàn)的句型,然后進(jìn)行通用化處理,并建立一個(gè)句型庫(kù),在翻譯的時(shí)候,通過(guò)匹配庫(kù)中的模板就可以獲得可靠性較高的翻譯。

  另一種更加高級(jí)的模型是基于雙語(yǔ)語(yǔ)料的統(tǒng)計(jì)方法,這種方法從研究雙語(yǔ)語(yǔ)料句對(duì)之間的對(duì)位關(guān)系開(kāi)始。下圖中的例句表示了在詞匯層和短語(yǔ)層的混合對(duì)位。

  從圖中可以看出,互譯句對(duì)之間存在著不同層次上的對(duì)應(yīng)關(guān)系,通過(guò)統(tǒng)計(jì)的方法,可算出中文和英文詞匯之間的翻譯概率,以及位置關(guān)系對(duì)翻譯概率的影響,最終可通過(guò)純數(shù)學(xué)的方法來(lái)實(shí)現(xiàn)翻譯過(guò)程。該方法目前在雙語(yǔ)的口語(yǔ)翻譯中逐步成為一種主流方法。在對(duì)德國(guó)的Verbmobil項(xiàng)目第二階段的完整評(píng)估中,一共測(cè)試了四種方法,分別是基于轉(zhuǎn)換的翻譯、基于對(duì)話(huà)意圖的翻譯、基于實(shí)例的翻譯和基于統(tǒng)計(jì)的翻譯。由于基于統(tǒng)計(jì)的翻譯對(duì)語(yǔ)音識(shí)別錯(cuò)誤具有較好的容錯(cuò)性,加上統(tǒng)計(jì)學(xué)的大量?jī)?yōu)點(diǎn),使其翻譯錯(cuò)誤率還不到其他方法的一半。

  當(dāng)然統(tǒng)計(jì)方法也有缺點(diǎn),它缺少語(yǔ)言知識(shí)和結(jié)構(gòu)信息,因而需要與其他方法結(jié)合使用,例如與基于實(shí)例的翻譯方法相結(jié)合。這樣不僅可以考慮句子的整體結(jié)構(gòu),還可以利用語(yǔ)言語(yǔ)法結(jié)構(gòu)的統(tǒng)計(jì)信息。

  此外,找到適當(dāng)?shù)闹虚g語(yǔ)言一直是自動(dòng)翻譯的理想,但由于自然語(yǔ)言的復(fù)雜性,要找到既完備又具有很強(qiáng)表達(dá)能力的中間語(yǔ)言非常困難。不過(guò),為了實(shí)現(xiàn)多國(guó)語(yǔ)言之間的互譯,中間語(yǔ)言是一個(gè)非常好的思路,那樣任何兩種語(yǔ)言之間的翻譯所需的工作量只與語(yǔ)種的數(shù)量成正比。在多語(yǔ)種互譯中類(lèi)似于C-STAR Ⅲ IF的中間語(yǔ)言口語(yǔ)翻譯是一個(gè)非常重要的方向。

  發(fā)展前景美好而曲折

  目前國(guó)際上對(duì)口語(yǔ)翻譯比較有影響的研究計(jì)劃和組織主要有德國(guó)的Verbmobil開(kāi)發(fā)計(jì)劃和國(guó)際口語(yǔ)翻譯先進(jìn)研究組織(C-STAR)。Verbmobil計(jì)劃是由德國(guó)BMBF出資,日本ATR International、美國(guó)Carnegie Mellon University、德國(guó)Deutsches Forschungszentrum für Künstliche Intelligenz等22所大學(xué)和7個(gè)公司參與,Siemens負(fù)責(zé)集成的一個(gè)語(yǔ)音翻譯系統(tǒng)研究計(jì)劃。

  1993~1996年,該計(jì)劃完成了第一階段原型系統(tǒng)的設(shè)計(jì),該系統(tǒng)又稱(chēng)為Verbmobil Demonstrator,包括2500個(gè)單詞量的德英翻譯和400個(gè)單詞量的德日翻譯,主要應(yīng)用在商業(yè)會(huì)晤和日程安排領(lǐng)域。

  1997~2000年,該系統(tǒng)的單詞量增加到1萬(wàn)個(gè),語(yǔ)種以德、英、日為主向多語(yǔ)種擴(kuò)展,應(yīng)用領(lǐng)域也擴(kuò)展為旅游日程安排、旅館預(yù)訂等多個(gè)領(lǐng)域。

  C-STAR的全稱(chēng)是International consortium for Speech Translation Advanced Research,成立于1991年,發(fā)起者為日本ATR、美國(guó)CMU大學(xué)、Siemens等國(guó)際知名研究機(jī)構(gòu),最初稱(chēng)為C-STAR I。這個(gè)國(guó)際組織以實(shí)現(xiàn)多語(yǔ)種的自由交談為目標(biāo),并于1993年進(jìn)行了世界上第一個(gè)語(yǔ)音翻譯系統(tǒng)的演示。其后,許多科技機(jī)構(gòu)相繼投入其中,并得到各國(guó)政府部門(mén)的支持,C-STAR也隨之發(fā)展壯大。到今天,已經(jīng)發(fā)展到了C-STAR Ⅲ,其中包括7個(gè)核心成員和20多個(gè)觀察成員。

  語(yǔ)音翻譯是一個(gè)很具挑戰(zhàn)性的人類(lèi)科學(xué)工程,然而人類(lèi)對(duì)挑戰(zhàn)的應(yīng)對(duì)也是充滿(mǎn)智慧的,過(guò)去10年不斷取得進(jìn)展的語(yǔ)音翻譯也證明了這一點(diǎn)。雖然我們很難為語(yǔ)音翻譯給出一個(gè)準(zhǔn)確的進(jìn)展時(shí)間表,但可以大膽地給出一個(gè)對(duì)未來(lái)展望的時(shí)間表:

   30年之后將會(huì)有無(wú)領(lǐng)域限制的翻譯系統(tǒng),屆時(shí)人類(lèi)的全球交流基本沒(méi)有障礙。 北京成功申請(qǐng)到了2008年奧運(yùn)會(huì)的舉辦權(quán),這對(duì)語(yǔ)音翻譯的需求更加迫切。要實(shí)現(xiàn)奧申委提出的在整個(gè)奧運(yùn)期間“Any Time”、“Any Where”、“Any One”和“Any Device”提供智能化多語(yǔ)言信息服務(wù)的承諾,首先就要克服語(yǔ)言交流的瓶頸問(wèn)題,我們相信語(yǔ)音翻譯技術(shù)在這方面將大有可為。

計(jì)算機(jī)世界報(bào) 2002/03/11



相關(guān)鏈接:
構(gòu)建更加人性化的交談式語(yǔ)音應(yīng)用 2002-03-11
語(yǔ)音合成——燦爛的前景 巨大的商機(jī) 2002-01-30
語(yǔ)音合成技術(shù)及國(guó)內(nèi)外發(fā)展現(xiàn)狀 2002-01-30
Evoice有聲電子郵件系統(tǒng) 2002-01-30
語(yǔ)音合成系統(tǒng)的關(guān)鍵技術(shù) 2002-01-30

分類(lèi)信息:  語(yǔ)音合成TTS_與_語(yǔ)音識(shí)別ASR     技術(shù)_語(yǔ)音合成_文摘   技術(shù)_語(yǔ)音識(shí)別_文摘