首頁>>>技術(shù)>>>語音應(yīng)用>>>語音合成(TTS)  語音合成產(chǎn)品

 

回歸到“通天塔”之前
——語音翻譯技術(shù)和應(yīng)用展望

徐波 2002/03/11

  西方圣經(jīng)上“通天塔”和 “巴別塔”的故事路人皆知,其目的就是為了說明人類溝通的重要性。事實(shí)上,人類一直在尋找克服語言障礙的途徑:先是翻譯,再是世界語,直到目前的自動(dòng)翻譯。甚至還有人提出,隨著語言的逐漸消融,最終將回歸到造“通天塔”之前天下人的語言都一樣的原始狀態(tài),徹底掃除語言障礙。

作者簡介:

  徐波 1988年畢業(yè)于浙江大學(xué),此后在中科院自動(dòng)化所從事語音、語言信息處理和識(shí)別等方面的研究,于1992年和1997年分別獲得工學(xué)碩士和博士學(xué)位,1997年被破格提升為該所研究員、博士生導(dǎo)師,F(xiàn)任國家模式識(shí)別重點(diǎn)實(shí)驗(yàn)室副主任、口語信息處理研究組組長、清華大學(xué)信息學(xué)院客座教授、中國中文信息處理學(xué)會(huì)常務(wù)理事、YOCSEF學(xué)術(shù)委員會(huì)委員、中國聲學(xué)學(xué)會(huì)和中國自動(dòng)化學(xué)會(huì)委員及《自動(dòng)化學(xué)報(bào)》編委。目前主要的研究方向包括語音識(shí)別的魯棒性問題、口語理解、智能搜索、人機(jī)對(duì)話、口語的統(tǒng)計(jì)翻譯等。

  計(jì)算技術(shù)的發(fā)展為機(jī)器代替人從事翻譯工作、最終消除人類交流障礙打開了希望之門。這個(gè)思路可以追溯到1945年,當(dāng)時(shí)信息論的先驅(qū)Warren Weaver就認(rèn)為語言的翻譯過程可以抽象成編碼和解碼過程,這種思想其實(shí)就是機(jī)器翻譯的基石,并提出了機(jī)器翻譯的可計(jì)算性。不過要從理論上證明機(jī)器翻譯完全可計(jì)算并不是一件容易的事情,50年自動(dòng)翻譯的發(fā)展也表明,從實(shí)踐上證明其可計(jì)算性同樣非常困難。針對(duì)機(jī)器翻譯的現(xiàn)狀,有人挖苦地說:“MT,不是Machine Translation的縮寫,而是Mad Translation的縮寫。”這雖然有些極端,但真實(shí)地道出了實(shí)現(xiàn)自動(dòng)翻譯有多難。

領(lǐng)域限定更可行

  既然無領(lǐng)域限制的自動(dòng)翻譯是如此之難,那限定領(lǐng)域的自動(dòng)翻譯是否可行?20世紀(jì)80年代以來,自動(dòng)翻譯技術(shù)的一個(gè)分支就是著手把機(jī)器翻譯和語音識(shí)別、語音合成相結(jié)合,進(jìn)行直接的口語翻譯,這方面的研究首先起源于對(duì)語音識(shí)別技術(shù)的研究。2000年,在北京召開的口語信息處理國際會(huì)議(ICSLP2000)上,就把“新世紀(jì)跨語言的口語交流(Spoken Language Processing in Trans-language and Trans-modal Communications for the New Century)”作為大會(huì)的主題。

  計(jì)算機(jī)的口語信息處理不僅僅是人機(jī)交互的強(qiáng)大工具,也是使用不同語言的人群之間交流的強(qiáng)大工具。與書面語言翻譯相比,語音翻譯在限定場景下的口語交流上更具優(yōu)勢,例如機(jī)場、海關(guān)、旅館咨詢、購物、餐館對(duì)話、旅游觀光、娛樂、天氣預(yù)報(bào)、公共交通等場景中的交流。對(duì)其中的巨大市場需求,人們已達(dá)成共識(shí)。另一方面,語音翻譯比文本翻譯更加復(fù)雜和艱難,系統(tǒng)要面對(duì)從語音識(shí)別、機(jī)器翻譯到語音合成的所有難題。所以,語音翻譯對(duì)應(yīng)用領(lǐng)域進(jìn)行限制很自然,這意味著我們可以用一些針對(duì)性較強(qiáng)的翻譯方法來完成語音翻譯的目標(biāo),而不必過分追求系統(tǒng)的通用性。

  翻譯方法需綜合

  在有明確限定的領(lǐng)域中,語音識(shí)別技術(shù)一般能取得比較高的準(zhǔn)確率。只要收集的樣本能對(duì)限定領(lǐng)域的語言現(xiàn)象有比較好的覆蓋,翻譯方法特別是基于經(jīng)驗(yàn)主義的翻譯方法,就會(huì)非常適用。最典型的經(jīng)驗(yàn)主義方法是基于實(shí)例或模板的方法,其基本思想是研究語料庫中出現(xiàn)的句型,然后進(jìn)行通用化處理,并建立一個(gè)句型庫,在翻譯的時(shí)候,通過匹配庫中的模板就可以獲得可靠性較高的翻譯。

  另一種更加高級(jí)的模型是基于雙語語料的統(tǒng)計(jì)方法,這種方法從研究雙語語料句對(duì)之間的對(duì)位關(guān)系開始。下圖中的例句表示了在詞匯層和短語層的混合對(duì)位。

  從圖中可以看出,互譯句對(duì)之間存在著不同層次上的對(duì)應(yīng)關(guān)系,通過統(tǒng)計(jì)的方法,可算出中文和英文詞匯之間的翻譯概率,以及位置關(guān)系對(duì)翻譯概率的影響,最終可通過純數(shù)學(xué)的方法來實(shí)現(xiàn)翻譯過程。該方法目前在雙語的口語翻譯中逐步成為一種主流方法。在對(duì)德國的Verbmobil項(xiàng)目第二階段的完整評(píng)估中,一共測試了四種方法,分別是基于轉(zhuǎn)換的翻譯、基于對(duì)話意圖的翻譯、基于實(shí)例的翻譯和基于統(tǒng)計(jì)的翻譯。由于基于統(tǒng)計(jì)的翻譯對(duì)語音識(shí)別錯(cuò)誤具有較好的容錯(cuò)性,加上統(tǒng)計(jì)學(xué)的大量優(yōu)點(diǎn),使其翻譯錯(cuò)誤率還不到其他方法的一半。

  當(dāng)然統(tǒng)計(jì)方法也有缺點(diǎn),它缺少語言知識(shí)和結(jié)構(gòu)信息,因而需要與其他方法結(jié)合使用,例如與基于實(shí)例的翻譯方法相結(jié)合。這樣不僅可以考慮句子的整體結(jié)構(gòu),還可以利用語言語法結(jié)構(gòu)的統(tǒng)計(jì)信息。

  此外,找到適當(dāng)?shù)闹虚g語言一直是自動(dòng)翻譯的理想,但由于自然語言的復(fù)雜性,要找到既完備又具有很強(qiáng)表達(dá)能力的中間語言非常困難。不過,為了實(shí)現(xiàn)多國語言之間的互譯,中間語言是一個(gè)非常好的思路,那樣任何兩種語言之間的翻譯所需的工作量只與語種的數(shù)量成正比。在多語種互譯中類似于C-STAR Ⅲ IF的中間語言口語翻譯是一個(gè)非常重要的方向。

  發(fā)展前景美好而曲折

  目前國際上對(duì)口語翻譯比較有影響的研究計(jì)劃和組織主要有德國的Verbmobil開發(fā)計(jì)劃和國際口語翻譯先進(jìn)研究組織(C-STAR)。Verbmobil計(jì)劃是由德國BMBF出資,日本ATR International、美國Carnegie Mellon University、德國Deutsches Forschungszentrum für Künstliche Intelligenz等22所大學(xué)和7個(gè)公司參與,Siemens負(fù)責(zé)集成的一個(gè)語音翻譯系統(tǒng)研究計(jì)劃。

  1993~1996年,該計(jì)劃完成了第一階段原型系統(tǒng)的設(shè)計(jì),該系統(tǒng)又稱為Verbmobil Demonstrator,包括2500個(gè)單詞量的德英翻譯和400個(gè)單詞量的德日翻譯,主要應(yīng)用在商業(yè)會(huì)晤和日程安排領(lǐng)域。

  1997~2000年,該系統(tǒng)的單詞量增加到1萬個(gè),語種以德、英、日為主向多語種擴(kuò)展,應(yīng)用領(lǐng)域也擴(kuò)展為旅游日程安排、旅館預(yù)訂等多個(gè)領(lǐng)域。

  C-STAR的全稱是International consortium for Speech Translation Advanced Research,成立于1991年,發(fā)起者為日本ATR、美國CMU大學(xué)、Siemens等國際知名研究機(jī)構(gòu),最初稱為C-STAR I。這個(gè)國際組織以實(shí)現(xiàn)多語種的自由交談為目標(biāo),并于1993年進(jìn)行了世界上第一個(gè)語音翻譯系統(tǒng)的演示。其后,許多科技機(jī)構(gòu)相繼投入其中,并得到各國政府部門的支持,C-STAR也隨之發(fā)展壯大。到今天,已經(jīng)發(fā)展到了C-STAR Ⅲ,其中包括7個(gè)核心成員和20多個(gè)觀察成員。

  語音翻譯是一個(gè)很具挑戰(zhàn)性的人類科學(xué)工程,然而人類對(duì)挑戰(zhàn)的應(yīng)對(duì)也是充滿智慧的,過去10年不斷取得進(jìn)展的語音翻譯也證明了這一點(diǎn)。雖然我們很難為語音翻譯給出一個(gè)準(zhǔn)確的進(jìn)展時(shí)間表,但可以大膽地給出一個(gè)對(duì)未來展望的時(shí)間表:

   30年之后將會(huì)有無領(lǐng)域限制的翻譯系統(tǒng),屆時(shí)人類的全球交流基本沒有障礙。 北京成功申請(qǐng)到了2008年奧運(yùn)會(huì)的舉辦權(quán),這對(duì)語音翻譯的需求更加迫切。要實(shí)現(xiàn)奧申委提出的在整個(gè)奧運(yùn)期間“Any Time”、“Any Where”、“Any One”和“Any Device”提供智能化多語言信息服務(wù)的承諾,首先就要克服語言交流的瓶頸問題,我們相信語音翻譯技術(shù)在這方面將大有可為。

計(jì)算機(jī)世界報(bào) 2002/03/11



相關(guān)鏈接:
構(gòu)建更加人性化的交談式語音應(yīng)用 2002-03-11
語音合成——燦爛的前景 巨大的商機(jī) 2002-01-30
語音合成技術(shù)及國內(nèi)外發(fā)展現(xiàn)狀 2002-01-30
Evoice有聲電子郵件系統(tǒng) 2002-01-30
語音合成系統(tǒng)的關(guān)鍵技術(shù) 2002-01-30

分類信息:  語音合成TTS_與_語音識(shí)別ASR     技術(shù)_語音合成_文摘   技術(shù)_語音識(shí)別_文摘