語音合成技術(shù)與電信應(yīng)用
易 龍 2001/06/05
隨著信息產(chǎn)業(yè)的快速發(fā)展,電信服務(wù)日趨豐富多彩,因特網(wǎng)應(yīng)用越來越人性化,以前主要應(yīng)用于計算機領(lǐng)域的語音合成技術(shù)最近與通信網(wǎng)絡(luò)的結(jié)合成為新的應(yīng)用熱點。最近,記者走訪了清華大學計算機系人機交互與多媒體集成研究所蔡蓮紅教授和陶建華博士!幷
語音識別和語音合成技術(shù)是實現(xiàn)人機語音通信及建立一個有聽和講能力的口語系統(tǒng)所必需的兩項關(guān)鍵技術(shù)。使電腦具有類似于人一樣的說話和聽懂人說話的能力,是20世紀90年代信息產(chǎn)業(yè)的重要競爭市場。和語音識別相比,語音合成技術(shù)相對說來要成熟一些,是該領(lǐng)域中近期最有希望產(chǎn)生突破并形成產(chǎn)業(yè)化的一項技術(shù)。
清華大學計算機系人機語音對話研究組成立于1979年。1992年研制成功漢語TTS(文字-語音轉(zhuǎn)換)系統(tǒng)Sonic。經(jīng)過多年的改進,Sonic系統(tǒng)目前可運行在DOS、Windows、Unix等操作系統(tǒng)下。清華大學研究了漢語的聲調(diào)、重音、語調(diào)的聲學特性,并設(shè)計了韻律控制符,進行了重音和語調(diào)的模擬。在韻律規(guī)則方面,采用統(tǒng)計和規(guī)則相結(jié)合的方法,研究了漢語韻律規(guī)則并進行了一定的韻律模擬工作。在韻律的學習算法方面,已經(jīng)針對神經(jīng)網(wǎng)絡(luò)模型中層次結(jié)構(gòu)和訓(xùn)練算法及其輸入、輸出參數(shù)的設(shè)計進行了一定的研究。未來,期望通過進一步研究TTS系統(tǒng)的韻律學習能力,優(yōu)化韻律規(guī)則,完善韻律描述,同時改變合成語音千篇一律、缺乏變化的現(xiàn)狀。
目前,網(wǎng)絡(luò)技術(shù)的飛速發(fā)展,使Internet服務(wù)項目日益增多,時效性提高。同時,電話已成為人與網(wǎng)絡(luò)交互信息的終端,如通過電話查詢股票行情,進行股票交易;通知或查詢即時到達的電子郵件;通過電話進行電子商務(wù)活動等。這些不但用到電話技術(shù),還必須與語音合成技術(shù)緊密配合。它們促進了電話網(wǎng)和數(shù)據(jù)網(wǎng)的融合,為人們提供了全新的服務(wù)。借助TTS技術(shù),可以把數(shù)據(jù)庫中的文字變成聲音,用戶利用電話收聽即時變化的信息,這樣就能通過電信網(wǎng)絡(luò)為用戶提供各種信息服務(wù)。用戶可以通過計算機或電話得到Internet的服務(wù)。當以電話方式獲得服務(wù)時,信息提供商應(yīng)能自適應(yīng)地傳送用戶所需信息,即將文字、圖表及有關(guān)信息轉(zhuǎn)換成聲音,傳送到用戶的電話上。在移動通信領(lǐng)域,用戶使用手機查看電子郵件十分不方便,而語音合成技術(shù)可以將電子郵件轉(zhuǎn)換成聲音,使用戶接收變得十分容易。TTS技術(shù)是實現(xiàn)這些服務(wù)的關(guān)鍵。
據(jù)了解,清華大學目前正在與炎黃新星公司合作開發(fā)電信領(lǐng)域的語音合成技術(shù)應(yīng)用,目前其在統(tǒng)一消息系統(tǒng)中采用了清華的TTS技術(shù),使用戶在任何位置都能收聽到自己的電子郵件。這一方案目前被應(yīng)用于中國移動夢網(wǎng),雙方還計劃將這一技術(shù)進一步推廣到更大的電信應(yīng)用領(lǐng)域。
摘自《人民郵電報 》
捷通語音技術(shù)又獲突破 2001-06-06 |
統(tǒng)一消息平臺中的語音技術(shù) 2001-06-04 |
文本-可視語音轉(zhuǎn)換及其應(yīng)用 2001-06-04 |
數(shù)據(jù)挖掘走入語音處理 2001-06-04 |
神經(jīng)網(wǎng)絡(luò)與漢語TTS韻律模型 2001-06-01 |