文本-可視語音轉(zhuǎn)換及其應(yīng)用
王志明 蔡蓮紅 2001/06/04
語音信號、視覺信號和文字是人類信息和知識的主要載體,也是人類進行學(xué)習(xí)和交流的重要工具。在電子和通信技術(shù)迅速發(fā)展的今天,多種媒體之間的交互作用越來越受到人們的重視,如語音合成(text-to-speech)與自動語音識別實現(xiàn)了文字和語音的互相轉(zhuǎn)換;自動機器唇讀、圖像輔助語音識別和音視頻聯(lián)合編碼則利用了語音和圖像之間的內(nèi)在聯(lián)系。
經(jīng)過數(shù)十年的發(fā)展,語音合成技術(shù)已經(jīng)走入實用階段,在信息咨詢、電話銀行、車站播報系統(tǒng)等各個方面有了廣泛的應(yīng)用。近年來出現(xiàn)了另一種多媒體研究熱潮,即把聲音和文字、圖像集成在一起,形成直接由文本到可視語音的轉(zhuǎn)換(text-to-visual speech,TTVS),使人們在聽計算機說話的同時能看到一個合成的人臉,使人機交互界面更為友好、和諧。
對視覺語音(visual speech)的研究正是這樣一種綜合考慮聲音和圖像的多媒體技術(shù)。視覺語音是指人們在用語言交流時所表達出的面部表情和動作,它能在一定程度上傳達人們想要表達的意思,并能幫助人們加深對語言的理解。研究表明,在環(huán)境噪聲較大或聽者有聽力障礙的情況下,如果在給出聲音信息的同時能給出一個“講話的頭”(talking head),即表現(xiàn)說話者面部表情和嘴部、眼部等變化情況,則會大大改善人們對聲音的理解。在人機交互的過程中,如果人們面對的不是單純的文本,而是一個會說話的人物形象,則使人覺得計算機界面更為友善,方便人們與計算機的交流。近幾年來,對視覺語音的研究越來越受到人們的重視,已成為多媒體和人機交互技術(shù)研究領(lǐng)域相當(dāng)活躍的研究方向。
TTVS的實現(xiàn)
對于TTVS,其實現(xiàn)方法可分為以下兩類:
基于參數(shù)控制的方法 首先對人臉建立一個網(wǎng)格模型,包括多個多邊形(一般是三角形)和頂點。由一組參數(shù)來控制每個頂點的運動,再通過圖像變形技術(shù)實現(xiàn)人臉上各個像素點的運動,來生成人們說話時的各種面部表情。該方法的優(yōu)點是需要的數(shù)據(jù)量小、控制靈活、可移植性強;缺點是合成的圖像往往帶有人工制作的痕跡,但對于這一點,各國研究者正在努力改善。
基于數(shù)據(jù)驅(qū)動的方法 類似于語音合成中的波形拼接合成法。通過對人們說話時可能出現(xiàn)的各種表情進行錄像,從中提取大量的原始數(shù)據(jù),建立圖像數(shù)據(jù)庫。在合成時從庫中選擇合適的圖像進行拼接,并進行一些消除圖像邊緣效應(yīng)和抖動的處理,生成動態(tài)的連續(xù)的說話者的面部表情。該方法的優(yōu)點是合成的人臉圖像質(zhì)量高,較為逼真、自然;缺點是在建立模型的訓(xùn)練階段需要大量的原始數(shù)據(jù),生成的數(shù)據(jù)庫需要保存大量的圖像數(shù)據(jù),且所有數(shù)據(jù)完全是針對某個特定人的,無法移植到其他人身上。
現(xiàn)在運行的系統(tǒng)中多為參數(shù)控制系統(tǒng),其中控制參數(shù)也多采用MPEG-4所定義的人臉動畫參數(shù)(facial animation parameter,FAP)。MPEG-4制定了一整套人臉模型化描述方法,包括用于定義人臉模型的面部定義參數(shù)(facial define parameters,FDP)和一組用于定義人臉面部動作的人臉動畫參數(shù)FAP。其中FDP通過對人臉上84個特征點的位置信息來定義人臉模型,這些點不僅包括外表看得見的人臉特征點,還包括了舌頭、牙齒等口腔內(nèi)器官的特征點,如圖1所示。
FAP一共有68個參數(shù),包括兩個高級參數(shù)和66個低級參數(shù)。高級參數(shù)是視位(viseme)和表情(expression),視位分為15個,分別表示人們發(fā)某一音位時的面部動作;表情分為高興、悲傷、憤怒、害怕、厭惡、驚奇六種。66個低級參數(shù)用來控制部分FDP特征點的運動,進而形成各種復(fù)雜的人臉動作。這些標(biāo)準的制定極大地推動了參數(shù)控制合成方法的發(fā)展,使這種方法在人機交互、計算機網(wǎng)絡(luò)交談、游戲動畫等方面得到更為廣泛的應(yīng)用,圖2 是參數(shù)控制的TTVS系統(tǒng)的基本框架。
圖1 MPEG所定義的FDP特征點
圖2 TTVS系統(tǒng)的基本框架
VSonic系統(tǒng)
目前,國內(nèi)外眾多研究機構(gòu)和公司均十分關(guān)注TTVS的研究,如MIT、AT&T、Microsoft、Motorola等。目前,清華大學(xué)計算機系已經(jīng)開發(fā)出了具有自主版權(quán)的漢語TTVS系統(tǒng)。
清華大學(xué)計算機系致力于人機語音交互的研究始于1979年。在20年的研究中,得到了國家自然科學(xué)基金、國家863計劃、國家重點攻關(guān)項目和軍事預(yù)研項目的資助,取得了一系列國內(nèi)外領(lǐng)先的研究成果,并多次獲獎。在語音合成方面,我們深入地研究了聲學(xué)模型、韻律模型、文本分析、韻律描述語言等語音合成中的關(guān)鍵技術(shù),并于1993年推出了漢語TTS軟件產(chǎn)品。1999年實現(xiàn)了基于數(shù)據(jù)驅(qū)動的漢語TTS系統(tǒng)Sonic,獲得了高自然度的語音輸出。
為了增強TTS系統(tǒng)界面的友善性,清華大學(xué)計算機系于2000年著手研究漢語語音的可視化,為其原有的Sonic系統(tǒng)配上發(fā)音人的頭像,形成了新的漢語文本-可視語音轉(zhuǎn)換系統(tǒng)VSonic,系統(tǒng)界面如圖3所示。
圖3 VSonic系統(tǒng)運行界面
在VSonic系統(tǒng)中,人臉模型是一個由三角形組成的二維網(wǎng)格人臉模型,整個模型共包括約220個點和350個三角形,如圖4所示。模型中的頂點涵蓋了由MPEG-4定義的主要FDP特征點,模型的驅(qū)動參數(shù)是標(biāo)準的FAP參數(shù)。人臉合成是以單一的真實人臉正面照片為基礎(chǔ),在FAP參數(shù)的控制下對人臉圖像進行變形處理(warping),首先求得FDP特征點的運動向量,再通過其余點與這些點的位置及拓撲關(guān)系求得模型中所有頂點的運動向量。根據(jù)頂點的運動向量和對三角形的平面近似,利用雙線性插值方法求得所有像素點的運動向量,從而使人臉“動”起來。對于口腔內(nèi)的圖像,我們采用固定的模型,具有真實的牙齒和口腔內(nèi)圖像紋理,并能根據(jù)開口度的大小和上下唇的突出度來調(diào)整亮度。
系統(tǒng)由語音合成部分提供時間同步信息,實現(xiàn)完全同步的語音和圖像播放。系統(tǒng)中語音的發(fā)音速度可調(diào),圖像以固定的幀速率播放,不受語音快慢的影響。當(dāng)語音速度加快時,每個音節(jié)的圖像幀數(shù)將減少;反之,當(dāng)語音速度放慢時每個音節(jié)的圖像幀數(shù)將增加。圖像的幀速率可根據(jù)系統(tǒng)性能來調(diào)節(jié),使系統(tǒng)在各種性能的機器上均能保持語音與圖像的同步。
圖4 人臉網(wǎng)格模式
除了能夠生成各種各樣的說話口形外,VSonic還能表現(xiàn)出眨眼等簡單的面部動作,以增強系統(tǒng)的自然性。系統(tǒng)的另一特點是其可移植性非常好,可以使人臉模型從一張人臉更換到另一張人臉。只要有一張正面人臉照片,借助系統(tǒng)提供的工具,經(jīng)過簡單的鼠標(biāo)操作即可在數(shù)分鐘內(nèi)實現(xiàn)系統(tǒng)中人臉模型的更換。
TTVS的應(yīng)用和展望
文本-可視語音轉(zhuǎn)換系統(tǒng)不僅提高了人機交互界面的友善性,豐富了人們的生活,還在許多領(lǐng)域中有著重要的實際意義。下面我們介紹幾種TTVS在實際生活中的應(yīng)用。
(1) 制作虛擬電視節(jié)目主持人
這是TTVS一個很好的應(yīng)用實例。虛擬電視節(jié)目主持人在許多國家已經(jīng)走上了屏幕,引起了廣大觀眾的極大興趣。圖5是英國報業(yè)聯(lián)合通訊社推出的第一個虛擬新聞播報員“阿娜諾娃”(Ananova)。
(2)增強語音的可懂性
實驗表明,在噪聲環(huán)境下,能看到說話者的人臉相當(dāng)于提高了8~12dB的語音信噪比。因此,在環(huán)境噪聲較大的情況下,如在工廠車間、高速運行的交通工具上或戰(zhàn)爭前線進行人機交互時,如果在機器給出語音的同時能給出一個合成的人臉,則能大大改善人們對語音的理解。另外,在聽話者有聽力障礙的情況下,也有類似的效果。
圖5 Ananova
(3)網(wǎng)上聊天
現(xiàn)在網(wǎng)上聊天主要是通過窗口中的文本進行交流,如果人們在網(wǎng)上聊天也可以像實際生活中聊天一樣,既可以聽到聲音,又可以看到說話者的人臉,將會大大增強使用者的興趣并方便交流。但現(xiàn)在網(wǎng)絡(luò)帶寬不能滿足實時傳輸聲音和圖像數(shù)據(jù)的需求,如果在用戶的計算機上安裝了TTVS系統(tǒng),則可以在網(wǎng)上只傳送文本信息,而在本地由TTVS合成語音和圖像,使用戶既聽到聲音又看到說話者的人臉。若在文本中再加入少量的標(biāo)注信息,還可以使人臉表現(xiàn)出各種各樣的表情。再進一步,如果在用戶的計算機上安裝上話筒和相應(yīng)的語音識別軟件,則用戶可以脫離鍵盤,就像日常生活中一樣,與對方面對面地聊天。
另外,在越來越廣泛的商業(yè)、娛樂人機交互的過程中,如新產(chǎn)品介紹、電子游戲等,如果人們面對的不是單純的文本或聲音,而是一個會說話的人物形象,則使人覺得更為親切,更容易接受,從而提高商業(yè)銷售額,給企業(yè)帶來巨大的經(jīng)濟利益。
總之,TTVS技術(shù)的出現(xiàn)是多媒體技術(shù)迅速發(fā)展的產(chǎn)物,也迎合了社會發(fā)展的需求。它給人們的生活增添了新的色彩,使計算機更人性化,人們與計算機的交流變得更為簡單。相信在不久的將來,它將會在眾多的技術(shù)、商業(yè)和娛樂領(lǐng)域得到廣泛的應(yīng)用,并逐步進入我們每個人的生活。
《計算機世界》 2001/06/04
統(tǒng)一消息平臺中的語音技術(shù) 2001-06-04 |
數(shù)據(jù)挖掘走入語音處理 2001-06-04 |
神經(jīng)網(wǎng)絡(luò)與漢語TTS韻律模型 2001-06-01 |
語音技術(shù)的拓展與展望 2001-06-01 |
語音門戶:讓網(wǎng)絡(luò)接入更便捷 2001-05-11 |