首頁(yè)>>>技術(shù)>>>語音應(yīng)用>>>語音合成(TTS)  語音合成產(chǎn)品

不僅是技術(shù)—語音門戶專題系列(一)

核心技術(shù)與流程設(shè)計(jì) 語音門戶的兩扇門

郭連頗 2002/01/30

語音識(shí)別是關(guān)鍵

  語音識(shí)別技術(shù)是語音門戶的核心技術(shù),掌握好這項(xiàng)技術(shù),是語音門戶獲得成功的第一步。

  1.識(shí)別引擎

  語音識(shí)別引擎是語音門戶的核心。語音識(shí)別引擎不僅要聽懂用戶的語音,還要完成語言理解、語法分析、對(duì)話(包括人機(jī)對(duì)話和流程)控制和語音輸出等工作。識(shí)別引擎可以識(shí)別不同的語言,但需要不同的語音庫(kù)來支持。例如,在同一個(gè)引擎下,外掛中文或英文語音庫(kù)就可以識(shí)別中文或英文語音。

  語音識(shí)別技術(shù)的成熟和商品化,依賴于軟件算法的進(jìn)步,更依賴于硬件性能的提高。20世紀(jì)90年代末,計(jì)算機(jī)硬件性能的飛速提高和價(jià)格的急劇降低,使語音識(shí)別技術(shù)從實(shí)驗(yàn)室走向了市場(chǎng)。

  識(shí)別率是語音識(shí)別引擎成功與否的關(guān)鍵,為了在電信網(wǎng)絡(luò)上提高識(shí)別率,要有針對(duì)性地處理以下問題:

 。1) 回聲:在電信系統(tǒng)中,語音傳輸過程中的回聲將極大地影響識(shí)別率。要將回聲抑制掉,必須在硬件和軟件上對(duì)信號(hào)進(jìn)行處理。

 。2) 噪聲:包括用戶環(huán)境噪聲和系統(tǒng)中的電子噪聲,前者需要語音識(shí)別引擎軟件來處理,后者一般由硬件處理。

 。3) 語音中斷:用戶不必聽完系統(tǒng)播報(bào),可以隨時(shí)說出新的服務(wù)需求,系統(tǒng)將中斷播報(bào),并為用戶提供新的服務(wù)。目前,主流的語音卡都提供了語音中斷功能。為達(dá)到更好的效果,識(shí)別引擎還必須提供專門的接口,以保證兩者能夠更好地結(jié)合。

  2.自然語言處理

  只有提供自然語言識(shí)別功能,語音門戶的用戶才能享受到親切、快捷的服務(wù)。在一些復(fù)雜應(yīng)用中(如查詢航班/火車時(shí)刻表,股票買賣等),采用自然語言對(duì)話,才能發(fā)揮出其替代按鍵的優(yōu)勢(shì)。除了識(shí)別引擎要具備自然語言理解能力外,在應(yīng)用開發(fā)中也有大量的工作要做。

  自然語音識(shí)別技術(shù)使計(jì)算機(jī)能夠聽懂和理解人的語言,用戶不必用固定的語序講話。系統(tǒng)能夠幫助用戶明確其需求,并提供準(zhǔn)確的服務(wù)。系統(tǒng)應(yīng)該能夠聽懂自然的語言,并到數(shù)據(jù)庫(kù)查詢出信息,再播報(bào)給用戶。對(duì)于一些不太規(guī)范的語句,系統(tǒng)同樣應(yīng)該聽懂,并逐步引導(dǎo)用戶,以便向用戶提供服務(wù),這才是真正的自然語言識(shí)別。目前,有一些承諾提供自然語言識(shí)別的系統(tǒng),往往要求用戶一次說清全部需求,這不是真正的自然語言識(shí)別,在現(xiàn)實(shí)應(yīng)用中,也是無法使用的。

  3.TTS

  TTS是語音門戶中的一個(gè)重要技術(shù),它提供了系統(tǒng)向用戶輸出的語音界面。

  與拼音文字不同,中文的“詞”由一個(gè)或多個(gè)漢字組合而成,如何斷詞并正確地發(fā)音,需要有一個(gè)非常大的、及時(shí)更新的詞庫(kù)來支持,還需要對(duì)上下文進(jìn)行判斷。因此,中文TTS的開發(fā)難度要比英文大得多。

  經(jīng)過長(zhǎng)期研究,中文TTS取得了非常大的進(jìn)步,也有了一些專門支持電信級(jí)應(yīng)用的系統(tǒng)。在現(xiàn)有的技術(shù)水平下,TTS能夠滿足一般的閱讀要求。但讀時(shí)事新聞、電子郵件(尤其是包含許多縮略語和中外文混合的文本)和文學(xué)作品時(shí),其效果還不能令人滿意。

  要判斷TTS的水平,不要用開發(fā)商提供的樣本,也不要讓開發(fā)商代勞輸入漢字,建議用戶隨意摘錄網(wǎng)上的新聞,直接粘貼到TTS文本窗口中,然后直接進(jìn)行測(cè)試。TTS是給普通用戶聽的,不是給專家聽的,其直觀的效果最重要。

流程是人性化服務(wù)的保證

  流程設(shè)計(jì)是質(zhì)量控制的核心,即使語音識(shí)別的準(zhǔn)確率再高,也不可能達(dá)到100%。因此,設(shè)計(jì)一個(gè)好的流程來幫助和引導(dǎo)用戶,并克服語音識(shí)別的新問題,是提高語音門戶服務(wù)質(zhì)量的核心。同時(shí),一個(gè)好的流程,也是為運(yùn)營(yíng)商創(chuàng)造價(jià)值的基礎(chǔ)。

  1.有別于IVR的流程

  受電話按鍵的束縛,傳統(tǒng)的按鍵信息服務(wù)系統(tǒng)(IVR)必須把各種服務(wù)分成多層,或者開設(shè)多個(gè)電話號(hào)碼。

 。1)新的“層”概念

  由于引入了自然語言識(shí)別技術(shù),在語音門戶中,“層”被授予了新的內(nèi)容。它不是一個(gè)機(jī)械的分類標(biāo)準(zhǔn),而是幫助用戶的導(dǎo)航界面。它將引導(dǎo)新用戶一步步接近目標(biāo),并幫助老用戶直接達(dá)到目標(biāo)。語音門戶可以在原有結(jié)構(gòu)的技術(shù)上引入語音導(dǎo)航,也可以打破原有結(jié)構(gòu),建立新的、更適用于語音導(dǎo)航的流程。

 。2)實(shí)現(xiàn)任意跳轉(zhuǎn)

  傳統(tǒng)的IVR系統(tǒng)中,如果用戶通過多次按鍵,進(jìn)入了某項(xiàng)服務(wù),就很難訪問另一個(gè)服務(wù)。這時(shí),用戶要么必須根據(jù)系統(tǒng)提示,逐層返回、逐層進(jìn)入;要么已經(jīng)在系統(tǒng)中迷路,無法進(jìn)入其他路徑,只能掛斷電話,再次撥入。而語音導(dǎo)航能夠聽懂用戶的需求,可直接跳入另一欄目或服務(wù),不必逐層返回和進(jìn)入。

  2.語言學(xué)處理

  語言是“活”的,因此,語音門戶也必須能夠靈活地處理用戶需求。

  (1)多音詞和同義詞:系統(tǒng)必須能夠自動(dòng)處理多音詞/字和同義詞,才能滿足不同的客戶需求,保證識(shí)別率和服務(wù)品質(zhì)。

  (2)無義詞:系統(tǒng)必須能夠自動(dòng)過濾沒有意義的詞/字,減少對(duì)用戶的約束,提高人機(jī)對(duì)話的自然度。

  (3)口音適應(yīng):中國(guó)地域廣大,人口眾多,方言和口音十分復(fù)雜。因此,除為特定區(qū)域的用戶提供專用的語言引擎外,普通話引擎要適應(yīng)帶有一定口音的用戶。系統(tǒng)集成商還需要根據(jù)使用情況對(duì)系統(tǒng)進(jìn)行調(diào)整,建立自學(xué)系統(tǒng),不斷提高系統(tǒng)的識(shí)別率。

  3.人性化提示和錯(cuò)誤處理

 。1)不同的提示和幫助:要根據(jù)不同的情景提供提示和幫助界面,如,有時(shí)需要嚴(yán)肅,有時(shí)需要活潑。

 。2)人性化引導(dǎo):要提供人性化的提示和引導(dǎo),才能發(fā)揮語音導(dǎo)航和服務(wù)的優(yōu)勢(shì)。

 。3)錯(cuò)誤處理:在聽覺上,機(jī)器不如真實(shí)的人,不可能有100%的識(shí)別率。如何處理錯(cuò)誤,讓用戶理解并愉快地接受,就需要制定錯(cuò)誤處理原則并靈活地運(yùn)用技巧。基本的系統(tǒng)應(yīng)該對(duì)用戶沒有講話、用戶講錯(cuò)了話、系統(tǒng)只聽懂一部分等現(xiàn)象具有判斷能力。

語音門戶的弱點(diǎn)

  語音門戶不是萬能的,它在一段時(shí)間內(nèi)沒有得到大面積的普及和推廣,是由于其自身尚存在著一些弱點(diǎn),其中,主要是信息量有限的問題。

  語音門戶主要提供語音服務(wù),但聽覺能夠接收的信息量是有限的,遠(yuǎn)遠(yuǎn)小于視覺能夠提供的信息量。有些語音服務(wù),如讀E-mail、語音上網(wǎng)等,僅僅是應(yīng)急時(shí)的需要,不能替代傳統(tǒng)的電子郵件和瀏覽器。同時(shí),并不是所有的信息發(fā)布和服務(wù)都適用于語音門戶,那些信息量大、更適合視覺瀏覽的信息就不適用于語音門戶。

計(jì)算機(jī)世界報(bào) 2002/01/30



相關(guān)鏈接:
語音合成——燦爛的前景 巨大的商機(jī) 2002-01-30
語音合成技術(shù)及國(guó)內(nèi)外發(fā)展現(xiàn)狀 2002-01-30
Evoice有聲電子郵件系統(tǒng) 2002-01-30
語音合成系統(tǒng)的關(guān)鍵技術(shù) 2002-01-30
語音合成技術(shù)應(yīng)用實(shí)例 2002-01-30

分類信息:  語音合成TTS_與_語音識(shí)別ASR     技術(shù)_語音合成_文摘   技術(shù)_語音識(shí)別_文摘