首頁 > 技術(shù) > 技術(shù)文摘 > 核心技術(shù)與流程設計語音門戶的兩扇門

核心技術(shù)與流程設計語音門戶的兩扇門

2002-01-30 00:00:00 作者：來源：評論：0 點擊：

語音識別是關(guān)鍵

　　語音識別技術(shù)是語音門戶的核心技術(shù)，掌握好這項技術(shù)，是語音門戶獲得成功的第一步。

　　1．識別引擎

　　語音識別引擎是語音門戶的核心。語音識別引擎不僅要聽懂用戶的語音，還要完成語言理解、語法分析、對話（包括人機對話和流程）控制和語音輸出等工作。識別引擎可以識別不同的語言，但需要不同的語音庫來支持。例如，在同一個引擎下，外掛中文或英文語音庫就可以識別中文或英文語音。

　　語音識別技術(shù)的成熟和商品化，依賴于軟件算法的進步，更依賴于硬件性能的提高。20世紀90年代末，計算機硬件性能的飛速提高和價格的急劇降低，使語音識別技術(shù)從實驗室走向了市場。

　　識別率是語音識別引擎成功與否的關(guān)鍵，為了在電信網(wǎng)絡上提高識別率，要有針對性地處理以下問題：

　�。�1）回聲：在電信系統(tǒng)中，語音傳輸過程中的回聲將極大地影響識別率。要將回聲抑制掉，必須在硬件和軟件上對信號進行處理。

　�。�2）噪聲：包括用戶環(huán)境噪聲和系統(tǒng)中的電子噪聲，前者需要語音識別引擎軟件來處理，后者一般由硬件處理。

　�。�3）語音中斷：用戶不必聽完系統(tǒng)播報，可以隨時說出新的服務需求，系統(tǒng)將中斷播報，并為用戶提供新的服務。目前，主流的語音卡都提供了語音中斷功能。為達到更好的效果，識別引擎還必須提供專門的接口，以保證兩者能夠更好地結(jié)合。

　　2．自然語言處理

　　只有提供自然語言識別功能，語音門戶的用戶才能享受到親切、快捷的服務。在一些復雜應用中（如查詢航班/火車時刻表，股票買賣等），采用自然語言對話，才能發(fā)揮出其替代按鍵的優(yōu)勢。除了識別引擎要具備自然語言理解能力外，在應用開發(fā)中也有大量的工作要做。

　　自然語音識別技術(shù)使計算機能夠聽懂和理解人的語言，用戶不必用固定的語序講話。系統(tǒng)能夠幫助用戶明確其需求，并提供準確的服務。系統(tǒng)應該能夠聽懂自然的語言，并到數(shù)據(jù)庫查詢出信息，再播報給用戶。對于一些不太規(guī)范的語句，系統(tǒng)同樣應該聽懂，并逐步引導用戶，以便向用戶提供服務，這才是真正的自然語言識別。目前，有一些承諾提供自然語言識別的系統(tǒng)，往往要求用戶一次說清全部需求，這不是真正的自然語言識別，在現(xiàn)實應用中，也是無法使用的。

　　3．TTS

　　TTS是語音門戶中的一個重要技術(shù)，它提供了系統(tǒng)向用戶輸出的語音界面。

　　與拼音文字不同，中文的“詞”由一個或多個漢字組合而成，如何斷詞并正確地發(fā)音，需要有一個非常大的、及時更新的詞庫來支持，還需要對上下文進行判斷。因此，中文TTS的開發(fā)難度要比英文大得多。

　　經(jīng)過長期研究，中文TTS取得了非常大的進步，也有了一些專門支持電信級應用的系統(tǒng)。在現(xiàn)有的技術(shù)水平下，TTS能夠滿足一般的閱讀要求。但讀時事新聞、電子郵件（尤其是包含許多縮略語和中外文混合的文本）和文學作品時，其效果還不能令人滿意。

　　要判斷TTS的水平，不要用開發(fā)商提供的樣本，也不要讓開發(fā)商代勞輸入漢字，建議用戶隨意摘錄網(wǎng)上的新聞，直接粘貼到TTS文本窗口中，然后直接進行測試。TTS是給普通用戶聽的，不是給專家聽的，其直觀的效果最重要。

流程是人性化服務的保證

　　流程設計是質(zhì)量控制的核心，即使語音識別的準確率再高，也不可能達到100%。因此，設計一個好的流程來幫助和引導用戶，并克服語音識別的新問題，是提高語音門戶服務質(zhì)量的核心。同時，一個好的流程，也是為運營商創(chuàng)造價值的基礎(chǔ)。

　　1．有別于IVR的流程

　　受電話按鍵的束縛，傳統(tǒng)的按鍵信息服務系統(tǒng)（IVR）必須把各種服務分成多層，或者開設多個電話號碼。

　�。�1）新的“層”概念

　　由于引入了自然語言識別技術(shù)，在語音門戶中，“層”被授予了新的內(nèi)容。它不是一個機械的分類標準，而是幫助用戶的導航界面。它將引導新用戶一步步接近目標，并幫助老用戶直接達到目標。語音門戶可以在原有結(jié)構(gòu)的技術(shù)上引入語音導航，也可以打破原有結(jié)構(gòu)，建立新的、更適用于語音導航的流程。

　　（2）實現(xiàn)任意跳轉(zhuǎn)

　　傳統(tǒng)的IVR系統(tǒng)中，如果用戶通過多次按鍵，進入了某項服務，就很難訪問另一個服務。這時，用戶要么必須根據(jù)系統(tǒng)提示，逐層返回、逐層進入；要么已經(jīng)在系統(tǒng)中迷路，無法進入其他路徑，只能掛斷電話，再次撥入。而語音導航能夠聽懂用戶的需求，可直接跳入另一欄目或服務，不必逐層返回和進入。

　　2．語言學處理

　　語言是“活”的，因此，語音門戶也必須能夠靈活地處理用戶需求。

　�。�1）多音詞和同義詞：系統(tǒng)必須能夠自動處理多音詞/字和同義詞，才能滿足不同的客戶需求，保證識別率和服務品質(zhì)。

　�。�2）無義詞：系統(tǒng)必須能夠自動過濾沒有意義的詞/字，減少對用戶的約束，提高人機對話的自然度。

　�。�3）口音適應：中國地域廣大，人口眾多，方言和口音十分復雜。因此，除為特定區(qū)域的用戶提供專用的語言引擎外，普通話引擎要適應帶有一定口音的用戶。系統(tǒng)集成商還需要根據(jù)使用情況對系統(tǒng)進行調(diào)整，建立自學系統(tǒng)，不斷提高系統(tǒng)的識別率。

　　3．人性化提示和錯誤處理

　�。�1）不同的提示和幫助：要根據(jù)不同的情景提供提示和幫助界面，如，有時需要嚴肅，有時需要活潑。

　�。�2）人性化引導：要提供人性化的提示和引導，才能發(fā)揮語音導航和服務的優(yōu)勢。

　�。�3）錯誤處理：在聽覺上，機器不如真實的人，不可能有100%的識別率。如何處理錯誤，讓用戶理解并愉快地接受，就需要制定錯誤處理原則并靈活地運用技巧�；镜南到y(tǒng)應該對用戶沒有講話、用戶講錯了話、系統(tǒng)只聽懂一部分等現(xiàn)象具有判斷能力。

語音門戶的弱點

　　語音門戶不是萬能的，它在一段時間內(nèi)沒有得到大面積的普及和推廣，是由于其自身尚存在著一些弱點，其中，主要是信息量有限的問題。

　　語音門戶主要提供語音服務，但聽覺能夠接收的信息量是有限的，遠遠小于視覺能夠提供的信息量。有些語音服務，如讀E-mail、語音上網(wǎng)等，僅僅是應急時的需要，不能替代傳統(tǒng)的電子郵件和瀏覽器。同時，并不是所有的信息發(fā)布和服務都適用于語音門戶，那些信息量大、更適合視覺瀏覽的信息就不適用于語音門戶。

相關(guān)熱詞搜索：

上一篇:中國用戶的CRM情結(jié)

下一篇:組播技術(shù)及應用系統(tǒng)的實現(xiàn)

相關(guān)閱讀：

分享到：