Nuance OSR3.0語音識別產(chǎn)品
2006/09/13
2004年9月,捷通華聲在中國市場正式推出由Nuance公司開發(fā)的具有國際最高水平語音識別技術(shù)——OSR(OpenSpeech Recognizer
)。
之所以稱之為OSR,是因為此項語音識別技術(shù)是一種基于開放標準、可擴展、高性能和高識別率的識別引擎,提供大詞匯量、非特定人、連續(xù)的語音識別功能,尤其是在各種無線環(huán)境之中對于噪雜音的處理功能強大。最新版本的OSR產(chǎn)品是集成了OpenSpeech語音識別以前版本的多種高級功能,它所包括的有限狀態(tài)轉(zhuǎn)換器(Finite
State Transducer)專利技術(shù)不僅能夠顯著地節(jié)省內(nèi)存和CPU的使用,而且還能夠支持包含數(shù)百萬單詞的應用詞匯表。
OSR產(chǎn)品將以SDK的方式提供給集成商,可廣泛應用在呼叫中心、自動總機、語音電話本、旅行預定、信息檢索、語音門戶和客戶自助服務等系統(tǒng)中。在語音核心技術(shù)、語音應用和服務領域,Nuance的語音產(chǎn)品已占有最大的市場份額,所提供的解決方案成功的將每年約500百萬的電話服務轉(zhuǎn)化成自動化服務,并具有能與所有主要的語音平臺廠商集成應用以及能支持多語種的產(chǎn)品特色,使之成為財富100強首選的語音提供商。
一、OSR3.0主要特點
1、高識別率
語音識別產(chǎn)品的識別率與產(chǎn)品核心、呼叫者使用環(huán)境、呼叫人群口音、IVR平臺流程設計等都有密切的關(guān)系,OSR產(chǎn)品在雜音消除、改善核心算法、提高信心得分的準確度等方面進行了大量的工作,使OSR在實際應用中識別率均達到95%以上,對于小詞匯量的應用識別率則更高。
2、強大的語法分析功能
OSR產(chǎn)品支持百萬詞匯的復雜語法應用,利用SpeekFreely技術(shù)還可支持自然語言問答式的語法識別。利用OSR的先進語法處理能力,用戶可以利用ECMA腳本語言書寫更復雜的語法,可以創(chuàng)建動態(tài)的應用,并具支持共享語法,大幅度提高系統(tǒng)效率。
SpeakFreely功能模塊,能夠?qū)崿F(xiàn)一組基于口語統(tǒng)計模型的高級語音識別功能。SpeakFreely簡化了復雜語音應用的創(chuàng)建,允許用戶使用自己的詞匯說出自己的需要,從而提高了交互的效率(在傳統(tǒng)系統(tǒng)中,要求用戶回答一系列答案數(shù)量有限的提問)。
在一個單獨的應用程序中OSR可以動態(tài)訪問多個語法,而且不需要有“組標識符”。使用者可以用編譯前的語法(這些是每個呼叫者共有的)和實時編輯的每個呼叫者特有的語法結(jié)合,來建造應用程序。在呼叫者和應用之間的共享語法大幅度增加了系統(tǒng)效率。
這些模塊可以嵌入一個語法或在多個語法之間共享。也允許開發(fā)者去寫更多的復雜的語法。通過這個途徑,修改一個單獨的ECMAscript腳本模塊可以影響整個應用程序,不論這個腳本是否被使用。
3、獨特的語音端點檢測技術(shù)
OSR擁有一套獨特的端點檢測算法,可以依據(jù)振幅和頻譜特征來進行檢測,從而有效地區(qū)分背景噪音和通話者的語音。OSR端點檢測的“靈敏度”可以手動調(diào)整,以適應安靜或喧鬧的不同環(huán)境。
4、適應性強(E-learn自調(diào)節(jié)功能)
通過Nuance具有專利技術(shù)的自動調(diào)節(jié)機制“LEARN”學習功能,系統(tǒng)可以自動調(diào)節(jié)識別參數(shù)和聲學模型,以適應呼叫人群的本地方言、區(qū)域口音和電話信道等特點。通過“LEARN”自動調(diào)節(jié)機制,識別錯誤率最多可下降70%。
無需修改,OSR就可以在廣泛的應用中很好地工作,并適應廣泛的通話人群。但是,使用某種應用的人群經(jīng)常會偏向某個特定的通道類型(有線或者無線)、口音(上?谝艋蚝幽峡谝簦┗蛘攮h(huán)境(安靜的或者嘈雜的)。甚至應用領域本身都會偏向某種發(fā)音或者偏向某種習慣短語。OSR包括一種被稱作“LEARN”的管理工具,該工具可以分析通話者的發(fā)音特征,并用來優(yōu)化系統(tǒng),以提高識別率。
5、高性能、低資源消耗
獨特的音頻分析方法及具有專利的有限狀態(tài)轉(zhuǎn)換技術(shù),使OSR產(chǎn)品在實際應中,內(nèi)存占用和CPU的消耗極低。對于復雜的語法應用可以節(jié)約90%的資源。
OSR結(jié)合了多種技術(shù)以達到高性能,包括曾經(jīng)提到過的明確分段方法。它也包括享有專利的有限狀態(tài)轉(zhuǎn)換機(FST)技術(shù),該技術(shù)通過共享冗余段,簡潔地表現(xiàn)語法。通過減少那些必須經(jīng)過處理來判斷識別結(jié)果的音素的數(shù)量,可以除去冗余從而節(jié)省內(nèi)存和計算。它也可以使語法更快地編譯和加載,速度可以提高到5倍。這種節(jié)省是非常顯著的:一個消耗170兆字節(jié)的、包含40,000詞的語法,通過FST技術(shù)可以僅僅消耗15兆字節(jié)。
每個語音識別器通過應用更多的計算資源,可以提供更高的識別率。OSR與同類競爭識別器相比,對于這種變化的靈敏度要低一些,因為它有高效的設計。但是,OSR結(jié)合了負荷靈敏算法,這可以使所有的可用計算資源發(fā)揮地最好。事實上,Nuance是第一家開發(fā)這種技術(shù)的公司。
OSR可以自動地允許語音識別程序在所有的通道上共享被加載到內(nèi)存的一份語法。這對于許多通道上運行同樣應用的、大規(guī)模的使用而言,可以非常顯著地減少內(nèi)存使用。
6、支持開放標準
OSR產(chǎn)品是根據(jù)VoiceXML設計的,對SRGS(Speech Recognition Grammar Specification,語音識別語法規(guī)范)的支持等特點使VoiceXML
和 SALT 應用達到最優(yōu)狀態(tài)。
7、支持多種應用方式
- 單機應用(本地應用):用戶可以直接在運行IVR的機器上加載OSR;
- 客戶端/服務器(C/S結(jié)構(gòu)):用戶可以直接在服務器端加載OSR,客戶端通過網(wǎng)絡發(fā)送語音信號并獲取識別結(jié)果,這種方式主要用于實現(xiàn)大規(guī)模應用需要;
- VoIP:用戶也可以在一個基于VoIP的客戶端/服務器架構(gòu)中配置OSR,在這種情況下,客戶端是一個VoIP媒體網(wǎng)關(guān)或媒體服務器,服務器是MRCP版本的OpenSpeech服務器,它提供了帶有標準的VoIP協(xié)議接口的OSR。
8、支持多語言,包括多語言混合識別
OSR產(chǎn)品目前提供15種語言和方言,包括:普通話(中國大陸、臺灣)、粵語(香港地區(qū))、英語(澳大利亞、新西蘭、英國、美國、新加坡)、法語(法國、加拿大)、德語(德國)、日語(日本)、韓語(韓國)、西班牙語(美國、墨西哥)。
OSR產(chǎn)品的WorldAware功能支持多語種的混合識別,甚至允許單個語句中的任意語言混合,可以用于構(gòu)造更加復雜的語音解決方案。
9、支持多種操作系統(tǒng)
OSR可在下列操作系統(tǒng)下使用單機和客戶端/服務器配置:
客戶端操作系統(tǒng):RedHat 7.2、RedHat AS 2.1、Windows 2000、Windows 2003。
服務端操作系統(tǒng):RedHat 7.2、RedHat AS 2.1、Windows 2000、Windows 2003、Solaris。
二、硬件配置要求
三、應用案例
- 美國聯(lián)合航空(United Airlines):客戶通過致電1(800)824-6200,應用OSR語音識別技術(shù)可方便查詢聯(lián)合航空公司每天2400個航班的狀態(tài),每天有8萬多人使用這一系統(tǒng)。
- AOL電話服務:采用Nuance OSR等語音技術(shù),為America Online的2400萬客戶開發(fā)和部署了語音門戶服務。
- Thrifty汽車租賃:Thrifty租車公司是全球最大的的租車公司之一,通過撥打Thrifty的1-800-THRIFTY預訂電話號碼,客戶在應用OSR語音識別技術(shù)獲得高效服務的同時,也獲得最優(yōu)惠的汽車租用費率。
捷通華聲公司供稿 CTI論壇編輯
相關(guān)鏈接: