Nuance OSR3.0語音識別產(chǎn)品
2006/09/13
2004年9月,捷通華聲在中國市場正式推出由Nuance公司開發(fā)的具有國際最高水平語音識別技術(shù)——OSR(OpenSpeech Recognizer
)。
之所以稱之為OSR,是因?yàn)榇隧?xiàng)語音識別技術(shù)是一種基于開放標(biāo)準(zhǔn)、可擴(kuò)展、高性能和高識別率的識別引擎,提供大詞匯量、非特定人、連續(xù)的語音識別功能,尤其是在各種無線環(huán)境之中對于噪雜音的處理功能強(qiáng)大。最新版本的OSR產(chǎn)品是集成了OpenSpeech語音識別以前版本的多種高級功能,它所包括的有限狀態(tài)轉(zhuǎn)換器(Finite
State Transducer)專利技術(shù)不僅能夠顯著地節(jié)省內(nèi)存和CPU的使用,而且還能夠支持包含數(shù)百萬單詞的應(yīng)用詞匯表。
OSR產(chǎn)品將以SDK的方式提供給集成商,可廣泛應(yīng)用在呼叫中心、自動總機(jī)、語音電話本、旅行預(yù)定、信息檢索、語音門戶和客戶自助服務(wù)等系統(tǒng)中。在語音核心技術(shù)、語音應(yīng)用和服務(wù)領(lǐng)域,Nuance的語音產(chǎn)品已占有最大的市場份額,所提供的解決方案成功的將每年約500百萬的電話服務(wù)轉(zhuǎn)化成自動化服務(wù),并具有能與所有主要的語音平臺廠商集成應(yīng)用以及能支持多語種的產(chǎn)品特色,使之成為財(cái)富100強(qiáng)首選的語音提供商。
一、OSR3.0主要特點(diǎn)
1、高識別率
語音識別產(chǎn)品的識別率與產(chǎn)品核心、呼叫者使用環(huán)境、呼叫人群口音、IVR平臺流程設(shè)計(jì)等都有密切的關(guān)系,OSR產(chǎn)品在雜音消除、改善核心算法、提高信心得分的準(zhǔn)確度等方面進(jìn)行了大量的工作,使OSR在實(shí)際應(yīng)用中識別率均達(dá)到95%以上,對于小詞匯量的應(yīng)用識別率則更高。
2、強(qiáng)大的語法分析功能
OSR產(chǎn)品支持百萬詞匯的復(fù)雜語法應(yīng)用,利用SpeekFreely技術(shù)還可支持自然語言問答式的語法識別。利用OSR的先進(jìn)語法處理能力,用戶可以利用ECMA腳本語言書寫更復(fù)雜的語法,可以創(chuàng)建動態(tài)的應(yīng)用,并具支持共享語法,大幅度提高系統(tǒng)效率。
SpeakFreely功能模塊,能夠?qū)崿F(xiàn)一組基于口語統(tǒng)計(jì)模型的高級語音識別功能。SpeakFreely簡化了復(fù)雜語音應(yīng)用的創(chuàng)建,允許用戶使用自己的詞匯說出自己的需要,從而提高了交互的效率(在傳統(tǒng)系統(tǒng)中,要求用戶回答一系列答案數(shù)量有限的提問)。
在一個(gè)單獨(dú)的應(yīng)用程序中OSR可以動態(tài)訪問多個(gè)語法,而且不需要有“組標(biāo)識符”。使用者可以用編譯前的語法(這些是每個(gè)呼叫者共有的)和實(shí)時(shí)編輯的每個(gè)呼叫者特有的語法結(jié)合,來建造應(yīng)用程序。在呼叫者和應(yīng)用之間的共享語法大幅度增加了系統(tǒng)效率。
這些模塊可以嵌入一個(gè)語法或在多個(gè)語法之間共享。也允許開發(fā)者去寫更多的復(fù)雜的語法。通過這個(gè)途徑,修改一個(gè)單獨(dú)的ECMAscript腳本模塊可以影響整個(gè)應(yīng)用程序,不論這個(gè)腳本是否被使用。
3、獨(dú)特的語音端點(diǎn)檢測技術(shù)
OSR擁有一套獨(dú)特的端點(diǎn)檢測算法,可以依據(jù)振幅和頻譜特征來進(jìn)行檢測,從而有效地區(qū)分背景噪音和通話者的語音。OSR端點(diǎn)檢測的“靈敏度”可以手動調(diào)整,以適應(yīng)安靜或喧鬧的不同環(huán)境。
4、適應(yīng)性強(qiáng)(E-learn自調(diào)節(jié)功能)
通過Nuance具有專利技術(shù)的自動調(diào)節(jié)機(jī)制“LEARN”學(xué)習(xí)功能,系統(tǒng)可以自動調(diào)節(jié)識別參數(shù)和聲學(xué)模型,以適應(yīng)呼叫人群的本地方言、區(qū)域口音和電話信道等特點(diǎn)。通過“LEARN”自動調(diào)節(jié)機(jī)制,識別錯(cuò)誤率最多可下降70%。
無需修改,OSR就可以在廣泛的應(yīng)用中很好地工作,并適應(yīng)廣泛的通話人群。但是,使用某種應(yīng)用的人群經(jīng)常會偏向某個(gè)特定的通道類型(有線或者無線)、口音(上?谝艋蚝幽峡谝簦┗蛘攮h(huán)境(安靜的或者嘈雜的)。甚至應(yīng)用領(lǐng)域本身都會偏向某種發(fā)音或者偏向某種習(xí)慣短語。OSR包括一種被稱作“LEARN”的管理工具,該工具可以分析通話者的發(fā)音特征,并用來優(yōu)化系統(tǒng),以提高識別率。
5、高性能、低資源消耗
獨(dú)特的音頻分析方法及具有專利的有限狀態(tài)轉(zhuǎn)換技術(shù),使OSR產(chǎn)品在實(shí)際應(yīng)中,內(nèi)存占用和CPU的消耗極低。對于復(fù)雜的語法應(yīng)用可以節(jié)約90%的資源。
OSR結(jié)合了多種技術(shù)以達(dá)到高性能,包括曾經(jīng)提到過的明確分段方法。它也包括享有專利的有限狀態(tài)轉(zhuǎn)換機(jī)(FST)技術(shù),該技術(shù)通過共享冗余段,簡潔地表現(xiàn)語法。通過減少那些必須經(jīng)過處理來判斷識別結(jié)果的音素的數(shù)量,可以除去冗余從而節(jié)省內(nèi)存和計(jì)算。它也可以使語法更快地編譯和加載,速度可以提高到5倍。這種節(jié)省是非常顯著的:一個(gè)消耗170兆字節(jié)的、包含40,000詞的語法,通過FST技術(shù)可以僅僅消耗15兆字節(jié)。
每個(gè)語音識別器通過應(yīng)用更多的計(jì)算資源,可以提供更高的識別率。OSR與同類競爭識別器相比,對于這種變化的靈敏度要低一些,因?yàn)樗懈咝У脑O(shè)計(jì)。但是,OSR結(jié)合了負(fù)荷靈敏算法,這可以使所有的可用計(jì)算資源發(fā)揮地最好。事實(shí)上,Nuance是第一家開發(fā)這種技術(shù)的公司。
OSR可以自動地允許語音識別程序在所有的通道上共享被加載到內(nèi)存的一份語法。這對于許多通道上運(yùn)行同樣應(yīng)用的、大規(guī)模的使用而言,可以非常顯著地減少內(nèi)存使用。
6、支持開放標(biāo)準(zhǔn)
OSR產(chǎn)品是根據(jù)VoiceXML設(shè)計(jì)的,對SRGS(Speech Recognition Grammar Specification,語音識別語法規(guī)范)的支持等特點(diǎn)使VoiceXML
和 SALT 應(yīng)用達(dá)到最優(yōu)狀態(tài)。
7、支持多種應(yīng)用方式
- 單機(jī)應(yīng)用(本地應(yīng)用):用戶可以直接在運(yùn)行IVR的機(jī)器上加載OSR;
- 客戶端/服務(wù)器(C/S結(jié)構(gòu)):用戶可以直接在服務(wù)器端加載OSR,客戶端通過網(wǎng)絡(luò)發(fā)送語音信號并獲取識別結(jié)果,這種方式主要用于實(shí)現(xiàn)大規(guī)模應(yīng)用需要;
- VoIP:用戶也可以在一個(gè)基于VoIP的客戶端/服務(wù)器架構(gòu)中配置OSR,在這種情況下,客戶端是一個(gè)VoIP媒體網(wǎng)關(guān)或媒體服務(wù)器,服務(wù)器是MRCP版本的OpenSpeech服務(wù)器,它提供了帶有標(biāo)準(zhǔn)的VoIP協(xié)議接口的OSR。
8、支持多語言,包括多語言混合識別
OSR產(chǎn)品目前提供15種語言和方言,包括:普通話(中國大陸、臺灣)、粵語(香港地區(qū))、英語(澳大利亞、新西蘭、英國、美國、新加坡)、法語(法國、加拿大)、德語(德國)、日語(日本)、韓語(韓國)、西班牙語(美國、墨西哥)。
OSR產(chǎn)品的WorldAware功能支持多語種的混合識別,甚至允許單個(gè)語句中的任意語言混合,可以用于構(gòu)造更加復(fù)雜的語音解決方案。
9、支持多種操作系統(tǒng)
OSR可在下列操作系統(tǒng)下使用單機(jī)和客戶端/服務(wù)器配置:
客戶端操作系統(tǒng):RedHat 7.2、RedHat AS 2.1、Windows 2000、Windows 2003。
服務(wù)端操作系統(tǒng):RedHat 7.2、RedHat AS 2.1、Windows 2000、Windows 2003、Solaris。
二、硬件配置要求
三、應(yīng)用案例
- 美國聯(lián)合航空(United Airlines):客戶通過致電1(800)824-6200,應(yīng)用OSR語音識別技術(shù)可方便查詢聯(lián)合航空公司每天2400個(gè)航班的狀態(tài),每天有8萬多人使用這一系統(tǒng)。
- AOL電話服務(wù):采用Nuance OSR等語音技術(shù),為America Online的2400萬客戶開發(fā)和部署了語音門戶服務(wù)。
- Thrifty汽車租賃:Thrifty租車公司是全球最大的的租車公司之一,通過撥打Thrifty的1-800-THRIFTY預(yù)訂電話號碼,客戶在應(yīng)用OSR語音識別技術(shù)獲得高效服務(wù)的同時(shí),也獲得最優(yōu)惠的汽車租用費(fèi)率。
捷通華聲公司供稿 CTI論壇編輯
相關(guān)鏈接: