科大訊飛電話語音識別InterReco
2.0——應(yīng)用開發(fā)及工具包
2008/08/18
為了方便語音識別系統(tǒng)的開發(fā),InterReco2. 0提供了一系列的開發(fā)接口和應(yīng)用工具,從而使得應(yīng)用系統(tǒng)的開發(fā)更加高效,主要包含如下:
一、應(yīng)用開發(fā)接口
語音識別接口是InterReco提供的最重要的對外接口,是應(yīng)用開發(fā)人員使用識別引擎進(jìn)行語音識別開發(fā)所必需使用的接口。這個接口提供強(qiáng)大的功能,能夠發(fā)揮InterReco語音識別系統(tǒng)的優(yōu)勢,通過不同的并發(fā)編程模型簡化編程復(fù)雜度,優(yōu)化系統(tǒng)性能表現(xiàn)。
語法編譯管理接口提供API形式的語法編譯和管理的方法,主要用來解決動態(tài)語法的編譯、加載、激活的過程。用戶根據(jù)需要使用這些接口可以對自己的應(yīng)用程序做出恰當(dāng)?shù)膬?yōu)化,提高應(yīng)用系統(tǒng)靈活性。語法管理接口允許用戶管理和設(shè)置語法緩沖的策略。
端點(diǎn)檢測是語音識別一個重要的輸入環(huán)節(jié),該接口允許用戶通過編程對端點(diǎn)檢測的處理策略,和語音識別引擎進(jìn)行交互。
該接口提供一套能夠使用戶把電話語音輸入設(shè)備掛接到InterReco語音識別引擎的方法,包含各種品牌的電話語音卡和麥克風(fēng)。通過這個接口,能夠消除輸入設(shè)備的多樣化帶來的集成復(fù)雜度,使得產(chǎn)品在音頻輸入方面具備優(yōu)秀的可擴(kuò)展性。
該接口提供管理維護(hù)接口、日志接口、以及其他一些輔助接口。
二、應(yīng)用優(yōu)化方法
分析和優(yōu)化在語音識別的開發(fā)、應(yīng)用過程中扮演非常重要的角色,好的分析和優(yōu)化工具往往能夠決定語音識別的應(yīng)用是否能夠成功。InterReco
2.0中提供的主要分析優(yōu)化方法有:
通過Call-Log紀(jì)錄,使用分析工具分析統(tǒng)計,得出當(dāng)前應(yīng)用的總體識別率、語法內(nèi)識別率等重要技術(shù)指標(biāo)。這些指標(biāo)能夠反映出當(dāng)前語音應(yīng)用的總體識別效果,同時也能夠分析應(yīng)用中存在的問題。
通過識別效果的分析,對識別的語音界面、識別語法、識別模型、系統(tǒng)參數(shù)進(jìn)行優(yōu)化,以達(dá)到提高用戶滿意度,提升識別效果的目的。
分為無監(jiān)督和有監(jiān)督的自適應(yīng),識別系統(tǒng)在運(yùn)行過程中會以一定的間隔對當(dāng)前的應(yīng)用場景進(jìn)行一次無監(jiān)督的聲學(xué)模型自適應(yīng),這種適應(yīng)的內(nèi)容包括:說話人特征自適應(yīng),包含口音和方言;通道特征自適應(yīng),包含無線通道、VoIP編解碼通道;應(yīng)用特征,包含詞匯、環(huán)境噪聲等。
三、工具包
InterReco提供了豐富的開發(fā)調(diào)試工具,能夠在集成開發(fā)的過程中為用戶提供全面有效的支持。主要包含:
識別演示程序是一個基于對話框風(fēng)格的Windows GUI界面,其主要功能是在Windows環(huán)境下,為用戶提供一個簡便、友好的方式,使得用戶能夠使用麥克風(fēng)完成基本識別功能,或者使用離線識別功能,也可以設(shè)置一些系統(tǒng)參數(shù)驗證其效果。
用戶來可以直接用文本而不是實(shí)際語音對于自己編寫的語法進(jìn)行分析和調(diào)試。主要功能有:輸出語法的所有定義范圍、測試一個說法是否滿足語法要求。
管理語法緩存工具,可以使用該工具查看當(dāng)前InterReco系統(tǒng)語法緩存的詳細(xì)情況,還可以使用該工具手工刪除指定的語法緩存條目,該工具還提供了預(yù)先編譯語法文件的功能。
用戶自定義詞典工具。通過該工具,可以對輸入詞條列表生成發(fā)音,并保存為用戶自定義詞典。
這些開發(fā)接口和工具包可以幫助合作伙伴更快速的將語音識別產(chǎn)品集成到各中應(yīng)用系統(tǒng)中,并作為合作伙伴在語音識別業(yè)務(wù)設(shè)計、調(diào)試和效果優(yōu)化等各階段的技術(shù)助手,幫助合作伙伴更快速的開發(fā)成功的語音識別應(yīng)用系統(tǒng)。
CTI論壇編輯
相關(guān)鏈接: