首頁(yè)>>>技術(shù)>>>語音應(yīng)用>>>語音識(shí)別(ASR)  語音識(shí)別產(chǎn)品



華鎮(zhèn)電子嵌入式語音識(shí)別系統(tǒng)Wanson ASR Chip1.0

2008/02/27

1、Wanson ASR Chip1.0 概述

  Wanson ASR Chip1.0 是專門為微小芯片上而開發(fā)的嵌入式語音識(shí)別引擎。 隨著語音識(shí)別系統(tǒng)的識(shí)別準(zhǔn)確率和識(shí)別速度的提高以及在特定環(huán)境下對(duì)硬件條件的要求越來越低,將基于微小芯片的語音識(shí)別技術(shù)嵌入消費(fèi)類電子產(chǎn)品中越來越成為現(xiàn)實(shí)。隨著消費(fèi)類電子產(chǎn)品性能變得越來越混雜功能越來越強(qiáng)勁,語音識(shí) 別科技就可以使消費(fèi)者可以更方便、更直觀地使用這些產(chǎn)品。并且,在使用這些 產(chǎn)品的時(shí)候不會(huì)伴隨著一系列的按鍵和提示音,而是實(shí)現(xiàn)消費(fèi)者和產(chǎn)品間的直接對(duì)話。嵌入式語音識(shí)別在消費(fèi)類電子產(chǎn)品市場(chǎng)應(yīng)用上大約分成三類:手提設(shè)備,游戲/ 玩具以及汽車。手提設(shè)備中,智能電話Smartphone的發(fā)展驅(qū)動(dòng)著這類市場(chǎng)的蓬 勃興起。在Smartphone中,語音撥號(hào)已經(jīng)成為一個(gè)普遍功能,幾乎每一家手機(jī) 芯片供應(yīng)商都想要提供內(nèi)嵌語音撥號(hào)功能的手機(jī)。但是直到最近,這些嵌入式語 音識(shí)別都只能限于話者相關(guān),小詞匯量的。

  我們已經(jīng)開發(fā)出能安裝在智能手機(jī)Smartphone上的連續(xù)語音及短語語音識(shí)別軟 件,可以為用戶提供語音撥號(hào)和聲音命令控制等功能。同時(shí),我們正在開發(fā)基于 更小封裝、微小芯片上的話者獨(dú)立,可變?cè)~匯量的語音識(shí)別軟件。這些軟件可以 作用在智能手機(jī)Smartphone,CDMA/2.5G/3.5G 芯片,智能玩具以及汽車的導(dǎo)航 系統(tǒng)上。我們開發(fā)的嵌入式語音識(shí)別軟件使用了改進(jìn)的Hidden Markov Model(HMM)聲學(xué)模型,同時(shí)基于移動(dòng)設(shè)備上的有限CPU 資源和存儲(chǔ)空間,我們開發(fā)出 了快速的語音參數(shù)提取方法和高效識(shí)別搜索算法。該語音識(shí)別軟件兼顧到識(shí)別速 度和識(shí)別準(zhǔn)確率的平衡,能運(yùn)用于一系列從語音命令控制,語音人名撥號(hào)到語音 翻譯,語言學(xué)習(xí)的實(shí)際應(yīng)用中。 將嵌入式語音識(shí)別軟件應(yīng)用到消費(fèi)類電子產(chǎn)品中并投入市場(chǎng)有兩個(gè)主導(dǎo)因素:花 費(fèi)成本和投入市場(chǎng)的時(shí)間。我們所開發(fā)的語音識(shí)別軟件(基于Smartphone 的以 及基于微小芯片上的)提供了優(yōu)異的性能,跟多家芯片和手機(jī)制造商接口的標(biāo)準(zhǔn) 界面以及一系列開發(fā)工具兼容,使得我們的OEM 伙伴能快速地推出他們的新產(chǎn)品。

2.Wanson ASR Chip1.0 系統(tǒng)描述

  2.1 系統(tǒng)框圖及概述

  Wanson ASR Chip1.0 是一套功能強(qiáng)大,具有全部開發(fā)工具的語音識(shí)別系統(tǒng),使 開發(fā)者可以方便而快速地開發(fā)出一系列不同的應(yīng)用。Wanson ASR Chip1.0 提供 的特性包括有:

  上圖示為Wanson ASR Chip1.0 的系統(tǒng)框圖。如圖所示,由系統(tǒng)所構(gòu)筑的語音識(shí) 別應(yīng)用程序和四部分相結(jié)合。對(duì)語音識(shí)別而言,將接收到的語音文件包通過錄音 接口傳給語音識(shí)別引擎。該引擎在執(zhí)行語音識(shí)別任務(wù)時(shí),根據(jù)系統(tǒng)指令從資源文 件中調(diào)用所需要的語言模型,聲學(xué)模型,字典等資源。當(dāng)語音識(shí)別任務(wù)完成后, 系統(tǒng)將識(shí)別出來的結(jié)果放在系統(tǒng)隊(duì)列中,供下級(jí)設(shè)備讀取。

  2.2 應(yīng)用程序開發(fā)

  開發(fā)具有嵌入式語音識(shí)別功能的應(yīng)用程序大約需要以下的步驟: 3.硬件環(huán)境

  Wanson ASR Chip1.0 是模塊式的系統(tǒng)體系,單處理器處理所有模塊程序的運(yùn)行。 下圖示出系統(tǒng)在運(yùn)行時(shí)主要硬件元素的工作流程。
  前端模塊

  前端模塊主要包括語音信號(hào)處理和參數(shù)提取,將原始的語音文件轉(zhuǎn)換成語音識(shí)別需要的語音參數(shù)序列。在某些特定的情況下,前端模塊還需要進(jìn)行噪聲處理和聲 道歸一化處理以提高系統(tǒng)的魯棒性(Robust ability)。前端語音信號(hào)處理和參數(shù) 提取需要大量的數(shù)值計(jì)算,CPU 的運(yùn)算能力以及RAM 的速度會(huì)對(duì)響應(yīng)速度有很大影響。

  后端模塊

  后端模塊是語音識(shí)別的核心部分,完成從語音到文本的轉(zhuǎn)換。該部分包括:語法生成、調(diào)入聲學(xué)和語言模型以及發(fā)音字典、路徑搜索等。該部分需要大量的概率和數(shù)值計(jì)算,并且需要多次訪問和調(diào)用聲學(xué)模型和發(fā)音字典等資源文件。一般情 況下,聲學(xué)模型和字典等資源將預(yù)先調(diào)入ROM 和閃存(Flash Memory)。 影響語音識(shí)別響應(yīng)速度的因素主要有:CPU 性能,Memory 的存取速度以及CPU 是否過載等等。對(duì)于CPU 的運(yùn)算能力,一般而言,在不同的系統(tǒng)配置下,需要 做到實(shí)時(shí)識(shí)別并且不影響其他任務(wù)執(zhí)行所需要的最低配置為6MIPS (取決于識(shí) 別詞匯量大小和硬件配置等)。

  語音合成

  語音合成部分完成從文本到音的轉(zhuǎn)換,主要是將語音識(shí)別輸出的文本轉(zhuǎn)換成語音播報(bào)給用戶。在某些特定的情況下,例如在開車的時(shí)候,用戶可以方便的聽到識(shí)別結(jié)果而不需要去看。

  RAM和ROM需求

  對(duì)于嵌入式的語音識(shí)別系統(tǒng),RAM 和ROM 的大小需求是由應(yīng)用系統(tǒng)的功能設(shè) 計(jì)所決定的。同時(shí),不同的RAM 和ROM 大小又影響著識(shí)別的準(zhǔn)確率和響應(yīng)速 度。一般情況下,較大的RAM 和ROM 存儲(chǔ)空間和快速的RAM和ROM 速度更 有利于識(shí)別速度和識(shí)別準(zhǔn)確率的提高。更多的情況下,在實(shí)際應(yīng)用中,考慮到性 能價(jià)格比,一般會(huì)選擇適當(dāng)?shù)腞AM 和ROM 尺寸以達(dá)到速度和識(shí)別率的平衡。 如下表所示:

  表中所列的RAM和ROM的空間需求是一個(gè)近似數(shù)字

4.功能及特性

  Wanson ASR Chip1.0 嵌入式語音識(shí)別系統(tǒng)提供了一系列獨(dú)到的功能和特性,以 適應(yīng)不同的開發(fā)廠商的需求。

  話者獨(dú)立 該軟件無需事先對(duì)用戶的語音訓(xùn)練,任何人拿起來均可使用;

  獨(dú)特的口音的處理技術(shù) 用戶不用說播音員般標(biāo)準(zhǔn)的普通話,全國(guó)各地帶有口音的用戶亦可以毫無問題得順暢使用該系統(tǒng);

  高識(shí)別率 在一定的硬件環(huán)境下,一次性載入詞匯量達(dá)到1000 中文詞條時(shí),平均準(zhǔn)確率達(dá) 到95%以上,并且實(shí)時(shí)識(shí)別;

  可移植的代碼 軟件采用標(biāo)準(zhǔn)C 書寫核心算法,使得該軟件能很快地移植到其他操作系統(tǒng)和處理器上;

  小封裝,低系統(tǒng)配置 如前所述,Wanson ASR Chip1.0 對(duì)系統(tǒng)硬件資源要求很少,因此可以適用于一 系列消費(fèi)類電子產(chǎn)品上,例如:   在線更改語音資源 用戶在每次增加/刪減/更改詞匯集合后,無需關(guān)閉和重新啟動(dòng)應(yīng)用程序,系統(tǒng)可以即時(shí)在線更新系統(tǒng)資源,使用戶可以馬上使用;

  環(huán)境噪音 該系統(tǒng)帶有噪音消除技術(shù),對(duì)于應(yīng)用環(huán)境噪音一定范圍之內(nèi),仍可保證高識(shí)別率;

  動(dòng)態(tài)詞匯庫(kù) 適用在不同的硬件條件下,詞匯集合可以從零到1000 詞條,采用系統(tǒng)軟件開發(fā) 包,可以方便創(chuàng)建新的詞匯以適用于不同的應(yīng)用(例如:命令控制集,地址簿, 人名等等)。

CTI論壇編輯



相關(guān)鏈接:
基立訊jTalk語音通信平臺(tái)產(chǎn)品介紹 2007-11-29
Nuance 8.5語音識(shí)別產(chǎn)品 2007-09-05
VBVoice使AdGeo能夠定制呼叫跟蹤和報(bào)告的解決方案 2007-04-26
Automated采用VBVoice快速開發(fā)語音圖書館編目系統(tǒng) 2007-04-09
捷通華聲語音電話本業(yè)務(wù)解決方案 2006-12-26

分類信息: