用戶不斷地要求所用裝置更小、更輕便同時又更易于使用。能解決這三方面問題的一種可行技術(shù)就是語音識別。這種技術(shù)由于清除了傳統(tǒng)的輸入器件(如鍵盤或筆接口),故具備更小和更輕便的特點。
解決容易使用問題更需要有一點技巧,裝置所采用的技術(shù)是否恰當。從某種意義上講,這又必須根據(jù)目標應用是什么而采取不同的處理。語音識別兩個最通用的模式是語音從屬和語音獨立。
語音從屬與語音獨立
語音從屬意味著必須有培訓系統(tǒng)而且通常它只可識別培訓系統(tǒng)的人所講的詞。語音獨立系統(tǒng)則可以識別幾乎所有講話人的詞。在這種情況下,可以聽懂的詞匯通常也是相當有限的。
語音從屬的一個例子是語音撥號器,在語音撥號中用戶輸入要存儲的人名。幾次重復這些名字,撥號器正確地“記錄”是如何講的。當它聽到這些名字時,它給出適當?shù)男畔,也有采用自動撥號機撥號的。語音獨立使用的是計算器,它只有15個詞:10個數(shù)字和算術(shù)運算。
如何處理來自不同制造廠家的詞匯,Sensory公司采用把用語(vocabulary)劃分成詞組(word set)。根據(jù)應用,把很多必需用的詞組成一個命令樹(command tree),這里的限制因素是系統(tǒng)的存儲器容量,它通常取決于系統(tǒng)中可用的存儲量或成本預算。
對于語音獨立詞組來講,存儲器需要量大約為700字節(jié)/詞。在語音從屬模式中,它為128字節(jié)/詞。
Sensory公司設置語音獨立詞組為14個詞。如果用戶有很多詞要識別,則可在一個命令樹中建立自己的應用分支,只需用一個低音命令分支為獨立的功能,其中每一個功能都具有它自己的語音獨立詞組。這樣它對每一個詞都有不同的上下文,在詞組中通過共享可以再用這些詞。
在語音撥號器應用中,第一命令包“friends(朋友)”,“busiress(業(yè)務)”和“relatives(親戚)”等。根據(jù)所講的這些詞,系統(tǒng)將轉(zhuǎn)移到第二組命令,如所含的詞為“first”(對于人名,從字母表前半部分的一個字母開始)或“l(fā)ast”(對于人名從字母表的后半分部一個字母開始)。直到找到所希望的名字為止。
語音獨立和語音從屬之間的另一個差別是所需要的存儲量,因為語音獨立系統(tǒng)已經(jīng)被培訓,它的700字節(jié)/詞直接包含在應用代碼中。代碼一般存儲在片外ROM、非易失存儲器(如閃存)或直接掩膜進微控制器中。
語音從屬詞匯需要在運行時間存儲到可寫存儲器中,這不是困難的,因為通常它只需很小的存儲量。一個EEPROM器件通常即可擔當此任。在128字節(jié)/詞中,64個詞可存儲在一個k字節(jié)EEPROM中,這對于大部分的應用是合適的。
影響語音識別系統(tǒng)精度的因素之一是所接收的信號品質(zhì),主要由兩個因素(背景噪聲和所用傳聲器)確定。
背景噪聲可用系統(tǒng)內(nèi)的噪聲消除算法處理。建議用定向傳聲器,往往傳聲器本身具有內(nèi)含的噪聲消除功能。
傳聲器空間問題
由于大部分便攜裝置所采用的體積尺寸會對傳聲器產(chǎn)生另外的問題。它們是如此的小,以致使分配給傳聲器的空間不夠大或不是最好的位置。通常他們也沒有處理語音識別的設計。
現(xiàn)在可用的傳聲器對于語音從屬系統(tǒng)是可以接受的,但現(xiàn)在的傳聲器不適合用在實現(xiàn)語音獨立的平臺上。
在視距范圍內(nèi),目前普遍采用手持裝置實現(xiàn)移動口授。這意味著用戶可用PDA檢索他們的e-mail,以口授應答進入PDA,然后無線發(fā)送應答或接入連接的PC。
可惜現(xiàn)在沒有一個可接受的嵌入傳聲器能滿足在手持裝置中進行e-mail所需求的精度。
很多設計人員希望增加語音識別到現(xiàn)有的產(chǎn)品中。識別問題嚴重受限制的原因是把傳聲器放在何處和如何設計。雖然設計人員喜歡采用功能強的處理器來處理此問題,但是,具有高性能的處理器將無助于問題的解決。假若輸入信號有缺陷,你對它做的再多也沒有用。靜電、噪聲和回路等都能影響語音的品質(zhì)。
試用DSP
設計一個語音識別系統(tǒng)最好方法之一是采用DSP。Sensory公司最近推出Voice Activation軟件,該軟件適合DSP基應用(如電話、無線設備、汽車和消費類電子)。Voice Activation軟件是為高噪聲環(huán)境應用設計的。該公司聲稱基于該軟件的系統(tǒng)在80dB噪聲環(huán)境中可達到優(yōu)于98%的精度。
利用DSP算法的另一結(jié)構(gòu)出自Advanced Recognition Technologies公司,該公司的語音識別技術(shù)稱之為smARTspeak,它與WinCE兼容并可定制用于專用的OS,適用于蜂窩電話和PDA市場。
ART的識別算法可運行在價廉、低性能、具有最小存儲器的微處理器中。另外,這些算法用綜合API(應用編程接口)系統(tǒng)書寫,使它們很容易地轉(zhuǎn)移或應用于幾乎所有裝置。Port此技術(shù)的優(yōu)點是通過軟件實現(xiàn)語音控制,不增加系統(tǒng)的硬件成本。
Sensory公司的微處理器為便攜系統(tǒng)提供了關鍵性能——低功率和休眠模式以降低功耗。處理器可自己置到休眠,同時借助一條I/O線(一般用一按鍵)喚醒,或用一個內(nèi)部定時器作周期性喚醒。
用RSC-264T和RSC-364芯片進行設計時必須用外部ROM。RSC-264T是一款低檔器件,用在對成本敏感的消費類電子和玩具中。它是一個8位微控制器,類似于工業(yè)標準8051。這可使熟悉8051指令系統(tǒng)的設計人員能很快開始編寫代碼。一個片上傳聲器前置放大器有助于進一步降低系統(tǒng)成本。RSC-364是一款高檔器件,設計用于消費類電子和電話應用。
盡管這些器件是專門為語音識別設計的,但它們?nèi)跃哂刑幚硗ㄓ梦⑻幚砥魅蝿盏哪芰。一個小系統(tǒng)不需要獨立的處理器,以避免增加電流損耗和成本。能工作在2.4~2.5V的系統(tǒng),可采用兩節(jié)AAA電池供電。
一個RISC芯核(如Hitachi公司的SH)可做為語音識別的處理器,其中軟件編程接口(SPI)位于處理器和應用部件之間(見圖1)。
圖1 用RISC芯核實現(xiàn)語音識別
Information Storage Devices公司設計的VoiceDSP也是基于DSP結(jié)構(gòu)基礎上。該產(chǎn)品把多種DSP功能集成在單片上,為電話、汽車和消費類應用提供優(yōu)異的成本效率解決方案。
ISD-T360SA處理器把16位DSP和16位RISC芯核技術(shù)結(jié)合在一起(見圖2)。它具有系統(tǒng)支持功能,如中斷控制單元、編碼/解碼器接口(主和從)、到主系統(tǒng)微控制器的接口,以及閃存和DRAM用的存儲器處理。片上ROM存有VoiceDSP軟件。
圖2 集成DSP和RISC芯核技術(shù)
語音壓縮是語音識別的另一方面。Digital Voice Systems的AMBE-2000是一款聲碼器,它含有該公司的AMBE+聲碼器技術(shù)。它提供長途應用品質(zhì)的語音(在4kbits),可工作在2~9.6kbits/s任何用戶確定的位率。它包含一個帶內(nèi)置Viterbi譯碼器的卷積FEC編碼器(它具有4位軟決策譯碼)。
AMBE-2000特性有:3V工作,半雙工或全雙工模式,自動語音和無聲檢測以及回聲消除。這些特性使它很適合于無線應用。用TIDSP芯核可簡化代碼寫入。
專用和標準OS
與PDA有關的最通用的操作系統(tǒng)是Windows CE和Palm OS。大部分的手持裝置運行專用OS。幾乎所有的便攜裝置都具有不同的配置、占位置面積、CPU和存儲器子系統(tǒng)。從第三方開發(fā)者的觀點,迫切希望選擇一種或兩種平臺進行開發(fā),F(xiàn)在,這兩種平臺就是WinCE和Palm OS。
在應用軟件方面,Dragon Systems公司的Naturally Speaking Mobile Organizer易使用戶的講話變?yōu)閑-mail。此軟件不僅識別所講的詞,而且分析講了什么并產(chǎn)生所希望的操作。例如,用戶講“send an e-mail”(發(fā)e-mail)或“schedule an appoinement”(安排約會),錄音器在PDA中存儲信息直到用戶的計算機可用為止。然后,當PDA PC連接時PC記錄和分析所講的內(nèi)容。最后,Naturally Speaking Mobile Organizer命令應用采取適當?shù)牟僮。兼容的應用包括Microsoft Outlook 98,Palm Pilot Desktop,Lotus Notes,Gold Mine和Symantec ACT! 4.0等。
摘自PDA時代