首頁 > 技術(shù) > 技術(shù)文摘 > 語音識別：PDA的理想輸入選擇

語音識別：PDA的理想輸入選擇

2001-09-27 00:00:00 作者：來源：評論：0 點擊：

用戶不斷地要求所用裝置更小、更輕便同時又更易于使用。能解決這三方面問題的一種可行技術(shù)就是語音識別。這種技術(shù)由于清除了傳統(tǒng)的輸入器件（如鍵盤或筆接口），故具備更小和更輕便的特點。　　

解決容易使用問題更需要有一點技巧，裝置所采用的技術(shù)是否恰當。從某種意義上講，這又必須根據(jù)目標應用是什么而采取不同的處理。語音識別兩個最通用的模式是語音從屬和語音獨立。　　

語音從屬與語音獨立 　　

語音從屬意味著必須有培訓系統(tǒng)而且通常它只可識別培訓系統(tǒng)的人所講的詞。語音獨立系統(tǒng)則可以識別幾乎所有講話人的詞。在這種情況下，可以聽懂的詞匯通常也是相當有限的。　　

語音從屬的一個例子是語音撥號器，在語音撥號中用戶輸入要存儲的人名。幾次重復這些名字，撥號器正確地“記錄”是如何講的。當它聽到這些名字時，它給出適當?shù)男畔�，也有采用自動撥號機撥號的。語音獨立使用的是計算器，它只有15個詞：10個數(shù)字和算術(shù)運算。　　

如何處理來自不同制造廠家的詞匯，Sensory公司采用把用語（vocabulary）劃分成詞組（word set）。根據(jù)應用，把很多必需用的詞組成一個命令樹（command tree），這里的限制因素是系統(tǒng)的存儲器容量，它通常取決于系統(tǒng)中可用的存儲量或成本預算。　　

對于語音獨立詞組來講，存儲器需要量大約為700字節(jié)/詞。在語音從屬模式中，它為128字節(jié)/詞。　　

Sensory公司設置語音獨立詞組為14個詞。如果用戶有很多詞要識別，則可在一個命令樹中建立自己的應用分支，只需用一個低音命令分支為獨立的功能，其中每一個功能都具有它自己的語音獨立詞組。這樣它對每一個詞都有不同的上下文，在詞組中通過共享可以再用這些詞。　　

在語音撥號器應用中，第一命令包“friends(朋友)”，“busiress(業(yè)務)”和“relatives(親戚)”等。根據(jù)所講的這些詞，系統(tǒng)將轉(zhuǎn)移到第二組命令，如所含的詞為“first”（對于人名，從字母表前半部分的一個字母開始）或“l(fā)ast”（對于人名從字母表的后半分部一個字母開始）。直到找到所希望的名字為止。　　

語音獨立和語音從屬之間的另一個差別是所需要的存儲量，因為語音獨立系統(tǒng)已經(jīng)被培訓，它的700字節(jié)/詞直接包含在應用代碼中。代碼一般存儲在片外ROM、非易失存儲器（如閃存）或直接掩膜進微控制器中。　　

語音從屬詞匯需要在運行時間存儲到可寫存儲器中，這不是困難的，因為通常它只需很小的存儲量。一個EEPROM器件通常即可擔當此任。在128字節(jié)/詞中，64個詞可存儲在一個k字節(jié)EEPROM中，這對于大部分的應用是合適的。　　

影響語音識別系統(tǒng)精度的因素之一是所接收的信號品質(zhì)，主要由兩個因素（背景噪聲和所用傳聲器）確定。　　

背景噪聲可用系統(tǒng)內(nèi)的噪聲消除算法處理。建議用定向傳聲器，往往傳聲器本身具有內(nèi)含的噪聲消除功能。　　

傳聲器空間問題 　　

由于大部分便攜裝置所采用的體積尺寸會對傳聲器產(chǎn)生另外的問題。它們是如此的小，以致使分配給傳聲器的空間不夠大或不是最好的位置。通常他們也沒有處理語音識別的設計。　　

現(xiàn)在可用的傳聲器對于語音從屬系統(tǒng)是可以接受的，但現(xiàn)在的傳聲器不適合用在實現(xiàn)語音獨立的平臺上。　　

在視距范圍內(nèi)，目前普遍采用手持裝置實現(xiàn)移動口授。這意味著用戶可用PDA檢索他們的e-mail，以口授應答進入PDA，然后無線發(fā)送應答或接入連接的PC。　　

可惜現(xiàn)在沒有一個可接受的嵌入傳聲器能滿足在手持裝置中進行e-mail所需求的精度。　　

很多設計人員希望增加語音識別到現(xiàn)有的產(chǎn)品中。識別問題嚴重受限制的原因是把傳聲器放在何處和如何設計。雖然設計人員喜歡采用功能強的處理器來處理此問題，但是，具有高性能的處理器將無助于問題的解決。假若輸入信號有缺陷，你對它做的再多也沒有用。靜電、噪聲和回路等都能影響語音的品質(zhì)。　　

試用DSP

設計一個語音識別系統(tǒng)最好方法之一是采用DSP。Sensory公司最近推出Voice Activation軟件，該軟件適合DSP基應用（如電話、無線設備、汽車和消費類電子）。Voice Activation軟件是為高噪聲環(huán)境應用設計的。該公司聲稱基于該軟件的系統(tǒng)在80dB噪聲環(huán)境中可達到優(yōu)于98%的精度。　　

利用DSP算法的另一結(jié)構(gòu)出自Advanced Recognition Technologies公司，該公司的語音識別技術(shù)稱之為smARTspeak，它與WinCE兼容并可定制用于專用的OS，適用于蜂窩電話和PDA市場。　　

ART的識別算法可運行在價廉、低性能、具有最小存儲器的微處理器中。另外，這些算法用綜合API（應用編程接口）系統(tǒng)書寫，使它們很容易地轉(zhuǎn)移或應用于幾乎所有裝置。Port此技術(shù)的優(yōu)點是通過軟件實現(xiàn)語音控制，不增加系統(tǒng)的硬件成本。　　

Sensory公司的微處理器為便攜系統(tǒng)提供了關鍵性能——低功率和休眠模式以降低功耗。處理器可自己置到休眠，同時借助一條I/O線（一般用一按鍵）喚醒，或用一個內(nèi)部定時器作周期性喚醒。　　

用RSC-264T和RSC-364芯片進行設計時必須用外部ROM。RSC-264T是一款低檔器件，用在對成本敏感的消費類電子和玩具中。它是一個8位微控制器，類似于工業(yè)標準8051。這可使熟悉8051指令系統(tǒng)的設計人員能很快開始編寫代碼。一個片上傳聲器前置放大器有助于進一步降低系統(tǒng)成本。RSC-364是一款高檔器件，設計用于消費類電子和電話應用。　　

盡管這些器件是專門為語音識別設計的，但它們?nèi)跃哂刑幚硗ㄓ梦⑻幚砥魅蝿盏哪芰�。一個小系統(tǒng)不需要獨立的處理器，以避免增加電流損耗和成本。能工作在2.4～2.5V的系統(tǒng)，可采用兩節(jié)AAA電池供電。　　

一個RISC芯核（如Hitachi公司的SH）可做為語音識別的處理器，其中軟件編程接口（SPI）位于處理器和應用部件之間（見圖1）。　

圖1 用RISC芯核實現(xiàn)語音識別

Information Storage Devices公司設計的VoiceDSP也是基于DSP結(jié)構(gòu)基礎上。該產(chǎn)品把多種DSP功能集成在單片上，為電話、汽車和消費類應用提供優(yōu)異的成本效率解決方案。　　

ISD-T360SA處理器把16位DSP和16位RISC芯核技術(shù)結(jié)合在一起（見圖2）。它具有系統(tǒng)支持功能，如中斷控制單元、編碼/解碼器接口（主和從）、到主系統(tǒng)微控制器的接口，以及閃存和DRAM用的存儲器處理。片上ROM存有VoiceDSP軟件。

圖2 集成DSP和RISC芯核技術(shù)

語音壓縮是語音識別的另一方面。Digital Voice Systems的AMBE-2000是一款聲碼器，它含有該公司的AMBE+聲碼器技術(shù)。它提供長途應用品質(zhì)的語音（在4kbits），可工作在2～9.6kbits/s任何用戶確定的位率。它包含一個帶內(nèi)置Viterbi譯碼器的卷積FEC編碼器（它具有4位軟決策譯碼）。　　

AMBE-2000特性有：3V工作，半雙工或全雙工模式，自動語音和無聲檢測以及回聲消除。這些特性使它很適合于無線應用。用TIDSP芯核可簡化代碼寫入。　　

專用和標準OS　　

與PDA有關的最通用的操作系統(tǒng)是Windows CE和Palm OS。大部分的手持裝置運行專用OS。幾乎所有的便攜裝置都具有不同的配置、占位置面積、CPU和存儲器子系統(tǒng)。從第三方開發(fā)者的觀點，迫切希望選擇一種或兩種平臺進行開發(fā)�，F(xiàn)在，這兩種平臺就是WinCE和Palm OS。　　

在應用軟件方面，Dragon Systems公司的Naturally Speaking Mobile Organizer易使用戶的講話變?yōu)閑-mail。此軟件不僅識別所講的詞，而且分析講了什么并產(chǎn)生所希望的操作。例如，用戶講“send an e-mail”（發(fā)e-mail）或“schedule an appoinement”（安排約會），錄音器在PDA中存儲信息直到用戶的計算機可用為止。然后，當PDA PC連接時PC記錄和分析所講的內(nèi)容。最后，Naturally Speaking Mobile Organizer命令應用采取適當?shù)牟僮�。兼容的應用包括Microsoft Outlook 98，Palm Pilot Desktop，Lotus Notes，Gold Mine和Symantec ACT! 4.0等。

摘自PDA時代

相關熱詞搜索：

上一篇:建呼叫中心要關注哪些技術(shù)？

下一篇:中國電信數(shù)據(jù)通信局客戶服務系統(tǒng)