首頁(yè)>>>技術(shù)>>>語(yǔ)音應(yīng)用>>>語(yǔ)音識(shí)別(ASR)  語(yǔ)音識(shí)別產(chǎn)品

語(yǔ)音識(shí)別:抗噪音能力有待加強(qiáng)

王向東 欒煥博 林守勛 錢躍良 2006/08/11

  語(yǔ)音識(shí)別已經(jīng)成為一個(gè)面向多種應(yīng)用、滿足多種需求的龐大體系,這種技術(shù)的廣泛應(yīng)用推動(dòng)了語(yǔ)音識(shí)別評(píng)測(cè)的誕生,而評(píng)測(cè)反過(guò)來(lái)又推動(dòng)了語(yǔ)音識(shí)別技術(shù)的進(jìn)步。

  語(yǔ)音識(shí)別是指用計(jì)算機(jī)對(duì)人的語(yǔ)音信號(hào)進(jìn)行分析處理,從而得到其對(duì)應(yīng)文字的過(guò)程。其最終目的就是實(shí)現(xiàn)一種自然的人機(jī)交互方式,使機(jī)器能聽懂人的語(yǔ)言,辨明話音的內(nèi)容,將人的語(yǔ)音正確地轉(zhuǎn)化為對(duì)應(yīng)的文本,或者根據(jù)語(yǔ)義做出相應(yīng)的動(dòng)作。常見(jiàn)的應(yīng)用系統(tǒng)有語(yǔ)音輸入系統(tǒng)、語(yǔ)音控制系統(tǒng)、智能對(duì)話查詢系統(tǒng)等。而語(yǔ)音識(shí)別評(píng)測(cè)是指針對(duì)語(yǔ)音識(shí)別的某項(xiàng)應(yīng)用,創(chuàng)建評(píng)測(cè)語(yǔ)料庫(kù),提出評(píng)測(cè)指標(biāo)和對(duì)應(yīng)算法,用評(píng)測(cè)語(yǔ)料訓(xùn)練和測(cè)試各參評(píng)系統(tǒng),并對(duì)其識(shí)別結(jié)果進(jìn)行比較和分析的過(guò)程。

  實(shí)際上,從1987年起,美國(guó)國(guó)家標(biāo)準(zhǔn)技術(shù)局就開始組織對(duì)各大學(xué)和公司研發(fā)的語(yǔ)音識(shí)別系統(tǒng)進(jìn)行評(píng)測(cè)。十幾年間,根據(jù)技術(shù)的現(xiàn)狀,組織了多次不同任務(wù)的評(píng)測(cè),促進(jìn)了領(lǐng)域內(nèi)的競(jìng)爭(zhēng)和交流,對(duì)語(yǔ)音識(shí)別技術(shù)的進(jìn)步和發(fā)展起到了巨大的引領(lǐng)和推動(dòng)作用。

  當(dāng)前,國(guó)際上知名的語(yǔ)音識(shí)別評(píng)測(cè)主要有: 美國(guó)NIST(國(guó)家標(biāo)準(zhǔn)技術(shù)局)評(píng)測(cè)、歐洲TC-STAR評(píng)測(cè)和中國(guó)的863評(píng)測(cè)。美國(guó)NIST評(píng)測(cè)是開展歷史最久、項(xiàng)目設(shè)置最全也最負(fù)盛名的評(píng)測(cè),近20年來(lái),每年都針對(duì)語(yǔ)音識(shí)別方向的熱點(diǎn)技術(shù)組織國(guó)際性評(píng)測(cè),涉及的語(yǔ)言有英語(yǔ)、漢語(yǔ)普通話和阿拉伯語(yǔ),涉及的任務(wù)有孤立詞識(shí)別、關(guān)鍵詞識(shí)別和大詞匯量連續(xù)語(yǔ)音識(shí)別,涉及的語(yǔ)音包括了朗讀語(yǔ)音、自然語(yǔ)音、對(duì)話語(yǔ)音、廣播語(yǔ)音、會(huì)議語(yǔ)音等各種常見(jiàn)的語(yǔ)音類別。TC-STAR語(yǔ)音識(shí)別評(píng)測(cè)是歐盟TC-STAR項(xiàng)目的一部分。該項(xiàng)目主要針對(duì)語(yǔ)音到語(yǔ)音的機(jī)器自動(dòng)翻譯。其語(yǔ)音識(shí)別評(píng)測(cè)任務(wù)為連續(xù)語(yǔ)音識(shí)別,針對(duì)英語(yǔ)、西班牙語(yǔ)和漢語(yǔ)普通話,處理的語(yǔ)音為會(huì)議發(fā)言(英語(yǔ)、西班牙語(yǔ))或新聞廣播(漢語(yǔ))。863語(yǔ)音識(shí)別評(píng)測(cè)是類似NIST評(píng)測(cè)的綜合性評(píng)測(cè),語(yǔ)言以漢語(yǔ)為主,任務(wù)和通道多樣,根據(jù)語(yǔ)音識(shí)別技術(shù)的現(xiàn)狀和發(fā)展趨勢(shì)不斷調(diào)整。

  語(yǔ)音識(shí)別的主要技術(shù)

  近年來(lái),由于大規(guī)模語(yǔ)料庫(kù)的支持,基于統(tǒng)計(jì)的語(yǔ)音識(shí)別方法逐漸發(fā)展成熟,取得了較好的識(shí)別結(jié)果,成為當(dāng)前語(yǔ)音識(shí)別技術(shù)的主流;陔[馬爾可夫模型(HMM)的統(tǒng)計(jì)語(yǔ)音識(shí)別在各個(gè)通道,各種任務(wù)的語(yǔ)音識(shí)別中得到了廣泛應(yīng)用。

  圖1所示為當(dāng)前大多數(shù)語(yǔ)音識(shí)別系統(tǒng)采用的框架和流程。原始語(yǔ)音經(jīng)前端處理后,從中提取出若干維的特征向量用于識(shí)別。識(shí)別時(shí),聲學(xué)模型和語(yǔ)言模型共同作用,得到使某一概率最大的字串作為識(shí)別結(jié)果。


  前端處理是指在特征提取之前,先對(duì)原始語(yǔ)音進(jìn)行處理,部分消除噪聲和不同說(shuō)話人帶來(lái)的影響,使處理后的信號(hào)更能反映語(yǔ)音的本質(zhì)特征。最常用的前端處理有端點(diǎn)檢測(cè)和語(yǔ)音增強(qiáng)。端點(diǎn)檢測(cè)是指在語(yǔ)音信號(hào)中將語(yǔ)音和非語(yǔ)音信號(hào)時(shí)段區(qū)分開來(lái),準(zhǔn)確地確定出語(yǔ)音信號(hào)的起始點(diǎn)。經(jīng)過(guò)端點(diǎn)檢測(cè)后,后續(xù)處理就可以只對(duì)語(yǔ)音信號(hào)進(jìn)行,這對(duì)提高模型的精確度和識(shí)別正確率有重要作用。語(yǔ)音增強(qiáng)的主要任務(wù)就是消除環(huán)境噪聲對(duì)語(yǔ)音的影響。目前通用的方法是采用維納濾波,該方法在噪聲較大的情況下效果好于其他濾波器。

  在特征提取階段,一般是把語(yǔ)音信號(hào)切分成幾十毫秒的幀,對(duì)每一幀提取一個(gè)特征向量。但這樣會(huì)丟失幀與幀之間的聯(lián)接信息,無(wú)法反映幀之間的變化過(guò)程,因此,還應(yīng)該加上向量的一階差分和二階差分(相當(dāng)于連續(xù)函數(shù)中的一階導(dǎo)數(shù)和二階導(dǎo)數(shù))共同構(gòu)成特征。

  如上文所述,目前主流的語(yǔ)音識(shí)別系統(tǒng)大多基于統(tǒng)計(jì)模式識(shí)別原理,其基礎(chǔ)是由聲學(xué)模型和語(yǔ)言模型共同構(gòu)成的統(tǒng)計(jì)模型。

  聲學(xué)模型是識(shí)別系統(tǒng)的底層模型,其目標(biāo)是通過(guò)模型度量,尋找語(yǔ)音特征向量序列對(duì)應(yīng)的發(fā)音。當(dāng)前常用的聲學(xué)模型是隱馬爾可夫模型(HMM)。HMM模型可以看成一個(gè)雙重隨機(jī)過(guò)程,一個(gè)馬爾可夫鏈的各個(gè)狀態(tài)可以產(chǎn)生出各種輸出。這種機(jī)制較合理地模仿了人類語(yǔ)言活動(dòng)的過(guò)程,對(duì)孤立詞和連續(xù)語(yǔ)音識(shí)別來(lái)說(shuō)都是較理想的聲學(xué)模型。

  語(yǔ)言模型的作用是通過(guò)提供字或詞之間的上下文信息和語(yǔ)義信息。對(duì)于大詞匯量連續(xù)語(yǔ)音識(shí)別,語(yǔ)言模型是必不可少的關(guān)鍵模塊之一。目前比較成熟的方法是統(tǒng)計(jì)語(yǔ)言模型,當(dāng)前的主流方法是N元文法(N-gram),其主要思想是根據(jù)已知前(N-1)個(gè)字或詞,預(yù)測(cè)第N個(gè)字或詞出現(xiàn)的概率。由于訓(xùn)練語(yǔ)料的限制,目前主要采用三元語(yǔ)法。

  訓(xùn)練統(tǒng)計(jì)模型

  對(duì)于統(tǒng)計(jì)模型,要想使得它能夠識(shí)別語(yǔ)音,必須對(duì)模型進(jìn)行訓(xùn)練。所謂訓(xùn)練,是指對(duì)大量的訓(xùn)練語(yǔ)料進(jìn)行統(tǒng)計(jì)和處理,計(jì)算和調(diào)整模型的參數(shù),使模型對(duì)未訓(xùn)練過(guò)的數(shù)據(jù)也能達(dá)到理想的識(shí)別結(jié)果。語(yǔ)音識(shí)別系統(tǒng)的訓(xùn)練主要包括聲學(xué)模型的訓(xùn)練和語(yǔ)言模型的訓(xùn)練。對(duì)于廣泛采用的HMM聲學(xué)模型,其訓(xùn)練主要是獲取HMM中的狀態(tài)轉(zhuǎn)移概率、各狀態(tài)的輸出概率分布等參數(shù)。常用的方法是基于最大似然估計(jì)原理的迭代算法(如Baum-Welch算法)。對(duì)于基于三元文法的語(yǔ)言模型,其訓(xùn)練主要是從大量的文本中計(jì)算三元組的概率。

  當(dāng)模型訓(xùn)練好以后,就可以進(jìn)行識(shí)別了。語(yǔ)音識(shí)別算法的主要思路是在侯選的詞串中搜索使聲學(xué)模型和語(yǔ)言模型的概率乘積最大的詞串。因此,識(shí)別過(guò)程也常稱作搜索(Search)或解碼(Decoding)。當(dāng)前常用的搜索算法是Viterbi算法,其本質(zhì)是一種動(dòng)態(tài)規(guī)劃方法。

  當(dāng)前的語(yǔ)音識(shí)別系統(tǒng)大都是說(shuō)話人無(wú)關(guān)(Speaker Independent)系統(tǒng),即事先并不知道要識(shí)別的語(yǔ)音的說(shuō)話人特征。但是,對(duì)于某個(gè)說(shuō)話人,如果能夠適當(dāng)學(xué)習(xí)他(她)的發(fā)音特點(diǎn),調(diào)整模型參數(shù),顯然會(huì)使得識(shí)別效果更好。這就是說(shuō)話人自適應(yīng)的主要原理。所謂說(shuō)話人自適應(yīng),是指對(duì)大訓(xùn)練集上得到的模型參數(shù)進(jìn)行調(diào)整,使之對(duì)當(dāng)前說(shuō)話人產(chǎn)生更好地識(shí)別效果?梢哉f(shuō),說(shuō)話人自適應(yīng)實(shí)際上是希望通過(guò)少量數(shù)據(jù)的增強(qiáng)訓(xùn)練(即所謂的自適應(yīng)過(guò)程),使非特定人系統(tǒng)接近特定人系統(tǒng)的性能。常用的說(shuō)話人自適應(yīng)方法主要有兩種: 最大后驗(yàn)概率(MAP)方法和最大似然線性回歸(MLLR)方法。MPA算法采用基于最大后驗(yàn)概率準(zhǔn)則,具有理論上的最優(yōu)性,因此在小詞表的語(yǔ)音識(shí)別任務(wù)中具有相當(dāng)好的性能。其缺點(diǎn)是對(duì)大詞匯量的任務(wù)自適應(yīng)速度緩慢,無(wú)法滿足應(yīng)用的要求。因此,當(dāng)前的大詞匯量連續(xù)語(yǔ)音識(shí)別系統(tǒng)大多采用MLLR方法,或?qū)AP與MLLR結(jié)合。從評(píng)測(cè)結(jié)果來(lái)看,如果有充分的時(shí)間調(diào)整說(shuō)話人自適應(yīng)模型,連續(xù)語(yǔ)音識(shí)別中的字錯(cuò)誤率可以下降1至4個(gè)百分點(diǎn)。

  從幾年來(lái)各參評(píng)系統(tǒng)采用的主要技術(shù)來(lái)看,當(dāng)前語(yǔ)音識(shí)別系統(tǒng)中的技術(shù)嚴(yán)重趨同。幾乎所有的參評(píng)系統(tǒng)都采用上述框架和基本模塊,區(qū)別主要在于模塊內(nèi)部的細(xì)化程度,或者把某模塊中的幾種技術(shù)做些組合。例如,采用不同的前端處理方法,對(duì)男女聲和有無(wú)噪聲的語(yǔ)音分類處理,以及同時(shí)采用多種聲學(xué)特征和不同的搜索策略構(gòu)造多個(gè)識(shí)別子系統(tǒng),最后對(duì)各子系統(tǒng)的識(shí)別結(jié)果做一種類似投票的表決(ROVER技術(shù)),得到最終識(shí)別結(jié)果。

  由于863語(yǔ)音識(shí)別評(píng)測(cè)并不限制訓(xùn)練數(shù)據(jù)的使用,各單位可以使用自備的所有數(shù)據(jù)。因此,從評(píng)測(cè)結(jié)果及各單位的研討中可以看到,訓(xùn)練數(shù)據(jù)的數(shù)量和質(zhì)量對(duì)系統(tǒng)的性能有很大的影響。為了使評(píng)測(cè)更公平,2005年的評(píng)測(cè)中提供了一定量的統(tǒng)一訓(xùn)練集,但規(guī)模還較小。在以后的評(píng)測(cè)中,將考慮提供大量的訓(xùn)練集,希望能夠避免因訓(xùn)練數(shù)據(jù)不同而造成的性能差異。

  863計(jì)劃中語(yǔ)音識(shí)別評(píng)測(cè)

  從2003年起,中國(guó)科學(xué)院計(jì)算技術(shù)研究所連續(xù)三年承辦863計(jì)劃中文信息處理與智能人機(jī)接口技術(shù)評(píng)測(cè),語(yǔ)音識(shí)別評(píng)測(cè)始終是其中的一個(gè)主要分項(xiàng)。三年間,863語(yǔ)音識(shí)別評(píng)測(cè)受到了國(guó)內(nèi)外語(yǔ)音識(shí)別研究者的關(guān)注,參加單位數(shù)逐年遞增,成為國(guó)內(nèi)語(yǔ)音識(shí)別領(lǐng)域最高級(jí)別的交流平臺(tái),在國(guó)際上也具備了相當(dāng)?shù)挠绊懥Α?

  2003年和2004年度語(yǔ)音識(shí)別評(píng)測(cè)采用現(xiàn)場(chǎng)評(píng)測(cè)方式,即各參評(píng)系統(tǒng)的運(yùn)行在評(píng)測(cè)現(xiàn)場(chǎng)同時(shí)進(jìn)行。這種組織形式比較嚴(yán)格,一旦參評(píng)系統(tǒng)運(yùn)行出現(xiàn)故障將無(wú)法繼續(xù)。而且,要求所有參評(píng)單位必須到場(chǎng),其成本也較高。為了避免這些問(wèn)題,2005年的863評(píng)測(cè)采用目前國(guó)際通用的網(wǎng)上評(píng)測(cè)的方法,即在網(wǎng)上發(fā)布數(shù)據(jù),各參評(píng)單位在自己的運(yùn)行環(huán)境上運(yùn)行參評(píng)系統(tǒng)后將識(shí)別結(jié)果通過(guò)網(wǎng)絡(luò)提交給評(píng)測(cè)單位。

  863語(yǔ)音識(shí)別評(píng)測(cè)最大的特色在于測(cè)試數(shù)據(jù)的選取。文本語(yǔ)料的選取采用從大規(guī)模原始語(yǔ)料庫(kù)中篩選的方法,充分考慮到了對(duì)各種韻律學(xué)特征(音節(jié)、二音子、三音子、音連關(guān)系等)、語(yǔ)法特征(句型和句法結(jié)構(gòu)等)和各種領(lǐng)域、各種文體(散文、小說(shuō)、實(shí)事新聞等)的覆蓋。錄音時(shí)不是采用實(shí)驗(yàn)室加噪聲,而是在完全真實(shí)的場(chǎng)景中錄制數(shù)據(jù),并且充分考慮到了說(shuō)話人、信噪比等因素的覆蓋,在實(shí)驗(yàn)的基礎(chǔ)上提出了真實(shí)環(huán)境中信噪比的分布模型,并在此模型的指導(dǎo)下錄制數(shù)據(jù)。這種以實(shí)驗(yàn)和理論為依據(jù)、以算法為支撐,控制各種語(yǔ)音屬性,從而最大限度地?cái)M合真實(shí)應(yīng)用的數(shù)據(jù)采集方法,在國(guó)際上也是很有特色的。目前國(guó)際上的同類評(píng)測(cè),錄音場(chǎng)景多為實(shí)驗(yàn)室,對(duì)各種影響因素一般只做寬泛的覆蓋,幾乎沒(méi)有按理論模型控制的方法。

  863語(yǔ)音識(shí)別評(píng)測(cè)的另一個(gè)特點(diǎn)是對(duì)結(jié)果做了充分的統(tǒng)計(jì)分析。目前的國(guó)際評(píng)測(cè)一般除給出相應(yīng)的指標(biāo)外,還會(huì)做一些統(tǒng)計(jì)分析,而之前的國(guó)內(nèi)評(píng)測(cè)卻很少這么做。從2004年開始,863語(yǔ)音識(shí)別評(píng)測(cè)也開始對(duì)結(jié)果進(jìn)行統(tǒng)計(jì)分析,而在2005年的評(píng)測(cè)中,更是采用專業(yè)統(tǒng)計(jì)學(xué)方法,采用實(shí)驗(yàn)設(shè)計(jì)、假設(shè)檢驗(yàn)、回歸分析、方差分析、協(xié)方差分析等一系方法對(duì)結(jié)果及影響結(jié)果的因素進(jìn)行了深入分析,對(duì)各評(píng)測(cè)單位認(rèn)清自己系統(tǒng)的優(yōu)勢(shì)和缺點(diǎn),進(jìn)一步改進(jìn)起到了很大作用。

  另外,在電話連續(xù)語(yǔ)音關(guān)鍵詞識(shí)別評(píng)測(cè)中,在2004年嘗試了以語(yǔ)義槽為單位的基于語(yǔ)法關(guān)鍵詞識(shí)別任務(wù)和評(píng)測(cè)指標(biāo),在2005年首次使用了兩個(gè)說(shuō)話人一起錄制的自然對(duì)話語(yǔ)音,更加符合真實(shí)應(yīng)用的特點(diǎn),這在國(guó)際同類評(píng)測(cè)中都是沒(méi)有的。

  從評(píng)測(cè)結(jié)果看語(yǔ)音識(shí)別技術(shù)現(xiàn)狀

  863語(yǔ)音識(shí)別評(píng)測(cè),包括PC、電話、嵌入式設(shè)備三個(gè)語(yǔ)音通道,涉及聽寫機(jī)、對(duì)話查詢、命令詞識(shí)別等多種任務(wù),基本上涵蓋了當(dāng)前語(yǔ)音識(shí)別的主要研究和應(yīng)用方向。而參評(píng)的又大都是國(guó)內(nèi)長(zhǎng)期進(jìn)行該項(xiàng)研究、有較高水平的單位和系統(tǒng),因此,無(wú)論是采用的方法還是識(shí)別的效果,本次評(píng)測(cè)都可以真實(shí)反映出國(guó)內(nèi)語(yǔ)音識(shí)別技術(shù)的現(xiàn)狀。這里結(jié)合2004年的評(píng)測(cè),對(duì)評(píng)測(cè)結(jié)果進(jìn)行分析。之所以選擇2004年的評(píng)測(cè)結(jié)果,是因?yàn)樗脑u(píng)測(cè)分項(xiàng)最全,幾乎覆蓋了語(yǔ)音識(shí)別的各種應(yīng)用。

  1. 識(shí)別結(jié)果的評(píng)價(jià)

  評(píng)測(cè)的主要目標(biāo)就是通過(guò)對(duì)識(shí)別結(jié)果的評(píng)價(jià)、分析了解參評(píng)系統(tǒng)的性能的和語(yǔ)音技術(shù)的現(xiàn)狀。因此,制訂有效的、能夠真實(shí)反映出系統(tǒng)性能的評(píng)價(jià)指標(biāo)也是很重要的研究任務(wù)。

  對(duì)于大詞匯量連續(xù)語(yǔ)音識(shí)別來(lái)說(shuō),國(guó)際上通用的指標(biāo)是文字錯(cuò)誤率(對(duì)于英語(yǔ),文字指單詞; 對(duì)于漢語(yǔ),文字指字,下同)。其基本思想為采用動(dòng)態(tài)規(guī)劃算法將標(biāo)準(zhǔn)答案與識(shí)別結(jié)果對(duì)齊,以得到“正確文字?jǐn)?shù)”、“替換文字?jǐn)?shù)”、“插入文字?jǐn)?shù)”、“刪除文字?jǐn)?shù)”四項(xiàng)參數(shù),然后計(jì)算文字錯(cuò)誤率。

  錯(cuò)誤文字?jǐn)?shù) = 替換 + 插入 + 刪除文字?jǐn)?shù)

  文字錯(cuò)誤率 = 錯(cuò)誤文字?jǐn)?shù) / 原文答案文字?jǐn)?shù)

  下面給出一個(gè)例子:

  LAB: 新 增 四 百 萬(wàn) 千 瓦 時(shí) 的 強(qiáng) 大 電 流 輸 入 云 南 的 電 網(wǎng)

  REC: 新 增 四 百 花 錢 忙 時(shí) 的 槍 打 電 流 于 樹 綠 云 南 電 網(wǎng)

  C C C C N N N C C N N C C I N N C C D C C

  其中,LAB是標(biāo)準(zhǔn)答案,REC是識(shí)別結(jié)果,上面的格式是根據(jù)編輯距離最小對(duì)齊的結(jié)果,第三行標(biāo)記了各類文字,C表示正確文字,N表示替換文字,I表示插入文字,D表示刪除文字。

  2004年863語(yǔ)音識(shí)別評(píng)測(cè)中的電話連續(xù)語(yǔ)音識(shí)別評(píng)測(cè)分項(xiàng)采用的主要指標(biāo)是語(yǔ)義槽識(shí)別正確率,即用語(yǔ)料文本解析得到的標(biāo)準(zhǔn)答案和識(shí)別結(jié)果相比較,完全匹配的槽認(rèn)為是識(shí)別正確的,定義槽識(shí)別正確率為:

  槽識(shí)別正確率 = 正確識(shí)別的槽的個(gè)數(shù) / 標(biāo)準(zhǔn)答案中槽的總數(shù)

  對(duì)于嵌入式設(shè)備命令詞識(shí)別,由于是孤立詞識(shí)別,因此采用命令詞識(shí)別正確率即可:

  命令詞識(shí)別正確率 = 正確識(shí)別的命令詞數(shù) / 命令詞總數(shù)

  2. 識(shí)別系統(tǒng)性能

  對(duì)各系統(tǒng)給出的識(shí)別結(jié)果計(jì)算上述指標(biāo),得到對(duì)各系統(tǒng)識(shí)別性能的評(píng)價(jià)。表1給出了每個(gè)分項(xiàng)中識(shí)別效果最好的系統(tǒng)的指標(biāo),以及前三名系統(tǒng)的平均指標(biāo)。為了統(tǒng)一,將電話連續(xù)語(yǔ)音識(shí)別中的槽識(shí)別正確率和嵌入式設(shè)備命令詞識(shí)別中的命令詞識(shí)別正確率統(tǒng)稱為正確率。對(duì)桌面(這里指PC,以下同)連續(xù)語(yǔ)音識(shí)別,采用文字正確率,定義為(目前研究者對(duì)文字正確率定義稍有不同,本文中一律以下面的定義為準(zhǔn)):

  文字正確率 = 1 - 文字錯(cuò)誤率

  表中的最高正確率基本可以代表該分項(xiàng)的最高水平,前三名的正確率均值可以一定程度上反映該分項(xiàng)的平均水平,而前三名正確率的方差可以反映該分項(xiàng)中各系統(tǒng)的性能差異程度。

  從表中可以看到,桌面連續(xù)語(yǔ)音識(shí)別分項(xiàng)中,漢語(yǔ)的識(shí)別效果遠(yuǎn)遠(yuǎn)好于英語(yǔ)(文字正確率最多相差20個(gè)百分點(diǎn))。其原因顯然在于國(guó)內(nèi)對(duì)漢語(yǔ)語(yǔ)音識(shí)別的研究比英語(yǔ)多而且深入。另外,英語(yǔ)訓(xùn)練語(yǔ)料的相對(duì)缺乏,也是一個(gè)重要原因。

  在采用了語(yǔ)法限制的語(yǔ)義槽識(shí)別任務(wù)和槽識(shí)別正確率作為評(píng)測(cè)指標(biāo)后,電話連續(xù)語(yǔ)音的槽識(shí)別正確率較低。事實(shí)上,由于電話語(yǔ)音的錄制環(huán)境為辦公室環(huán)境,其噪音比桌面語(yǔ)音要小得多,所以正確率較低的原因主要在于對(duì)語(yǔ)法的處理和槽識(shí)別正確率較低。

  嵌入式設(shè)備命令詞識(shí)別的正確率與桌面語(yǔ)音字正確率大致相當(dāng)。一方面,連續(xù)語(yǔ)音識(shí)別要比孤立詞識(shí)別困難,另一方面,嵌入式設(shè)備的語(yǔ)音通道和計(jì)算資源都比PC差得多,從結(jié)果可以看出,這兩方面的因素基本抵消。

  從各分項(xiàng)前三名的正確率方差可以看出,漢語(yǔ)桌面連續(xù)語(yǔ)音識(shí)別和嵌入式設(shè)備命令詞分項(xiàng)中各系統(tǒng)的性能差異較小,而英語(yǔ)桌面連續(xù)語(yǔ)音識(shí)別,特別是一倍實(shí)時(shí)任務(wù)中各系統(tǒng)性能差異較大。這是因?yàn)楫?dāng)前語(yǔ)音識(shí)別的研究重點(diǎn)在于前者,研究者較多,研究也比較深入,而英語(yǔ)的識(shí)別相對(duì)來(lái)說(shuō)研究者較少。

  3. 影響系統(tǒng)識(shí)別性能的因素

  從上面的識(shí)別結(jié)果評(píng)價(jià)可以看出,對(duì)真實(shí)噪音環(huán)境下錄制的語(yǔ)音數(shù)據(jù),當(dāng)前的語(yǔ)音識(shí)別系統(tǒng)識(shí)別正確率偏低,還很難達(dá)到實(shí)用。

  從語(yǔ)音識(shí)別產(chǎn)生以來(lái),噪音一直是影響識(shí)別效果的主要因素。為了分析噪音對(duì)識(shí)別的影響,將評(píng)測(cè)數(shù)據(jù)按信噪比(SNR)分段,從參評(píng)系統(tǒng)選取三個(gè),分別計(jì)算其在各段內(nèi)的識(shí)別正確率,可以看出,識(shí)別正確率基本上隨著SNR的增大而提高,SNR在20dB以上的數(shù)據(jù)正確率比SNR在5~10dB的數(shù)據(jù)高近30個(gè)百分點(diǎn)。對(duì)桌面連續(xù)語(yǔ)音識(shí)別的其他分項(xiàng)和嵌入式命令詞識(shí)別的結(jié)果分析也得到類似的結(jié)果。

  對(duì)于電話連續(xù)語(yǔ)音識(shí)別來(lái)說(shuō),由于錄制環(huán)境是辦公室真實(shí)環(huán)境,因此噪音并不是影響性能的主要因素。電話連續(xù)語(yǔ)音識(shí)別分為5個(gè)子領(lǐng)域,每個(gè)子領(lǐng)域各有一套語(yǔ)法。評(píng)測(cè)句子由語(yǔ)法生成的有效成分在前后加上任意長(zhǎng)的填充詞(filler)構(gòu)成,如語(yǔ)法生成的句子為“從天安門到中關(guān)村怎么坐公交車”,而實(shí)際錄制的句子是“你好,請(qǐng)問(wèn)從天安門到中關(guān)村怎么坐公交車,可以查到嗎?”,其中的“你好,請(qǐng)問(wèn)”和“可以查到嗎”就是filler。由分析可以發(fā)現(xiàn),不同領(lǐng)域內(nèi)的槽識(shí)別正確率相差很大。這主要有兩個(gè)原因,一是不同領(lǐng)域的語(yǔ)法復(fù)雜度不同,二是不同領(lǐng)域內(nèi)有filler的句子所占比例不同。為了進(jìn)一步衡量filler對(duì)識(shí)別的影響,選取三個(gè)識(shí)別系統(tǒng),將有filler的句子和沒(méi)有filler的句子分別計(jì)算識(shí)別率,統(tǒng)計(jì)結(jié)果如圖2所示。從圖中可以看出,filler對(duì)識(shí)別的影響是相當(dāng)大的,無(wú)filler的句子比有filler的句子識(shí)別正確率可以高幾十個(gè)百分點(diǎn)。


  從上面的介紹可以看到,國(guó)內(nèi)語(yǔ)音識(shí)別研究發(fā)展迅速,識(shí)別性能日益提高,

  但在對(duì)真實(shí)環(huán)境下錄制的數(shù)據(jù),特別是信噪比較低的情況下,識(shí)別性能還無(wú)法達(dá)到實(shí)用要求。對(duì)于桌面連續(xù)語(yǔ)音和嵌入式設(shè)備上的孤立詞識(shí)別,對(duì)噪音的魯棒性不高是系統(tǒng)面臨的主要問(wèn)題。對(duì)于電話查詢系統(tǒng)來(lái)說(shuō),對(duì)語(yǔ)義的解析和無(wú)關(guān)語(yǔ)句的處理還存在一定困難。另外,對(duì)非朗讀的自然語(yǔ)音,如對(duì)話、會(huì)議內(nèi)容的識(shí)別,對(duì)電視廣播節(jié)目?jī)?nèi)容的識(shí)別或檢索近年來(lái)吸引了越來(lái)越多研究者的注意,國(guó)外的一些評(píng)測(cè)機(jī)構(gòu)也組織了這方面的評(píng)測(cè),863語(yǔ)音識(shí)別評(píng)測(cè)也在考慮增加相應(yīng)的項(xiàng)目?傊,863語(yǔ)音識(shí)別評(píng)測(cè)將繼續(xù)針對(duì)這些任務(wù),針對(duì)噪音、方言、自然語(yǔ)音等關(guān)鍵問(wèn)題構(gòu)建評(píng)測(cè)語(yǔ)料庫(kù),開展評(píng)測(cè),提供結(jié)果分析,組織討論交流,以促進(jìn)語(yǔ)音識(shí)別技術(shù)的發(fā)展。

計(jì)算機(jī)世界網(wǎng)(www.ccw.com.cn)



相關(guān)鏈接:
語(yǔ)音識(shí)別應(yīng)用促進(jìn)技術(shù)發(fā)展 2006-07-31
識(shí)別語(yǔ)音的幾種依據(jù) 2006-07-31
語(yǔ)音識(shí)別技術(shù)突飛猛進(jìn) 終有一天超過(guò)人? 2006-07-20
語(yǔ)音識(shí)別標(biāo)準(zhǔn)之痛 2006-06-19
你好!新語(yǔ)音識(shí)別時(shí)代 2006-06-01

相關(guān)頻道:           文摘   技術(shù)_語(yǔ)音識(shí)別_文摘