欧美,精品,综合,亚洲,好吊妞视频免新费观看,免费观看三级吃奶,一级a片女人自慰免费看

 首頁 > 技術(shù) > 技術(shù)文摘 > 語音識別:抗噪音能力有待加強

語音識別:抗噪音能力有待加強

2006-08-11 00:00:00   作者:   來源:   評論:0 點擊:




  從2003年起,中國科學(xué)院計算技術(shù)研究所連續(xù)三年承辦863計劃中文信息處理與智能人機接口技術(shù)評測,語音識別評測始終是其中的一個主要分項。三年間,863語音識別評測受到了國內(nèi)外語音識別研究者的關(guān)注,參加單位數(shù)逐年遞增,成為國內(nèi)語音識別領(lǐng)域最高級別的交流平臺,在國際上也具備了相當(dāng)?shù)挠绊懥Α?

  2003年和2004年度語音識別評測采用現(xiàn)場評測方式,即各參評系統(tǒng)的運行在評測現(xiàn)場同時進行。這種組織形式比較嚴(yán)格,一旦參評系統(tǒng)運行出現(xiàn)故障將無法繼續(xù)。而且,要求所有參評單位必須到場,其成本也較高。為了避免這些問題,2005年的863評測采用目前國際通用的網(wǎng)上評測的方法,即在網(wǎng)上發(fā)布數(shù)據(jù),各參評單位在自己的運行環(huán)境上運行參評系統(tǒng)后將識別結(jié)果通過網(wǎng)絡(luò)提交給評測單位。

  863語音識別評測最大的特色在于測試數(shù)據(jù)的選取。文本語料的選取采用從大規(guī)模原始語料庫中篩選的方法,充分考慮到了對各種韻律學(xué)特征(音節(jié)、二音子、三音子、音連關(guān)系等)、語法特征(句型和句法結(jié)構(gòu)等)和各種領(lǐng)域、各種文體(散文、小說、實事新聞等)的覆蓋。錄音時不是采用實驗室加噪聲,而是在完全真實的場景中錄制數(shù)據(jù),并且充分考慮到了說話人、信噪比等因素的覆蓋,在實驗的基礎(chǔ)上提出了真實環(huán)境中信噪比的分布模型,并在此模型的指導(dǎo)下錄制數(shù)據(jù)。這種以實驗和理論為依據(jù)、以算法為支撐,控制各種語音屬性,從而最大限度地擬合真實應(yīng)用的數(shù)據(jù)采集方法,在國際上也是很有特色的。目前國際上的同類評測,錄音場景多為實驗室,對各種影響因素一般只做寬泛的覆蓋,幾乎沒有按理論模型控制的方法。

  863語音識別評測的另一個特點是對結(jié)果做了充分的統(tǒng)計分析。目前的國際評測一般除給出相應(yīng)的指標(biāo)外,還會做一些統(tǒng)計分析,而之前的國內(nèi)評測卻很少這么做。從2004年開始,863語音識別評測也開始對結(jié)果進行統(tǒng)計分析,而在2005年的評測中,更是采用專業(yè)統(tǒng)計學(xué)方法,采用實驗設(shè)計、假設(shè)檢驗、回歸分析、方差分析、協(xié)方差分析等一系方法對結(jié)果及影響結(jié)果的因素進行了深入分析,對各評測單位認(rèn)清自己系統(tǒng)的優(yōu)勢和缺點,進一步改進起到了很大作用。

  另外,在電話連續(xù)語音關(guān)鍵詞識別評測中,在2004年嘗試了以語義槽為單位的基于語法關(guān)鍵詞識別任務(wù)和評測指標(biāo),在2005年首次使用了兩個說話人一起錄制的自然對話語音,更加符合真實應(yīng)用的特點,這在國際同類評測中都是沒有的。

  從評測結(jié)果看語音識別技術(shù)現(xiàn)狀

  863語音識別評測,包括PC、電話、嵌入式設(shè)備三個語音通道,涉及聽寫機、對話查詢、命令詞識別等多種任務(wù),基本上涵蓋了當(dāng)前語音識別的主要研究和應(yīng)用方向。而參評的又大都是國內(nèi)長期進行該項研究、有較高水平的單位和系統(tǒng),因此,無論是采用的方法還是識別的效果,本次評測都可以真實反映出國內(nèi)語音識別技術(shù)的現(xiàn)狀。這里結(jié)合2004年的評測,對評測結(jié)果進行分析。之所以選擇2004年的評測結(jié)果,是因為它的評測分項最全,幾乎覆蓋了語音識別的各種應(yīng)用。

  1. 識別結(jié)果的評價

  評測的主要目標(biāo)就是通過對識別結(jié)果的評價、分析了解參評系統(tǒng)的性能的和語音技術(shù)的現(xiàn)狀。因此,制訂有效的、能夠真實反映出系統(tǒng)性能的評價指標(biāo)也是很重要的研究任務(wù)。

  對于大詞匯量連續(xù)語音識別來說,國際上通用的指標(biāo)是文字錯誤率(對于英語,文字指單詞; 對于漢語,文字指字,下同)。其基本思想為采用動態(tài)規(guī)劃算法將標(biāo)準(zhǔn)答案與識別結(jié)果對齊,以得到“正確文字?jǐn)?shù)”、“替換文字?jǐn)?shù)”、“插入文字?jǐn)?shù)”、“刪除文字?jǐn)?shù)”四項參數(shù),然后計算文字錯誤率。

  錯誤文字?jǐn)?shù) = 替換 + 插入 + 刪除文字?jǐn)?shù)

  文字錯誤率 = 錯誤文字?jǐn)?shù) / 原文答案文字?jǐn)?shù)

  下面給出一個例子:

  LAB: 新 增 四 百 萬 千 瓦 時 的 強 大 電 流 輸 入 云 南 的 電 網(wǎng)

  REC: 新 增 四 百 花 錢 忙 時 的 槍 打 電 流 于 樹 綠 云 南 電 網(wǎng)

  C C C C N N N C C N N C C I N N C C D C C

  其中,LAB是標(biāo)準(zhǔn)答案,REC是識別結(jié)果,上面的格式是根據(jù)編輯距離最小對齊的結(jié)果,第三行標(biāo)記了各類文字,C表示正確文字,N表示替換文字,I表示插入文字,D表示刪除文字。

  2004年863語音識別評測中的電話連續(xù)語音識別評測分項采用的主要指標(biāo)是語義槽識別正確率,即用語料文本解析得到的標(biāo)準(zhǔn)答案和識別結(jié)果相比較,完全匹配的槽認(rèn)為是識別正確的,定義槽識別正確率為:

  槽識別正確率 = 正確識別的槽的個數(shù) / 標(biāo)準(zhǔn)答案中槽的總數(shù)

  對于嵌入式設(shè)備命令詞識別,由于是孤立詞識別,因此采用命令詞識別正確率即可:

  命令詞識別正確率 = 正確識別的命令詞數(shù) / 命令詞總數(shù)

  2. 識別系統(tǒng)性能

  對各系統(tǒng)給出的識別結(jié)果計算上述指標(biāo),得到對各系統(tǒng)識別性能的評價。表1給出了每個分項中識別效果最好的系統(tǒng)的指標(biāo),以及前三名系統(tǒng)的平均指標(biāo)。為了統(tǒng)一,將電話連續(xù)語音識別中的槽識別正確率和嵌入式設(shè)備命令詞識別中的命令詞識別正確率統(tǒng)稱為正確率。對桌面(這里指PC,以下同)連續(xù)語音識別,采用文字正確率,定義為(目前研究者對文字正確率定義稍有不同,本文中一律以下面的定義為準(zhǔn)):

  文字正確率 = 1 - 文字錯誤率

  表中的最高正確率基本可以代表該分項的最高水平,前三名的正確率均值可以一定程度上反映該分項的平均水平,而前三名正確率的方差可以反映該分項中各系統(tǒng)的性能差異程度。

  從表中可以看到,桌面連續(xù)語音識別分項中,漢語的識別效果遠(yuǎn)遠(yuǎn)好于英語(文字正確率最多相差20個百分點)。其原因顯然在于國內(nèi)對漢語語音識別的研究比英語多而且深入。另外,英語訓(xùn)練語料的相對缺乏,也是一個重要原因。

  在采用了語法限制的語義槽識別任務(wù)和槽識別正確率作為評測指標(biāo)后,電話連續(xù)語音的槽識別正確率較低。事實上,由于電話語音的錄制環(huán)境為辦公室環(huán)境,其噪音比桌面語音要小得多,所以正確率較低的原因主要在于對語法的處理和槽識別正確率較低。

  嵌入式設(shè)備命令詞識別的正確率與桌面語音字正確率大致相當(dāng)。一方面,連續(xù)語音識別要比孤立詞識別困難,另一方面,嵌入式設(shè)備的語音通道和計算資源都比PC差得多,從結(jié)果可以看出,這兩方面的因素基本抵消。

  從各分項前三名的正確率方差可以看出,漢語桌面連續(xù)語音識別和嵌入式設(shè)備命令詞分項中各系統(tǒng)的性能差異較小,而英語桌面連續(xù)語音識別,特別是一倍實時任務(wù)中各系統(tǒng)性能差異較大。這是因為當(dāng)前語音識別的研究重點在于前者,研究者較多,研究也比較深入,而英語的識別相對來說研究者較少。

  3. 影響系統(tǒng)識別性能的因素

  從上面的識別結(jié)果評價可以看出,對真實噪音環(huán)境下錄制的語音數(shù)據(jù),當(dāng)前的語音識別系統(tǒng)識別正確率偏低,還很難達到實用。

  從語音識別產(chǎn)生以來,噪音一直是影響識別效果的主要因素。為了分析噪音對識別的影響,將評測數(shù)據(jù)按信噪比(SNR)分段,從參評系統(tǒng)選取三個,分別計算其在各段內(nèi)的識別正確率,可以看出,識別正確率基本上隨著SNR的增大而提高,SNR在20dB以上的數(shù)據(jù)正確率比SNR在5~10dB的數(shù)據(jù)高近30個百分點。對桌面連續(xù)語音識別的其他分項和嵌入式命令詞識別的結(jié)果分析也得到類似的結(jié)果。

  對于電話連續(xù)語音識別來說,由于錄制環(huán)境是辦公室真實環(huán)境,因此噪音并不是影響性能的主要因素。電話連續(xù)語音識別分為5個子領(lǐng)域,每個子領(lǐng)域各有一套語法。評測句子由語法生成的有效成分在前后加上任意長的填充詞(filler)構(gòu)成,如語法生成的句子為“從天安門到中關(guān)村怎么坐公交車”,而實際錄制的句子是“你好,請問從天安門到中關(guān)村怎么坐公交車,可以查到嗎?”,其中的“你好,請問”和“可以查到嗎”就是filler。由分析可以發(fā)現(xiàn),不同領(lǐng)域內(nèi)的槽識別正確率相差很大。這主要有兩個原因,一是不同領(lǐng)域的語法復(fù)雜度不同,二是不同領(lǐng)域內(nèi)有filler的句子所占比例不同。為了進一步衡量filler對識別的影響,選取三個識別系統(tǒng),將有filler的句子和沒有filler的句子分別計算識別率,統(tǒng)計結(jié)果如圖2所示。從圖中可以看出,filler對識別的影響是相當(dāng)大的,無filler的句子比有filler的句子識別正確率可以高幾十個百分點。


  從上面的介紹可以看到,國內(nèi)語音識別研究發(fā)展迅速,識別性能日益提高,

  但在對真實環(huán)境下錄制的數(shù)據(jù),特別是信噪比較低的情況下,識別性能還無法達到實用要求。對于桌面連續(xù)語音和嵌入式設(shè)備上的孤立詞識別,對噪音的魯棒性不高是系統(tǒng)面臨的主要問題。對于電話查詢系統(tǒng)來說,對語義的解析和無關(guān)語句的處理還存在一定困難。另外,對非朗讀的自然語音,如對話、會議內(nèi)容的識別,對電視廣播節(jié)目內(nèi)容的識別或檢索近年來吸引了越來越多研究者的注意,國外的一些評測機構(gòu)也組織了這方面的評測,863語音識別評測也在考慮增加相應(yīng)的項目?傊863語音識別評測將繼續(xù)針對這些任務(wù),針對噪音、方言、自然語音等關(guān)鍵問題構(gòu)建評測語料庫,開展評測,提供結(jié)果分析,組織討論交流,以促進語音識別技術(shù)的發(fā)展。

計算機世界網(wǎng)(www.ccw.com.cn)

相關(guān)閱讀:

分享到: 收藏

專題