在發(fā)達(dá)國(guó)家各種各樣基于語(yǔ)音識(shí)別技術(shù)的產(chǎn)品已經(jīng)可以買(mǎi)到,如具有聲控?fù)芴?hào)電話,語(yǔ)音記事本等等。語(yǔ)音電話服務(wù)、數(shù)據(jù)查詢(xún)服務(wù)也已經(jīng)部分實(shí)現(xiàn)。基于特定任務(wù)和環(huán)境的聽(tīng)寫(xiě)機(jī)也已經(jīng)進(jìn)入應(yīng)用階段。語(yǔ)音識(shí)別技術(shù)是非常重要的人機(jī)交互技術(shù),有著非常廣泛的應(yīng)用前景。
說(shuō)話者自適應(yīng)技術(shù)近年在語(yǔ)音識(shí)別系統(tǒng)的研究中也備受重視,這是由于與人有關(guān)的語(yǔ)音識(shí)別系統(tǒng)比與人無(wú)關(guān)的語(yǔ)音識(shí)別系統(tǒng)的識(shí)別率要高很多。通過(guò)有效的自適應(yīng)手段可以很快地提高系統(tǒng)的識(shí)別能力。實(shí)際上說(shuō)話人自適應(yīng)技術(shù)和穩(wěn)健語(yǔ)音自適應(yīng)技術(shù)是相通的。由于不同的說(shuō)話人在聲道長(zhǎng)度,說(shuō)話口音方式都很不一樣。說(shuō)話者自適應(yīng)技術(shù)也主要是從以下兩方面著手。
靜態(tài)處理方法。從特征提取或訓(xùn)練階段就盡可能減少來(lái)自說(shuō)話人的變化因素對(duì)模型的貢獻(xiàn)?梢赃M(jìn)行聲道參數(shù)的歸一化處理或?qū)φf(shuō)話人進(jìn)行分類(lèi)處理,如分男女聲的識(shí)別系統(tǒng)就是其中的一個(gè)典型,但實(shí)際上僅僅從男女聲上對(duì)模型分類(lèi)還是太粗,可以通過(guò)有效的聚類(lèi)方法進(jìn)行分類(lèi)。這類(lèi)方法統(tǒng)稱(chēng)為聲學(xué)歸一化處理方法。
動(dòng)態(tài)處理方法。對(duì)預(yù)先訓(xùn)練好的與人無(wú)關(guān)識(shí)別系統(tǒng),通過(guò)臨時(shí)得到的特定人語(yǔ)音數(shù)據(jù)對(duì)系統(tǒng)的模板或特征參數(shù)進(jìn)行自適應(yīng)修正,從而在原有系統(tǒng)基礎(chǔ)上建立一個(gè)用于特定任務(wù)、特定環(huán)境或特定說(shuō)話人的系統(tǒng),這類(lèi)方法統(tǒng)稱(chēng)為自適應(yīng)方法。自適應(yīng)方法可分為: 批模式、累進(jìn)模式、即時(shí)模式; 按自適應(yīng)學(xué)習(xí)策略又分為無(wú)監(jiān)督學(xué)習(xí)和有監(jiān)督學(xué)習(xí)。從用戶(hù)使用的方便程度來(lái)看是由難到易,而算法實(shí)現(xiàn)則是由易到難。采用何種策略取決于應(yīng)用背景,對(duì)識(shí)別率的要求等因素。對(duì)于聽(tīng)寫(xiě)機(jī)等應(yīng)用來(lái)說(shuō),最具吸引力的是累進(jìn)、無(wú)監(jiān)督的自適應(yīng)方式,也稱(chēng)在線自適應(yīng)。
語(yǔ)言模型也是目前研究的一個(gè)重要方面。目前的語(yǔ)言模型是與任務(wù)有關(guān)的,典型的統(tǒng)計(jì)語(yǔ)言模型是通過(guò)大量任務(wù)特定的語(yǔ)料訓(xùn)練出來(lái)的。通過(guò)新聞?wù)Z料訓(xùn)練出來(lái)的模型不能很好地工作于法律方面的文件語(yǔ)音識(shí)別。有幾種方法用于解決這些問(wèn)題。一種是使用自適應(yīng)語(yǔ)言模型。在靜態(tài)語(yǔ)言模型的基礎(chǔ)上,通過(guò)一個(gè)高速緩沖存儲(chǔ)器對(duì)語(yǔ)言模型進(jìn)行動(dòng)態(tài)的修正; 另一種是先訓(xùn)練多領(lǐng)域語(yǔ)言模型,然后通過(guò)混合高斯模型將這些模型結(jié)合在一起; 還有一種比較好的辦法是使用大顆粒的語(yǔ)言模型,如基于類(lèi)的語(yǔ)言模型,而不是基于詞的語(yǔ)言模型,類(lèi)可以是詞性類(lèi),詞義類(lèi),以及由一定的數(shù)據(jù)驅(qū)動(dòng)的聚類(lèi)算法產(chǎn)生的各種類(lèi)。
由于不同詞可以屬于同一類(lèi),這樣類(lèi)比較大,構(gòu)成的語(yǔ)言模型就比較穩(wěn)健。其關(guān)鍵的問(wèn)題是如何決定詞的分類(lèi),由于詞的分類(lèi)比較復(fù)雜,同一詞可能屬于不同的類(lèi),特別是解決如何通過(guò)計(jì)算機(jī)實(shí)現(xiàn)自動(dòng)分類(lèi)的算法,即使用數(shù)據(jù)驅(qū)動(dòng)算法也還沒(méi)有很好地解決;诮y(tǒng)計(jì)技術(shù)的計(jì)算語(yǔ)言學(xué)已經(jīng)越來(lái)越受到重視,它解決了單獨(dú)規(guī)則語(yǔ)言模型不能解決的一些問(wèn)題。當(dāng)然統(tǒng)計(jì)語(yǔ)言模型也不能解決全部問(wèn)題,因此如何把統(tǒng)計(jì)語(yǔ)言模型和基于規(guī)則的語(yǔ)言模型結(jié)合也是語(yǔ)言模型研究的重點(diǎn)之一。
目前不同快速語(yǔ)音識(shí)別算法都在開(kāi)發(fā)中。其中包括對(duì)HMM狀態(tài)輸出的概率分布進(jìn)行矢量量化,縮小搜索空間算法,減少計(jì)算機(jī)的內(nèi)存需求方法,以及結(jié)合計(jì)算機(jī)結(jié)構(gòu)特點(diǎn)的編程技術(shù)的應(yīng)用。
鏈接:穩(wěn)健語(yǔ)音識(shí)別技術(shù) 語(yǔ)音識(shí)別系統(tǒng)的穩(wěn)健性技術(shù)是到目前還沒(méi)有解決好的重要問(wèn)題。穩(wěn)健語(yǔ)音識(shí)別要解決的問(wèn)題是訓(xùn)練環(huán)境和實(shí)用環(huán)境不同而導(dǎo)致的不匹配問(wèn)題。由于環(huán)境變化多種多樣,識(shí)別系統(tǒng)要面對(duì)不同說(shuō)話風(fēng)格的人(包括說(shuō)話快慢、音調(diào)、重音變化、情緒變化、年齡不同、聲道長(zhǎng)度的不同等等)、不同麥克風(fēng)的種類(lèi)(包括麥克風(fēng)的相對(duì)位置和方向變化)、信道畸變和噪聲,以及說(shuō)話的環(huán)境(包括房屋回響、背景噪聲等)。
穩(wěn)健語(yǔ)音識(shí)別技術(shù)包括三個(gè)方面:1. 穩(wěn)健語(yǔ)音特征提取和預(yù)處理技術(shù)。其中包括噪聲掩蓋處理技術(shù)、特征變換、聽(tīng)覺(jué)模型,以及不同穩(wěn)健和可信度測(cè)度的研究。研究的中心是最大可能的開(kāi)采語(yǔ)音中的整體信息,以便盡可能地減少噪聲的干擾。2. 多樣式的訓(xùn)練是一種有效方法,但這種訓(xùn)練要求取得大量不同噪聲情況下的語(yǔ)音數(shù)據(jù),這使該種方法實(shí)現(xiàn)非常困難。3.自適應(yīng)的特征或模型的補(bǔ)償技術(shù)。其中包括簡(jiǎn)單的自適應(yīng)均值偏差消除,進(jìn)一步包括方差補(bǔ)償,線性和非線性的回歸和變換,基于狀態(tài)的濾波,語(yǔ)音和噪聲復(fù)合模型,最大后驗(yàn)自適應(yīng)算法,隨機(jī)匹配算法。這些不同技術(shù)有的僅僅在不同的小范圍內(nèi)獲得有限成功,還沒(méi)有一種技術(shù)在大詞匯量的語(yǔ)音識(shí)別系統(tǒng)中獲得成功。
計(jì)算機(jī)世界網(wǎng)(www.ccw.com.cn)