微軟:語音識別技術(shù)突飛猛進
Speech Recognition Leaps Forward 翻譯 2011/09/22
2011年國際語音通訊協(xié)會第12次年會(Interspeech 2011)于8月28日至31日在意大利佛羅倫薩舉行。來自微軟研究院的研究人員在會上發(fā)表了他們的研究成果,這些成果極大地提升了非特定人實時語音識別系統(tǒng)的潛力。
來自微軟雷德蒙研究院的研究員俞棟博士以及來自微軟亞洲研究院的高級研究員兼研究經(jīng)理Frank Seide是這項研究的帶頭人,兩支團隊精誠合作,在基于人工神經(jīng)網(wǎng)絡(luò)的大詞匯量語音識別研究中取得了重大突破。
語音識別研究的終極目標(biāo)
語音-文本轉(zhuǎn)換(voice-to-text)軟件和自動電話服務(wù)等應(yīng)用背后的關(guān)鍵技術(shù)是語音識別。在這些應(yīng)用中語音識別準(zhǔn)確率是至關(guān)重要的,而為了做到這一點,語音-文本轉(zhuǎn)換軟件通常要求用戶在安裝過程中對軟件進行“訓(xùn)練”,軟件本身也要隨著時間的推移慢慢適應(yīng)用戶的語音模式。需要與多個說話者互動的自動語音服務(wù)則不允許存在使用者對軟件進行訓(xùn)練的環(huán)節(jié),因為它們必須能夠在第一時間為任何用戶服務(wù)。為了解決識別準(zhǔn)確率較低的問題,這些系統(tǒng)要么只能處理很小的詞匯量,要么嚴(yán)格限制用戶可以使用的字句或模式。
自動語音識別的最終目標(biāo)是提供即買即用、可以自動快速適應(yīng)任何說話者的語音識別服務(wù),這個系統(tǒng)不需要用戶訓(xùn)練就可以針對所有用戶和各種條件,良好地發(fā)揮功用。
“這個目標(biāo)在移動互聯(lián)網(wǎng)時代顯得尤為重要,” 俞棟博士表示:“因為語音是智能手機和其他移動設(shè)備必不可缺的接口模式。雖然個人移動設(shè)備是采集和學(xué)習(xí)用戶語音的理想設(shè)備,但用戶只有在初始體驗,也就是在針對該用戶的模型建立之前的體驗非常良好時,才會繼續(xù)使用語音功能!
非特定人語音識別技術(shù)對于沒有機會或辦法適應(yīng)用戶的語音識別系統(tǒng)也非常重要,例如在呼叫中心,來電者身份是未知的,而且通話時間只有幾秒鐘;又例如用戶可能會因為擔(dān)心隱私問題而不愿意在提供“語音-語音(speech-to-speech)”翻譯的網(wǎng)絡(luò)服務(wù)中留存語音樣本。
重燃對神經(jīng)網(wǎng)絡(luò)的興趣
自20世紀(jì)50年代以來,人工神經(jīng)網(wǎng)絡(luò)(ANNs),也就是人類大腦低級回路的數(shù)學(xué)模型,就已經(jīng)為人們所熟知。利用人工神經(jīng)網(wǎng)絡(luò)改善語音識別性能的想法早在20世紀(jì)80年代就已出現(xiàn),而且一項名為人工神經(jīng)網(wǎng)絡(luò)-隱馬爾可夫混合模型(ANN - HMM)的技術(shù)顯示了其在大詞匯量語音識別中的潛力。那么,為什么商用語音識別系統(tǒng)反而不采納人工神經(jīng)網(wǎng)絡(luò)技術(shù)呢?
“這一切都?xì)w結(jié)于性能,” 俞棟博士解釋道:“在針對傳統(tǒng)的上下文相關(guān)的高斯混合模型-隱馬爾可夫模型(CD-GMM-HMMs)區(qū)分性訓(xùn)練算法發(fā)明后,高斯混合模型-隱馬爾可夫模型的精度得到了提升,并在大詞匯量語音識別方面的表現(xiàn)超過了人工神經(jīng)網(wǎng)絡(luò)模型。”
俞棟博士以及微軟雷德蒙研究院語音組的成員們對人工神經(jīng)網(wǎng)絡(luò)模型重新燃起興趣,是因為最近在訓(xùn)練更加復(fù)雜的深層神經(jīng)網(wǎng)絡(luò)(DNNs)方面取得了新的進展,這些進展使得基于人工神經(jīng)網(wǎng)絡(luò)的自動語音識別系統(tǒng)具有超越現(xiàn)有技術(shù)水平的潛力。2010年6月,多倫多大學(xué)實習(xí)生George Dahl加入研究團隊,研究人員開始探討如何利用深層神經(jīng)網(wǎng)絡(luò)改善大詞匯量語音識別。
“George帶來了對深層神經(jīng)網(wǎng)絡(luò)工作原理的深刻見解,” 俞棟博士說:“而且他在深層神經(jīng)網(wǎng)絡(luò)訓(xùn)練方面有著豐富的經(jīng)驗,而深層神經(jīng)網(wǎng)絡(luò)正是我們所要創(chuàng)建系統(tǒng)的關(guān)鍵組成部分之一!
語音識別系統(tǒng)在本質(zhì)上就是對語音組成單元進行建模。英語中表達(dá)發(fā)音方式的大約30個音素就是這樣的組成單元。最先進的語音識別系統(tǒng)使用更短的稱為senone的單元,總數(shù)達(dá)到幾千或上萬個。
之前的基于深層神經(jīng)網(wǎng)絡(luò)的語音識別系統(tǒng)就是對音素進行建模。俞棟博士的研究實現(xiàn)了一次飛躍,當(dāng)他與語音組首席研究員鄧力博士和首席研究員兼研究經(jīng)理Alex Acero博士討論之后,提出使用深層神經(jīng)網(wǎng)絡(luò)對數(shù)以千計的senones(一種比音素小很多的建模單元)直接建模。由此產(chǎn)生的論文《基于預(yù)訓(xùn)練的上下文相關(guān)深層神經(jīng)網(wǎng)絡(luò)的大詞匯語音識別》(Context-Dependent Pre-trained Deep Neural Networks for Large Vocabulary Speech Recognition)(由George Dahl、俞棟、鄧力和Alex Acero合著)描述了第一個成功應(yīng)用于大詞匯量語音識別系統(tǒng)的上下文相關(guān)的深層神經(jīng)網(wǎng)絡(luò)-隱馬爾可夫混合模型(CD-DNN-HMM)。
“也有人嘗試過上下文相關(guān)的人工神經(jīng)網(wǎng)絡(luò)模型,” 俞棟博士指出:“但他們使用的架構(gòu)效果不佳。在我們發(fā)現(xiàn)所用的新方法使語音搜索的準(zhǔn)確率大大提高地那一刻,我們非常激動。我們意識到,通過使用深層神經(jīng)網(wǎng)絡(luò)對senones直接建模,我們可以比最先進的常規(guī)CD-GMM-HMM大詞匯量語音識別系統(tǒng)相對誤差率減少16%以上?紤]到語音識別作為一個活躍的研究領(lǐng)域已經(jīng)存在了50多年,這樣的進展確實具有非常重要的意義。”
為了加速實驗,研究小組還使用了通用圖形處理器來進行語音模型訓(xùn)練和解碼。神經(jīng)網(wǎng)絡(luò)的計算在結(jié)構(gòu)上類似于電腦游戲中使用的3-D圖形,而現(xiàn)代的圖形卡可以同時處理近500個這樣的計算。在神經(jīng)網(wǎng)絡(luò)中運用這種計算能力大大提升了建?尚行浴
2010年10月,俞棟博士在微軟亞洲研究院的一次內(nèi)部研討中介紹了這篇論文,他提到在此基礎(chǔ)上開發(fā)性能更強的大詞匯量語音識別聲學(xué)模型面臨以下挑戰(zhàn):實現(xiàn)并行訓(xùn)練和使訓(xùn)練擴展到更大的訓(xùn)練集。Seide被這項研究深深觸動,他隨即加入該項目,并為團隊帶來了大詞匯量語音識別、系統(tǒng)開發(fā)和基準(zhǔn)測試等方面的經(jīng)驗。
神經(jīng)網(wǎng)絡(luò)基準(zhǔn)測試
“我們通常認(rèn)為數(shù)百上千的senones數(shù)量太大而無法用神經(jīng)網(wǎng)絡(luò)準(zhǔn)確地建模和訓(xùn)練,”Seide說:“然而,俞棟和他的同事們證明,這樣做不僅是可行的,而且還能顯著提高準(zhǔn)確率,F(xiàn)在,我們要證明的是這套CD-DNN-HMM模型可以有效使用更多的訓(xùn)練數(shù)據(jù)。”
在新項目中,CD-DNN-HMM模型被用于語音-文本轉(zhuǎn)換,并在研究界公認(rèn)的極具挑戰(zhàn)性的電話語音識別標(biāo)準(zhǔn)數(shù)據(jù)集Switchboard上進行評測。
首先,研究團隊對深層神經(jīng)網(wǎng)絡(luò)訓(xùn)練工具進行了改寫,以支持更大的訓(xùn)練數(shù)據(jù)集。然后,在微軟亞洲研究院軟件開發(fā)工程師李剛的幫助下,他們將新的模型和工具在含有300小時語音訓(xùn)練數(shù)據(jù)的Switchboard標(biāo)準(zhǔn)數(shù)據(jù)集上進行評測。為了支持如此大量的數(shù)據(jù),研究人員建立了一些巨大的神經(jīng)網(wǎng)絡(luò)模型,其中一個包含了6,600多萬神經(jīng)間連結(jié),這是語音識別研究史上最大的同類模型。
隨后的基準(zhǔn)測試取得了令人驚訝的低字詞錯誤率——18.5%,與最先進的常規(guī)系統(tǒng)相比,相對錯誤率減少了33%。
“我們開始運行Switchboard基準(zhǔn)測試時,”回憶說:“我們只期望實現(xiàn)類似語音搜索任務(wù)中所觀察到的結(jié)果,也就是16-20%的相對改善。整個訓(xùn)練過程大約花費了20天的計算時間,而且每隔幾個小時就產(chǎn)生一個稍稍改良的新模型。每隔幾個小時,我都會迫不及待地測試最新模型。你無法想象,當(dāng)相對改善超出預(yù)期的20%時,我們有多興奮,而且模型仍在不斷改善,最后定格在30%以上。過去,只有極少數(shù)的單項技術(shù)能在語音識別方面實現(xiàn)如此幅度的改善!
由此產(chǎn)生的論文題為《使用上下文相關(guān)深層神經(jīng)網(wǎng)絡(luò)進行交談?wù)Z音轉(zhuǎn)寫》(Conversational Speech Transcription Using Context-Dependent Deep Neural Networks)(由Frank Seide、李剛和俞棟合著),已經(jīng)于8月29日發(fā)表。這項工作已經(jīng)引起了科研界的高度重視,而研究團隊希望通過在會議上發(fā)表這篇論文進一步啟迪這條新的研究路徑,并最終將基于深層神經(jīng)網(wǎng)絡(luò)的大詞匯量語音識別推到一個新的高度。
離未來更近了一步
這種基于人工神經(jīng)網(wǎng)絡(luò)的非特定人語音識別新方法所實現(xiàn)的識別準(zhǔn)確率比常規(guī)系統(tǒng)高出了三分之一以上,俞棟、Seide和他們的團隊向著流暢的“語音-語音交互”這一目標(biāo)又邁進了一大步。這項創(chuàng)新簡化了大詞匯量語音識別中的語音處理,能實時識別并取得較高的準(zhǔn)確率。
“這項工作仍處于研究階段,還會面臨很多挑戰(zhàn),其中最嚴(yán)峻的挑戰(zhàn)在于擴展到使用數(shù)萬小時訓(xùn)練數(shù)據(jù)。我們的研究成果只是一個開始,這一領(lǐng)域?qū)磉會有更多令人振奮的進展!盨eide說:“我們的目標(biāo)是實現(xiàn)以前沒法實現(xiàn)的新的基于語音的流暢服務(wù)。我們相信,這項研究最終將改變我們的工作和生活。想象一下吧:用語音-語音實時翻譯進行自然流暢的交談,用語音進行檢索,或者用交談式自然語言進行人機互動!
微軟亞洲研究院博客
相關(guān)閱讀: