首頁 > 技術(shù) > 技術(shù)文摘 > 微軟:語音識別技術(shù)突飛猛進

微軟:語音識別技術(shù)突飛猛進

2011-09-22 00:00:00 作者：來源：評論：0 點擊：

　　2011年國際語音通訊協(xié)會第12次年會（Interspeech 2011）于8月28日至31日在意大利佛羅倫薩舉行。來自微軟研究院的研究人員在會上發(fā)表了他們的研究成果，這些成果極大地提升了非特定人實時語音識別系統(tǒng)的潛力。
　　來自微軟雷德蒙研究院的研究員俞棟博士以及來自微軟亞洲研究院的高級研究員兼研究經(jīng)理Frank Seide是這項研究的帶頭人，兩支團隊精誠合作，在基于人工神經(jīng)網(wǎng)絡的大詞匯量語音識別研究中取得了重大突破。

　　自動語音識別的最終目標是提供即買即用、可以自動快速適應任何說話者的語音識別服務，這個系統(tǒng)不需要用戶訓練就可以針對所有用戶和各種條件，良好地發(fā)揮功用。
　　“這個目標在移動互聯(lián)網(wǎng)時代顯得尤為重要，” 俞棟博士表示：“因為語音是智能手機和其他移動設(shè)備必不可缺的接口模式。雖然個人移動設(shè)備是采集和學習用戶語音的理想設(shè)備，但用戶只有在初始體驗，也就是在針對該用戶的模型建立之前的體驗非常良好時，才會繼續(xù)使用語音功能�！�
　　非特定人語音識別技術(shù)對于沒有機會或辦法適應用戶的語音識別系統(tǒng)也非常重要，例如在呼叫中心，來電者身份是未知的，而且通話時間只有幾秒鐘；又例如用戶可能會因為擔心隱私問題而不愿意在提供“語音-語音（speech-to-speech）”翻譯的網(wǎng)絡服務中留存語音樣本。
　　重燃對神經(jīng)網(wǎng)絡的興趣
　　自20世紀50年代以來，人工神經(jīng)網(wǎng)絡（ANNs），也就是人類大腦低級回路的數(shù)學模型，就已經(jīng)為人們所熟知。利用人工神經(jīng)網(wǎng)絡改善語音識別性能的想法早在20世紀80年代就已出現(xiàn)，而且一項名為人工神經(jīng)網(wǎng)絡-隱馬爾可夫混合模型（ANN - HMM）的技術(shù)顯示了其在大詞匯量語音識別中的潛力。那么，為什么商用語音識別系統(tǒng)反而不采納人工神經(jīng)網(wǎng)絡技術(shù)呢？
　　“這一切都歸結(jié)于性能，” 俞棟博士解釋道：“在針對傳統(tǒng)的上下文相關(guān)的高斯混合模型-隱馬爾可夫模型（CD-GMM-HMMs）區(qū)分性訓練算法發(fā)明后，高斯混合模型-隱馬爾可夫模型的精度得到了提升，并在大詞匯量語音識別方面的表現(xiàn)超過了人工神經(jīng)網(wǎng)絡模型�！�
　　俞棟博士以及微軟雷德蒙研究院語音組的成員們對人工神經(jīng)網(wǎng)絡模型重新燃起興趣，是因為最近在訓練更加復雜的深層神經(jīng)網(wǎng)絡（DNNs）方面取得了新的進展，這些進展使得基于人工神經(jīng)網(wǎng)絡的自動語音識別系統(tǒng)具有超越現(xiàn)有技術(shù)水平的潛力。2010年6月，多倫多大學實習生George Dahl加入研究團隊，研究人員開始探討如何利用深層神經(jīng)網(wǎng)絡改善大詞匯量語音識別。
　　“George帶來了對深層神經(jīng)網(wǎng)絡工作原理的深刻見解，” 俞棟博士說：“而且他在深層神經(jīng)網(wǎng)絡訓練方面有著豐富的經(jīng)驗，而深層神經(jīng)網(wǎng)絡正是我們所要創(chuàng)建系統(tǒng)的關(guān)鍵組成部分之一。”
　　語音識別系統(tǒng)在本質(zhì)上就是對語音組成單元進行建模。英語中表達發(fā)音方式的大約30個音素就是這樣的組成單元。最先進的語音識別系統(tǒng)使用更短的稱為senone的單元，總數(shù)達到幾千或上萬個。
　　之前的基于深層神經(jīng)網(wǎng)絡的語音識別系統(tǒng)就是對音素進行建模。俞棟博士的研究實現(xiàn)了一次飛躍，當他與語音組首席研究員鄧力博士和首席研究員兼研究經(jīng)理Alex Acero博士討論之后，提出使用深層神經(jīng)網(wǎng)絡對數(shù)以千計的senones（一種比音素小很多的建模單元）直接建模。由此產(chǎn)生的論文《基于預訓練的上下文相關(guān)深層神經(jīng)網(wǎng)絡的大詞匯語音識別》（Context-Dependent Pre-trained Deep Neural Networks for Large Vocabulary Speech Recognition）（由George Dahl、俞棟、鄧力和Alex Acero合著）描述了第一個成功應用于大詞匯量語音識別系統(tǒng)的上下文相關(guān)的深層神經(jīng)網(wǎng)絡-隱馬爾可夫混合模型（CD-DNN-HMM）。
　　“也有人嘗試過上下文相關(guān)的人工神經(jīng)網(wǎng)絡模型，” 俞棟博士指出：“但他們使用的架構(gòu)效果不佳。在我們發(fā)現(xiàn)所用的新方法使語音搜索的準確率大大提高地那一刻，我們非常激動。我們意識到，通過使用深層神經(jīng)網(wǎng)絡對senones直接建模，我們可以比最先進的常規(guī)CD-GMM-HMM大詞匯量語音識別系統(tǒng)相對誤差率減少16％以上�？紤]到語音識別作為一個活躍的研究領(lǐng)域已經(jīng)存在了50多年，這樣的進展確實具有非常重要的意義�！�
　　為了加速實驗，研究小組還使用了通用圖形處理器來進行語音模型訓練和解碼。神經(jīng)網(wǎng)絡的計算在結(jié)構(gòu)上類似于電腦游戲中使用的3-D圖形，而現(xiàn)代的圖形卡可以同時處理近500個這樣的計算。在神經(jīng)網(wǎng)絡中運用這種計算能力大大提升了建�？尚行浴�
　　2010年10月，俞棟博士在微軟亞洲研究院的一次內(nèi)部研討中介紹了這篇論文，他提到在此基礎(chǔ)上開發(fā)性能更強的大詞匯量語音識別聲學模型面臨以下挑戰(zhàn)：實現(xiàn)并行訓練和使訓練擴展到更大的訓練集。Seide被這項研究深深觸動，他隨即加入該項目，并為團隊帶來了大詞匯量語音識別、系統(tǒng)開發(fā)和基準測試等方面的經(jīng)驗。
　　神經(jīng)網(wǎng)絡基準測試
　　“我們通常認為數(shù)百上千的senones數(shù)量太大而無法用神經(jīng)網(wǎng)絡準確地建模和訓練，”Seide說：“然而，俞棟和他的同事們證明，這樣做不僅是可行的，而且還能顯著提高準確率�，F(xiàn)在，我們要證明的是這套CD-DNN-HMM模型可以有效使用更多的訓練數(shù)據(jù)�！�
微軟亞洲研究院高級研究員 Frank Seide

　　首先，研究團隊對深層神經(jīng)網(wǎng)絡訓練工具進行了改寫，以支持更大的訓練數(shù)據(jù)集。然后，在微軟亞洲研究院軟件開發(fā)工程師李剛的幫助下，他們將新的模型和工具在含有300小時語音訓練數(shù)據(jù)的Switchboard標準數(shù)據(jù)集上進行評測。為了支持如此大量的數(shù)據(jù)，研究人員建立了一些巨大的神經(jīng)網(wǎng)絡模型，其中一個包含了6,600多萬神經(jīng)間連結(jié)，這是語音識別研究史上最大的同類模型。
　　隨后的基準測試取得了令人驚訝的低字詞錯誤率——18.5％，與最先進的常規(guī)系統(tǒng)相比，相對錯誤率減少了33％。
　　由此產(chǎn)生的論文題為《使用上下文相關(guān)深層神經(jīng)網(wǎng)絡進行交談語音轉(zhuǎn)寫》（Conversational Speech Transcription Using Context-Dependent Deep Neural Networks）（由Frank Seide、李剛和俞棟合著），已經(jīng)于8月29日發(fā)表。這項工作已經(jīng)引起了科研界的高度重視，而研究團隊希望通過在會議上發(fā)表這篇論文進一步啟迪這條新的研究路徑，并最終將基于深層神經(jīng)網(wǎng)絡的大詞匯量語音識別推到一個新的高度。

　　“這項工作仍處于研究階段，還會面臨很多挑戰(zhàn)，其中最嚴峻的挑戰(zhàn)在于擴展到使用數(shù)萬小時訓練數(shù)據(jù)。我們的研究成果只是一個開始，這一領(lǐng)域?qū)磉€會有更多令人振奮的進展�！盨eide說：“我們的目標是實現(xiàn)以前沒法實現(xiàn)的新的基于語音的流暢服務。我們相信，這項研究最終將改變我們的工作和生活。想象一下吧：用語音-語音實時翻譯進行自然流暢的交談，用語音進行檢索，或者用交談式自然語言進行人機互動�！�

微軟亞洲研究院博客

相關(guān)熱詞搜索：

上一篇:VoIP通話應用Line 2：無限制免費撥打電話

下一篇:讓三網(wǎng)融合試點總結(jié)更客觀有效一些

相關(guān)閱讀：

分享到：