鄭方,1967年生于江蘇省,獲清華大學計算機科學與技術(shù)專業(yè)學士、碩士及博士學位,F(xiàn)為清華大學副教授,清華-adidsp技術(shù)研究中心主任及語音實驗室主任。鄭方作為主要承擔者或負責人參與了許多語音識別領(lǐng)域的國家重點攻關(guān)項目和863高科技項目并多次獲獎。另外,他還負責開發(fā)了若干基于ti和adi的dsp語音識別產(chǎn)品。他的專業(yè)興趣包括信號處理,聲學/語言模型建模,孤立詞/連續(xù)語音識別,關(guān)鍵詞檢出,語音聽寫,語言理解等。現(xiàn)為ieee會員,中國《中文信息學報》編委。他已發(fā)表40余篇有關(guān)語音處理的學術(shù)論文,其中數(shù)篇獲獎。
語音識別雖然已經(jīng)有比較大的進步,但必須有大的創(chuàng)新才可能有大的突破。主要包括以下幾個方面:
1.提高系統(tǒng)魯棒性和自適應能力,包括語音特征提取、聲學模型、語言模型等諸多方面的魯棒性和自適應等。
語音的特征提取和聲學模型對含噪語音、不同信道傳輸施加給語音的影響、不同發(fā)音人及其不同方式等要有魯棒性和自適應能力;語言模型對各種不同的應用領(lǐng)域要有魯棒性和自適應能力。
2.在語音識別中使用語音學知識和語言學知識。語音模型的建立仍然是一個基本問題,但對什么樣的發(fā)音建什么樣的模型就不僅是數(shù)學建模的問題,還需把語音知識和語言知識結(jié)合起來,以高層知識作為建模和識別的引導。這些知識不管在聲學模型部分還是在語言模型部分都應該盡可能應用。
3.重視海量語音庫和語料庫的制作和標注。語音庫用以訓練語音模型,語料庫則用以訓練統(tǒng)計語言模型,它們的制作和標注有著舉足輕重的地位。一個海量的、科學標注了的語音庫和語料庫對提高聲學模型和語言模型是非常重要的。
4.策略型和多模態(tài)方案。在目前的技術(shù)還不是特別成熟的前提下,可能需要綜合利用各種已有技術(shù)來提高系統(tǒng)的整體性能。比如充分利用各種可以利用的特征、集成各種識別性能互補的若干識別器、結(jié)合語音識別和手寫體文字識別,為用戶提供各種不同應用的方案。這些都是有益的解決方案。
5.窄帶應用和口語對話應用。語音聽寫機之所以不能很好推廣,也許是因為目前有不少出色的漢字輸入方法,如全拼、雙拼、五筆等。但是有些場合,如通過帶寬很窄的電話線對遠程的數(shù)據(jù)庫進行信息檢索和查詢(如天氣預報、旅游信息、股市行情、航班信息等)時,語音識別就會發(fā)揮很大的作用,從而會有很大的應用前景。這是因為,語音是非常自然的方式,而且由于電話上只有數(shù)字鍵,相對于用數(shù)字鍵進行逐級的需求確認來說,語音識別更具有競爭力。
在這種應用中,需要解決的技術(shù)難點包括:(一)由于電話信道帶寬窄(只有3.4khz),語音信號的信息損失較大,電話機和信道質(zhì)量差異大,背景噪音和信道噪音種類繁多,因此必須有性能優(yōu)異的語音增強、特征提取、語音識別與理解等算法。(二)由于說話人的在查詢時使用的都是自然語言,因此必須研究口語現(xiàn)象。(三)必須研究語言理解技術(shù)。聽寫機只能解決語音到文本的轉(zhuǎn)換,卻不知其意;但口語對話系統(tǒng)必須有語言理解部分才能知道用戶的查詢需求,并有針對性地提供相應的信息。
6.制定軟件開發(fā)工具(sdk)。為了推廣語音產(chǎn)品,制定方便中間開發(fā)人員使用sdk也非常重要。一些知名公司無不在此傾注力量,以期制定工業(yè)標準。如ibm的ibm sdk、微軟的microsoft sapi、dragon公司的dragon sdk、以及l(fā)&h公司的spark等都是用于開發(fā)語音產(chǎn)品的軟件開發(fā)工具。這也是國內(nèi)研發(fā)機構(gòu)需要學習和注意的地方。
得意音通公司供稿 原文《中國計算機報》,第91期,1999年12月6日