語音識(shí)別重在應(yīng)用
2001/11/14
近兩年CPU的發(fā)展很快,語音識(shí)別中的算法也日益精湛,兩者有機(jī)地集成在一起后,應(yīng)用的條件就日趨成熟了。
從語音識(shí)別技術(shù)的角度來看,目前有3個(gè)研究發(fā)展方向,即面向電腦、電話和手機(jī)的應(yīng)用。電腦的語音錄入應(yīng)用是指電腦能夠把人所說的話記錄下來,解決文字輸入的問題;電話的語音識(shí)別應(yīng)用是借助通信平臺(tái),實(shí)現(xiàn)語音技術(shù)的更廣泛應(yīng)用;手機(jī)的語音識(shí)別應(yīng)用是嵌入式的語音識(shí)別技術(shù),實(shí)現(xiàn)手機(jī)、尋呼機(jī)在移動(dòng)通信中的語音識(shí)別應(yīng)用。據(jù)專業(yè)人士預(yù)測(cè),5~10年以后,上述3個(gè)方向?qū)?huì)發(fā)生相互融合。
IBM公司在電腦的語音錄入方面取得了重大的突破,Philips則在不斷挑戰(zhàn)手機(jī)的語音識(shí)別的難題。而言豐科技所研究的領(lǐng)域?qū)W⒃陔娫挼恼Z音識(shí)別和語音合成技術(shù)上。言豐科技希望通過基于通信平臺(tái)的語音識(shí)別,能夠得到廣泛的、有實(shí)際價(jià)值的商業(yè)應(yīng)用。
從語音信號(hào)的采集方式來看,電腦錄入對(duì)語音質(zhì)量的要求比較嚴(yán)格,而電話采集的語音質(zhì)量就比較寬容。電腦錄入使用的是非自然語言,而電話是自然語言。要做好對(duì)電話語音的識(shí)別,就需要系統(tǒng)能夠?qū)δ信仙,甚至是帶有一些地方口音的各種語言進(jìn)行識(shí)別。另外,基于通信平臺(tái)的語音識(shí)別應(yīng)用是有一定范圍的,它所涉及的詞匯量是可以控制的,這一點(diǎn)要比電腦語音錄入容易實(shí)現(xiàn)。
在討論了語音識(shí)別技術(shù)很多年之后,為什么這個(gè)話題在最近又大幅度升溫了呢?言豐科技的梁康忠博士說:“技術(shù)發(fā)展到一定階段時(shí)打破了應(yīng)用的瓶頸,從而帶來了應(yīng)用的進(jìn)步。語音識(shí)別是一項(xiàng)難度很大的技術(shù),里面的算法非常復(fù)雜,對(duì)CPU的要求也非常高,過去應(yīng)用的條件不具備。而近兩年CPU的發(fā)展很快,語音識(shí)別中的算法也日益精湛,兩者有機(jī)地集成在一起后,應(yīng)用的條件就日趨成熟了!
語音識(shí)別面臨的問題
國外已經(jīng)有了不少較大規(guī)模的語音識(shí)別IVR系統(tǒng)或者呼叫中心的應(yīng)用,然而在國內(nèi),雖然有將語音識(shí)別和呼叫中心結(jié)合起來的趨勢(shì),但仍沒有多少應(yīng)用。這其中雖然有諸多影響因素,但重要的一點(diǎn)就是漢語語音識(shí)別技術(shù)還不夠完善。那么,語音識(shí)別技術(shù)要進(jìn)入大規(guī)模商用,還要跨越哪些障礙呢?
1.用戶的獨(dú)立性
所謂用戶的獨(dú)立性,就是指語音識(shí)別軟件能夠識(shí)別有不同嗓音和口音的用戶,而無需通過訓(xùn)練軟件來使其識(shí)別一個(gè)特殊用戶的聲音。目前的許多語音識(shí)別軟件,是基于標(biāo)準(zhǔn)的發(fā)音來進(jìn)行識(shí)別的; 而實(shí)際上,人們說話千差萬別,發(fā)音也各不相同,特別對(duì)于有口音的語音來說,更是對(duì)語音識(shí)別軟件提出了嚴(yán)峻的挑戰(zhàn)。
2.自然語言的能力
有少數(shù)復(fù)雜的語音識(shí)別系統(tǒng)使用提示性對(duì)話,而這樣的語音識(shí)別系統(tǒng)提示用戶,是用一個(gè)單詞或記號(hào)來回答。根據(jù)專門機(jī)構(gòu)的調(diào)查,多數(shù)人更喜歡用約定俗成的自然語言,而不喜歡使用提示性對(duì)話。
3.處理插入的能力
插入的能力是指允許用戶在系統(tǒng)提示時(shí)中斷系統(tǒng),但系統(tǒng)依然能知道用戶的請(qǐng)求。
這點(diǎn)對(duì)于實(shí)際的應(yīng)用來說有相當(dāng)重要的意義。因?yàn)槿藗冊(cè)谡f話時(shí),總是在不自覺地思考,經(jīng)常會(huì)打斷語言的連續(xù)性,而插入一些補(bǔ)充性的語言。這樣的語言,在語法上來說經(jīng)常是不正確的,常規(guī)的語音識(shí)別系統(tǒng)很難處理這些語音。
4.軟件身份驗(yàn)證的能力
軟件身份驗(yàn)證的能力是指根據(jù)用戶的嗓音和語言特點(diǎn)來識(shí)別用戶的能力。這在實(shí)際中是一個(gè)非常有價(jià)值的特點(diǎn),如可用于人事管理中。
語音識(shí)別研究現(xiàn)狀
1.語音識(shí)別獲得應(yīng)用
伴隨著語音識(shí)別技術(shù)的不斷發(fā)展,誕生了全球首套多語種交談式語音識(shí)別系統(tǒng)e-talk。這是由言豐科技自主開發(fā)的、全球惟一擁有中英混合語言的識(shí)別系統(tǒng),能聽、能講普通話、廣東話和英語,還可以高度適應(yīng)不同的口音,因而可以廣泛適用于不同文化背景的使用者,尤其是中國地區(qū)語言差別較大的廣大用戶。
2.語音合成信息服務(wù)被用戶接受
語音合成技術(shù)把可視的文本信息轉(zhuǎn)化為可聽的聲音信息,其應(yīng)用的經(jīng)濟(jì)效益和社會(huì)效益前景良好。尤其對(duì)漢語語音合成技術(shù)的應(yīng)用而言,全球有十幾億人使用中文,其市場(chǎng)需求、應(yīng)用前景和經(jīng)濟(jì)效益都是十分有潛力的。
語音技術(shù)已逐漸在電信聲訊信息服務(wù)領(lǐng)域的智能電話查詢系統(tǒng)中展開應(yīng)用,并迅速得到推廣。目前電話高度普及,如果通過最便捷的電話方式就能查詢到所需信息,無疑將給人們的日常生活帶來極大方便。漢語語音合成技術(shù)應(yīng)用到聲訊服務(wù)領(lǐng)域內(nèi),將對(duì)現(xiàn)有的電話查詢系統(tǒng)產(chǎn)生革命性的影響。
隨著互聯(lián)網(wǎng)的出現(xiàn)和推廣,在技術(shù)上,語音與互聯(lián)網(wǎng)已能夠成功地結(jié)合。用戶可以通過電話,方便地發(fā)送電子郵件和類似的留言信息,不僅具有傳統(tǒng)的語音信箱功能,還可以將用戶語音以IP的方式廉價(jià)地發(fā)送到全球任何一個(gè)電腦或電話終端上,大大降低了信息交流的成本。
3.面向?qū)ο蟮恼Z音編碼技術(shù)獲得突破
長(zhǎng)期以來,在通信網(wǎng)的發(fā)展中,提高信息傳輸效率是一個(gè)關(guān)鍵問題。目前已有兩個(gè)途徑可以解決這一問題:一是研究新的調(diào)制方法與技術(shù),來提高信道傳輸信息的比特率,指標(biāo)是每赫茲帶寬所傳送的比特?cái)?shù);二是壓縮信源編碼的比特率,例如標(biāo)準(zhǔn)PCM編碼,對(duì)3.4kHz頻帶信號(hào)需用64Kbps編碼比特率傳送,而壓縮這一比特率顯然可以提高信道傳送的話路數(shù)。實(shí)際上,壓縮語音編碼比特率與話音存儲(chǔ)、語音識(shí)別及語音合成等技術(shù)都直接相關(guān)。
4.口語機(jī)器翻譯受到重視
口語翻譯的一個(gè)重要目的就是幫助聾啞人與正常人交流。首先,聾啞人要戴上一副特制的手套,計(jì)算機(jī)根據(jù)他打出的手語進(jìn)行識(shí)別,然后,通過語音合成系統(tǒng)就可以把圖像信息翻譯成語言信息。同時(shí),系統(tǒng)還能夠完成將正常人的語言翻譯成聾啞人的手語。將正常人說的話鍵入計(jì)算機(jī),經(jīng)程序分析處理之后,翻譯成有表情、有動(dòng)作的三維圖像,就可最終達(dá)到聾啞人與正常人之間通過翻譯機(jī)進(jìn)行交流的目的?谡Z翻譯的研究在其他很多方面都有重要價(jià)值,如用手勢(shì)控制計(jì)算機(jī),甚至用手勢(shì)導(dǎo)航等。
語音識(shí)別技術(shù)進(jìn)入商用
語音技術(shù)開辟了一個(gè)巨大的應(yīng)用市場(chǎng),目前的語音技術(shù)應(yīng)用的程度如何呢?
1.技術(shù)成熟
在技術(shù)方面,英語的語音技術(shù)比漢語的語音技術(shù)的商用程度更廣,實(shí)用程度更好。在漢語的語音技術(shù)方面,國內(nèi)的語音合成技術(shù)比較成熟,已經(jīng)達(dá)到了商用的標(biāo)準(zhǔn); 在語音識(shí)別方面,已經(jīng)有一些產(chǎn)品開始投入商用,如言豐科技的e-talk產(chǎn)品。
2.廠家眾多
在語音識(shí)別方面,有國外的IBM、Philips、Nuance等公司;國內(nèi)的有香港的InfoTalk、捷通等。在語音合成方面,能夠提供產(chǎn)品的公司就十分多了,有的產(chǎn)品是用軟件來實(shí)現(xiàn),有的專門設(shè)計(jì)了硬件芯片。
3.促進(jìn)網(wǎng)絡(luò)的融合
語音技術(shù)的發(fā)展,帶動(dòng)了網(wǎng)絡(luò)的融合過程。目前,世界上的兩大通信網(wǎng)絡(luò)是電信網(wǎng)和計(jì)算機(jī)網(wǎng),電信網(wǎng)是以語音信號(hào)為處理對(duì)象,計(jì)算機(jī)網(wǎng)則是以數(shù)據(jù)信號(hào)為其處理內(nèi)容。語音技術(shù)為兩個(gè)網(wǎng)絡(luò)的結(jié)合,奠定了技術(shù)基礎(chǔ)。
4.語音接入通過PSTN
目前,人們進(jìn)行信息交流的主要方式還是通過電話網(wǎng)。用戶可以通過撥打一個(gè)電話號(hào)碼,接入到信息訪問中心。
語音技術(shù)商機(jī)無限
1.金融
采用了語音技術(shù)后,通過電話,不用人工的干預(yù),就可以進(jìn)行賬戶余額查詢,完成賬戶間的轉(zhuǎn)賬等工作。不僅提高了工作的效率,也改善了服務(wù)商的形象。
2.證券
用戶通過電話可以查詢當(dāng)前的股市情況,不用再按電話上的按鍵,而是直接說出自己關(guān)心的股票的名稱,計(jì)算機(jī)就通過語音合成技術(shù),將結(jié)果播報(bào)出來。
3.電信和尋呼
采用語音技術(shù),在電信業(yè)務(wù)中將產(chǎn)生很多的應(yīng)用。例如在“114”電話黃頁中,目前還要有大量的人工服務(wù); 而如果采用語音技術(shù),就可以不用人工服務(wù),讓計(jì)算機(jī)自動(dòng)接聽用戶的需要,然后回放查詢的電話號(hào)碼。尋呼目前還是通過尋呼小姐記下用戶要尋呼的目標(biāo)號(hào)碼,然后將內(nèi)容輸入到尋呼系統(tǒng)進(jìn)行發(fā)射; 采用語音技術(shù)后,可以讓計(jì)算機(jī)自動(dòng)地進(jìn)行整個(gè)操作過程。
4.旅游
用戶可以通過電話,自動(dòng)查詢那些感興趣的景點(diǎn)的語音介紹材料,相當(dāng)于請(qǐng)了一個(gè)電話導(dǎo)游。當(dāng)出現(xiàn)問題時(shí),也可以通過電話,進(jìn)行各種求助。
5.娛樂
語音技術(shù)在娛樂方面,也可以激發(fā)出許多的新應(yīng)用。例如,在通過電話進(jìn)行電視MTV點(diǎn)播時(shí),可以避免重復(fù)地按電話上的按鍵,而是直接說出是哪個(gè)歌手的哪首歌,電視臺(tái)就通過接收語音輸入,播放相應(yīng)的曲目。
技術(shù)為本,應(yīng)用為先。言豐科技在研發(fā)語音識(shí)別技術(shù)產(chǎn)品時(shí),就希望能夠通過自然的語言交流,實(shí)現(xiàn)人機(jī)交互式的對(duì)話形式,使電腦能理解我們的語言,并按照我們的指示去工作。因?yàn)檫@一目標(biāo)的實(shí)現(xiàn)將會(huì)給人類的工作和生活帶來質(zhì)的變化,同時(shí)將產(chǎn)生巨大的商業(yè)價(jià)值。因此,目前基于通信平臺(tái)的語音識(shí)別技術(shù)的商業(yè)應(yīng)用已被眾多的企業(yè)所關(guān)注。有專家預(yù)測(cè),隨著技術(shù)的快速發(fā)展,再過10~20年的時(shí)間,我們將可以做到非常自然的人機(jī)交互式對(duì)話。
IBM供稿 CTI論壇編輯
ViaVoice語音上網(wǎng)新概念 2001-11-14 |
IBM ViaVoice更方便更健康 2001-11-14 |
IBM ViaVoice Telephony——完善的中文電話語音技術(shù) 2001-11-14 |
CRM中的IBM語音技術(shù) 2001-10-10 |
IBM Viavoice:掛在嘴邊的輸入法 2001-10-10 |