首頁>>>技術(shù)>>>語音應用>>>語音識別(ASR)  語音識別產(chǎn)品

跨國巨頭猛攻語音識別技術(shù)

2007/03/09

  語音識別已經(jīng)不再遙不可及!

  近日,微軟新推出的Windows Vista就安裝了語音識別系統(tǒng)。不懂鼠標和鍵盤操作的人,有了此軟件的幫助,問題就能迎刃而解。這也是這一操作系統(tǒng)的一大亮點。

  從上世紀50年代開始,語音識別作為重要的研究對象,引起了科學家的廣泛興趣。今天,半個多世紀過去了,語音識別技術(shù)已經(jīng)發(fā)生了突飛猛進的變化,IBM、蘋果和微軟等公司甚至已經(jīng)把它應用于自己的部分產(chǎn)品中。

  目前,語音識別軟件主要運用于法律和醫(yī)藥領(lǐng)域,但隨著軟件的日趨完善,將被更多領(lǐng)域采納和運用,并幫助人們解決疑難問題。

  不過,語音識別軟件目前或多或少存在缺陷,如抗干擾差、語音識別誤差較大、易受黑客攻擊等。因此,要想短期內(nèi)取代手工操作還不現(xiàn)實。

  備受青睞

  其實,自電腦誕生以來,讓電腦聽懂人們的說話,就是科學家們奮斗的目標。幾年前,這方面還僅局限于實驗室內(nèi)的演示。不過現(xiàn)在不同了,電腦的語音識別功能已經(jīng)有了質(zhì)的飛躍,并被廣泛運用到各個領(lǐng)域。

  微軟和福特汽車正在進行一項有趣的工作,他們希望人們能向汽車發(fā)出口頭指令,這讓人覺得有些不可思議。不過,人們通過芯片進行口頭交流,早已成為現(xiàn)實,只是目前還沒有被廣泛應用到日常生活中,所以大家對此感到陌生?梢钥隙ǖ氖,隨著技術(shù)的日趨成熟,今后人們和芯片的交流的機會將越來越多。

  前不久,在拉斯維加斯舉行的國際電子消費品展覽會上,比爾·蓋茨和福特汽車的高管們,展示了微軟的Sync軟件,它可讓駕車者們?nèi)绾瓮ㄟ^口頭指令,在車內(nèi)播放音樂和撥打電話。但是,通過口頭指令駕駛汽車還難以被廣泛運用,至少目前還不行。

  IBM在語音識別技術(shù)上,一直走在最前沿。以它的ViaVoice軟件為例,這種軟件可以幫助人們通過麥克風用語音向字處理軟件輸入文字,能識別英語、意大利語、德語、法語、日語、漢語等語種。由于大量的無線上網(wǎng)設(shè)備的使用,語音識別軟件的銷售前景看好,特別適用于醫(yī)生、律師和作家等職業(yè)。

  從去年9月1日開始,該語音識別軟件已經(jīng)開始降價銷售,其中最便宜的一款只需30美元。據(jù)估計,目前,全世界已有1000多萬人在使用ViaVoice軟件。

  微軟新版的Windows操作系統(tǒng)Vista,也配置了先進的語音識別軟件。用戶可以通過語音和計算機交流——對于無法操作鍵盤和鼠標設(shè)備的人們,這是一個很重要的功能。經(jīng)過訓練,Vista能識別用戶的語音。這樣,用戶就可以通過口述來“書寫”信件或電子郵件。一言以敝之,用戶可以通過語音來執(zhí)行大多數(shù)常見任務。

  不過,目前世界上最先進的語音識別軟件,既不是微軟生產(chǎn)的,也非IBM制造,它的名字叫做Naturally Speaking,出自于Nuance Communications公司。

  Naturally Speaking已經(jīng)得到了大多數(shù)用戶的認可。用戶對著麥克風說話,屏幕上就顯示出說話的內(nèi)容,很容易識別和糾正錯誤。久而久之,該軟件就會適應用戶的說話風格,當然,用戶如果在說話過程中發(fā)現(xiàn)軟件無法識別的,也相應地作出調(diào)整,這樣一來,語音識別的正確率就會逐漸提高。

  用途廣泛

  在語音識別軟件領(lǐng)域,比爾·邁森很有發(fā)言權(quán),他是這方面的專家。他指出:“目前該軟件主要用于法律和醫(yī)學等特定領(lǐng)域。例如,放射線學者們越來越多地通過語音識別軟件口授診斷報告和結(jié)果,而不再由錄音機錄下口頭報告,再加以轉(zhuǎn)錄!

  語音識別軟件是利用非常復雜的統(tǒng)計方法,把人們的講話與單詞相對應起來的。如今,語音識別技術(shù)在一些領(lǐng)域已經(jīng)得到廣泛應用,如呼叫中心。采用這項技術(shù),可以省去不少麻煩,目前已有不少電腦查詢服務采用了Nuance公司的技術(shù),來處理客戶的需求。

  可以看出,語音識別技術(shù)的特點就是使工作變得自動化。但也有人指出,語音識別技術(shù)發(fā)展到足夠強大并得到普遍應用的時候,在給人類帶來方便的時候,同時也會使更多的人失去工作。比如,現(xiàn)在很多公司都設(shè)置咨詢室,將來有可能被機器取代,人們可以通過公司的電腦發(fā)出口頭指令來完成各項咨詢。

  邁森預言:“接下來,語音識別技術(shù)將被用于網(wǎng)絡搜索!辈痪玫膶, Google和雅虎將推出面向手機用戶的語音搜索服務,用戶只要說出自己要找什么,就可以聽到電腦的自動答復。這2家公司都已聘請了語音識別技術(shù)專家。Nuance還與雅虎對簿公堂,因為雅虎挖走了Nuance的13名工程師。

  IBM也不甘步人后塵,此前它在語音識別一直處在領(lǐng)先位置。目前,IBM正在實施一個超前的計劃——研制一種能監(jiān)聽4-5個人參加的小型會議的語音識別軟件,用以提供準確的書面記錄。這一步邁得很大,不知道何時能取得成功。

  此外,負責IBM的語音識別技術(shù)開發(fā)的戴維·那哈莫還表示,該公司已經(jīng)開發(fā)出了其他一些應用軟件。其中一項能自動翻譯外語廣播——該軟件首先通過語音識別技術(shù)記錄下說話者所說的話,然后通過翻譯軟件把外語翻譯成英語。

  盡管這一軟件目前還不成熟,不過它已經(jīng)能夠翻譯出說話者的要點。這一軟件的賣點不錯,尤其受缺乏外語人才的機構(gòu)和部門歡迎,比如情報機構(gòu)。當然,該軟件也適合缺乏人手的電視臺,為聽覺有障礙的觀眾提供字幕服務。

  正視缺陷

  當然,語音識別軟件還沒有發(fā)展到能夠取代鍵盤和鼠標的程度,還有很多不完善的地方,這也是所有語音識別軟件目前普遍存在的問題。比如抗干擾,這類軟件還無法分辨出哪是人的發(fā)音,哪是音響的發(fā)音。

  在語音識別上,目前也存在差錯。在一家公司的一次演示中,與會者大跌眼鏡。這家公司的工作人員試圖讓自己開發(fā)的軟件識別“Dear Mom”這個短語的發(fā)音,然而,讓人哭笑不得的是,語音識別軟件卻把它理解為“Dear aunt”,也就是著名的“認母為姨”。

  此外,語音識別還可能被黑客利用,不久前就傳出Vista的語音功能存在缺陷,容易遭致黑客利用進行遠程語音攻擊。微軟對此表示,安全人員此前公布了該漏洞,影響微乎其微。

  微軟安全響應中心的發(fā)言人宣稱,攻擊者利用此漏洞僅能獲得當前用戶的權(quán)限,并不能繞過用戶帳戶控制系統(tǒng)的監(jiān)管運行任何管理員級別的命令。黑客要想成功發(fā)動攻擊,前提條件是目標系統(tǒng)已經(jīng)設(shè)置好語音識別功能,并且啟用話筒和音箱,此時他們可以通過音頻文件的播放執(zhí)行復制、刪除、關(guān)機等命令。因此微軟方面建議不要一直同時開啟麥克風和音箱。如發(fā)現(xiàn)有執(zhí)行命令的音頻文件播放,要關(guān)閉媒體播放器和語音識別,重啟電腦。

  安全響應中心的程序經(jīng)理Adrian Stone稱:“我們對該問題十分重視,經(jīng)過調(diào)查,我可以自信地說,沒有必要擔心該問題!

  蘋果公司在語音識別上也曾經(jīng)存在漏洞,不過,發(fā)現(xiàn)后他們很快修復了漏洞。

IT時代周刊



相關(guān)鏈接:
自動語音系統(tǒng):虛擬人物提供人性化呼叫業(yè)務 2007-01-23
語音識別 理想與現(xiàn)實的距離 2007-01-19
語音識別技術(shù)前景廣闊 2007-01-16
電話銀行系統(tǒng)可識別用戶語音 2006-11-03
語音自助服務并不僅僅是技術(shù) 2006-11-02

分類信息:  企業(yè)通信_與_國外動態(tài)  企業(yè)通信_與_市場動態(tài)  語音應用_與_國外動態(tài)  語音應用_與_市場動態(tài)
           國外動態(tài)_與_市場動態(tài)