淺析語音識別的移動互聯(lián)網(wǎng)應(yīng)用
2010/08/18
摘要:語音識別技術(shù)發(fā)展到現(xiàn)在已經(jīng)達到應(yīng)用水平,這項技術(shù)的推廣普及必在移動互聯(lián)網(wǎng)行業(yè)。也許有一天我們可以通過藍牙耳機直接呼出我們的問題,在通過藍牙耳機聽到我們想得到的答案,而這除了浪費點流量一切都是免費的。
最早接觸的語音識別軟件是臺灣的賽微,這家公司的語音識別技術(shù)在當時已經(jīng)達到應(yīng)用的水平。軟件本身不錯,但是有兩個問題:一是對不常用的詞語的識別率不高,識別速度一般,占用先相對多的內(nèi)存;二是市場需求不強烈,因為技術(shù)不是非常成熟和市場處于培育期,多數(shù)用戶只是打著試試的想法試用軟件。
賽微的語音識別技術(shù)只是應(yīng)用于手機本身并不應(yīng)用于網(wǎng)絡(luò)搜索,讓我們意料之外的是,最早將語音識別技術(shù)應(yīng)用于移動搜索的是歌曲的移動搜索。在這類移動應(yīng)用中佼佼者要數(shù):midomi和shazam,這兩個軟件都支持多個手機平臺,感興趣的用戶可以下載,注意的是shazam是免費的。
這類應(yīng)用的功能和百度即將推出的哼唱搜索是一個概念,用戶只需打開軟件通過話筒哼唱歌曲或接受播放的音樂,軟件根據(jù)采集的數(shù)據(jù)來識別相應(yīng)的歌曲。原理是采集音頻數(shù)據(jù),上傳數(shù)據(jù),核對數(shù)據(jù)庫里類似的音頻數(shù)據(jù),發(fā)送結(jié)果到設(shè)備。這種技術(shù)已經(jīng)達到非常成熟的水平,識別率達到90%以上甚至更高(這里的識別率只針對標準的唱片音頻,每個人的水平參差不齊識別率的標準不好確定)。而且通過這類手機軟件產(chǎn)生的流量也很少,一般維持在15k~30k。
賽微的語音識別技術(shù)止步于單純的手機應(yīng)用,midomi和shazam等移動終端應(yīng)用也止步于音樂的在線搜索,而搜索引擎廠商如Google、Bing、還有后面跟進的百度都在大力推進語音識別搜索的網(wǎng)絡(luò)化。微軟的Bing移動版和Google的Google地圖等率先實現(xiàn)語音識別技術(shù)應(yīng)用于移動搜索領(lǐng)域,而百度在語音移動搜索這個領(lǐng)域看來也想分一杯羹。
從已經(jīng)發(fā)布的微軟和Google語音搜索應(yīng)用中我們可以發(fā)現(xiàn),語音搜索離我們的生活還是有一段距離。最大的阻礙還是語音識別率不高,尤其是生詞的識別率超低,生詞基本不能識別,識別時間較長,占用的內(nèi)存和CPU較多等。就拿Bing移動版來說,目前只支持英文語音搜索,而像Washington、blog、twitter等這類超常用的詞匯識別率很高,識別用時也很短,而比較生僻的詞匯用時較長,識別率也很低。我們平時用手機鍵盤或虛擬鍵盤只要2~3秒可以完成的輸入,在語音搜索這里可能需要多達1分鐘才能輸入,而且還不一定準確。這就是我們現(xiàn)在語音搜索還不普及的原因,用戶要的是效率而不是新穎的噱頭。
個人還是相對看好百度的歌曲哼唱搜索,原因是這方面的語音識別中的音樂搜索技術(shù)相對要成熟些,但鑒于每個人哼唱的水平不一,識別率自然天差地別。今年以來,百度開始加強語音識別的投入力度。尤其上個月連續(xù)發(fā)出啟事,招募語音識別的技術(shù)帶頭人、高級工程師和工程師等崗位。并提出能敏銳把握語音識別技術(shù)方向,主導(dǎo)開發(fā)過應(yīng)用級別的語音識別系統(tǒng),四年以上語音方向的研究經(jīng)驗等要求。
從國內(nèi)來看,除百度外,盛大也對語音識別技術(shù)情有獨鐘。盛大網(wǎng)絡(luò)創(chuàng)新院早在去年便靜悄悄地組建了中國最強悍的語音識別團隊,而且盛大決定對外開放哼唱搜索技術(shù)相關(guān)源代碼,以幫助國內(nèi)這個領(lǐng)域的研究人員得到分享和幫助。
音樂搜索只是語音搜索的冰山一角,移動語音搜索才是語音搜索的重頭戲。而現(xiàn)在語音搜索技術(shù)正在逐漸成熟,語音搜索正在擺脫噱頭的頭銜走向普及應(yīng)用。請大家放心,短時間內(nèi)語音搜索只能是噱頭,無聊地時候當噱頭在眾人前面擺弄下還是游刃有余的。 若干年后,我們的生活可以被“語音”得很科幻。
21世紀網(wǎng)
相關(guān)閱讀: