摘要:語音識別技術發(fā)展到現(xiàn)在已經達到應用水平,這項技術的推廣普及必在移動互聯(lián)網行業(yè)。也許有一天我們可以通過藍牙耳機直接呼出我們的問題,在通過藍牙耳機聽到我們想得到的答案,而這除了浪費點流量一切都是免費的。
最早接觸的語音識別軟件是臺灣的賽微,這家公司的語音識別技術在當時已經達到應用的水平。軟件本身不錯,但是有兩個問題:一是對不常用的詞語的識別率不高,識別速度一般,占用先相對多的內存;二是市場需求不強烈,因為技術不是非常成熟和市場處于培育期,多數(shù)用戶只是打著試試的想法試用軟件。
賽微的語音識別技術只是應用于手機本身并不應用于網絡搜索,讓我們意料之外的是,最早將語音識別技術應用于移動搜索的是歌曲的移動搜索。在這類移動應用中佼佼者要數(shù):midomi和shazam,這兩個軟件都支持多個手機平臺,感興趣的用戶可以下載,注意的是shazam是免費的。
這類應用的功能和百度即將推出的哼唱搜索是一個概念,用戶只需打開軟件通過話筒哼唱歌曲或接受播放的音樂,軟件根據(jù)采集的數(shù)據(jù)來識別相應的歌曲。原理是采集音頻數(shù)據(jù),上傳數(shù)據(jù),核對數(shù)據(jù)庫里類似的音頻數(shù)據(jù),發(fā)送結果到設備。這種技術已經達到非常成熟的水平,識別率達到90%以上甚至更高(這里的識別率只針對標準的唱片音頻,每個人的水平參差不齊識別率的標準不好確定)。而且通過這類手機軟件產生的流量也很少,一般維持在15k~30k。
賽微的語音識別技術止步于單純的手機應用,midomi和shazam等移動終端應用也止步于音樂的在線搜索,而搜索引擎廠商如Google、Bing、還有后面跟進的百度都在大力推進語音識別搜索的網絡化。微軟的Bing移動版和Google的Google地圖等率先實現(xiàn)語音識別技術應用于移動搜索領域,而百度在語音移動搜索這個領域看來也想分一杯羹。
從已經發(fā)布的微軟和Google語音搜索應用中我們可以發(fā)現(xiàn),語音搜索離我們的生活還是有一段距離。最大的阻礙還是語音識別率不高,尤其是生詞的識別率超低,生詞基本不能識別,識別時間較長,占用的內存和CPU較多等。就拿Bing移動版來說,目前只支持英文語音搜索,而像Washington、blog、twitter等這類超常用的詞匯識別率很高,識別用時也很短,而比較生僻的詞匯用時較長,識別率也很低。我們平時用手機鍵盤或虛擬鍵盤只要2~3秒可以完成的輸入,在語音搜索這里可能需要多達1分鐘才能輸入,而且還不一定準確。這就是我們現(xiàn)在語音搜索還不普及的原因,用戶要的是效率而不是新穎的噱頭。
個人還是相對看好百度的歌曲哼唱搜索,原因是這方面的語音識別中的音樂搜索技術相對要成熟些,但鑒于每個人哼唱的水平不一,識別率自然天差地別。今年以來,百度開始加強語音識別的投入力度。尤其上個月連續(xù)發(fā)出啟事,招募語音識別的技術帶頭人、高級工程師和工程師等崗位。并提出能敏銳把握語音識別技術方向,主導開發(fā)過應用級別的語音識別系統(tǒng),四年以上語音方向的研究經驗等要求。
從國內來看,除百度外,盛大也對語音識別技術情有獨鐘。盛大網絡創(chuàng)新院早在去年便靜悄悄地組建了中國最強悍的語音識別團隊,而且盛大決定對外開放哼唱搜索技術相關源代碼,以幫助國內這個領域的研究人員得到分享和幫助。
音樂搜索只是語音搜索的冰山一角,移動語音搜索才是語音搜索的重頭戲。而現(xiàn)在語音搜索技術正在逐漸成熟,語音搜索正在擺脫噱頭的頭銜走向普及應用。請大家放心,短時間內語音搜索只能是噱頭,無聊地時候當噱頭在眾人前面擺弄下還是游刃有余的。 若干年后,我們的生活可以被“語音”得很科幻。
21世紀網