Siri 的流行充分喚起了人們對于語音識別的想象。在與個人生活緊密結合前,語音識別是難以達到這么火爆的程度的,準確率是最基本的一點,不過基于語義和情感交互才是語音識別的最為迷人的地方,當然,移動互聯(lián)網(wǎng)的興起也是這一流行趨勢的引爆點。前幾天,語音識別領先企業(yè)科大訊飛語音云發(fā)布, 同時隨著Nuance 公司 Dragon 系列產品的流行,越來越多的產品開始支持語音控制,有理由相信,語音時代即將來臨。
語音識別時代的條件已經具備
語音引擎
在語音識別方面,Nuance 是一家不可忽略的企業(yè),作為 Siri 背后的技術支持,Nuance 擁有4000余項專利和專利申請,超過50億部手機和7000萬的車輛使用其技術,三分之二的《財富》100強公司依賴其解決方案。
Wolframalpha 雖然不是語音識別技術,但在語義識別方面,他是毫無疑問的先驅,同樣也是作為 Siri 背后的搜索引擎,它對語音識別的意義十分重大。
在語音識別方面的研究,科大訊飛,IBM,貝爾研究所的成果也令人矚目。
云計算能力
大量的機器學習才可能讓語音引擎不斷完善,云計算的超級計算能力讓這點成為可能,商業(yè)化云平臺的不斷成熟,使基于云計算的語音識別不再困難。
智能設備
在Android 和iOS的推動下,移動互聯(lián)網(wǎng)迎來了爆發(fā)性增長,智能手機和平板電腦已經十分普遍,與 PC 相比,手持設備因為易攜等優(yōu)勢,語音識別能得到更加生活化的應用,而這也就是語音識別得以廣泛應用的基礎。
高速網(wǎng)絡
語音識別,速度對于用戶體驗毋庸置疑,高質量的語音識別依賴于高速網(wǎng)絡,而這也將隨著3G和4G網(wǎng)絡的普及而被解決。
語音識別可能是巨變的開端
對 Google 等公司,Siri毫無疑問是一個威脅,在語音時代之前,普通搜索引擎是互聯(lián)網(wǎng)的入口,但是在語音時代,人們已經有了更加方便和人性化的工具。影響雖然不是替代,但它代表了一種更方便的工作、生活方式,而這也將催生行業(yè)的變革。
Sherry Turkle,這位 MIT 的社科教授稱,人類更加傾向于可以說話的設備,好像這就是他們的知心伴侶。相對于打字,語音來的更加便捷與精確,這種區(qū)別上所導致的影響,可能就像 Paul Ricci (Xerox 前執(zhí)行官)所言,類似80年代鼠標和圖形化界面對于電腦的影響。說話是人類的天性,但打字與技巧和熟練度有關,在一句話就可以解決問題的時代,為什么還需要辛苦的輸入。
不僅對于搜索,對于汽車導航,甚至是飛機訂票、呼叫中心等事宜都可以用語音識別技術來替代,Nuance 公司已經成功推出了一款用于航空客服的語音交互系統(tǒng) Wally ,據(jù)紐約時報介紹,相當?shù)挠脩舯嬲J不出他們是在同機器對話,掛電話時甚至友好的說了謝謝。
語音控制,另一把科技雙刃劍
語音識別可能帶來顛覆性變革,但也會隨之帶來一些新的問題,同社交網(wǎng)絡興起一樣,語音識別或許會產生一個問題:隱私。
每一次的語音識別請求,我們的聲音都會被上傳到到服務器分析,為了讓語音識別系統(tǒng)更加準確,系統(tǒng)也必須學習,材料就是這些我們上傳的語音。人聲音的特質(聲紋),就像是指紋一般獨一無二,指紋和聲音都是密碼方面常用且重要的憑據(jù),如果自己的聲音數(shù)據(jù)被泄漏,信息安全得不到保障。在紐約時報對 Nuance 的報道中,Nuance 稱在美國,除了聯(lián)邦政府,他們擁有最大的聲音信息數(shù)據(jù)量。同時,語音合成技術的成熟,也使得語音詐騙有存在的可能性,試想一個電話打來,聽聲音是自己的朋友,找自己借錢什么的,誰又能區(qū)別真假呢?湯姆·克魯斯在《碟中諜3》中假扮霍夫曼時合成聲音的以假亂真或許就成為現(xiàn)實。而科大訊飛在其招股書中提到,其中英文語音合成技術的自然度能超過真人發(fā)音水平(4.0分)。
在語音識別應用越來越廣泛的時候,還有一個大的問題是不能忽視,那就是對機器的高度依賴對人的生理和心理所產生的改變,Pranav Mistry 在 TED 的演講《第六感技術的驚異潛力》中提出了一個觀點:科技的發(fā)展,不是要讓人類越來越機器化,而是讓人變得越來越人性化?萍寄芨纳粕睿泊嬖诘赖潞臀幕系碾y題。
比特網(wǎng)