首頁>>>技術(shù)>>>語音應(yīng)用>>>語音識(shí)別(ASR)  語音識(shí)別產(chǎn)品

發(fā)表評(píng)論分享按鈕

語音時(shí)代的到來與群體式憂慮

2012/04/06

  Siri 的流行充分喚起了人們對(duì)于語音識(shí)別的想象。在與個(gè)人生活緊密結(jié)合前,語音識(shí)別是難以達(dá)到這么火爆的程度的,準(zhǔn)確率是最基本的一點(diǎn),不過基于語義和情感交互才是語音識(shí)別的最為迷人的地方,當(dāng)然,移動(dòng)互聯(lián)網(wǎng)的興起也是這一流行趨勢(shì)的引爆點(diǎn)。前幾天,語音識(shí)別領(lǐng)先企業(yè)科大訊飛語音云發(fā)布, 同時(shí)隨著Nuance 公司 Dragon 系列產(chǎn)品的流行,越來越多的產(chǎn)品開始支持語音控制,有理由相信,語音時(shí)代即將來臨。

  語音識(shí)別時(shí)代的條件已經(jīng)具備

  語音引擎

  在語音識(shí)別方面,Nuance 是一家不可忽略的企業(yè),作為 Siri 背后的技術(shù)支持,Nuance 擁有4000余項(xiàng)專利和專利申請(qǐng),超過50億部手機(jī)和7000萬的車輛使用其技術(shù),三分之二的《財(cái)富》100強(qiáng)公司依賴其解決方案。

  Wolframalpha 雖然不是語音識(shí)別技術(shù),但在語義識(shí)別方面,他是毫無疑問的先驅(qū),同樣也是作為 Siri 背后的搜索引擎,它對(duì)語音識(shí)別的意義十分重大。

  在語音識(shí)別方面的研究,科大訊飛,IBM,貝爾研究所的成果也令人矚目。

  云計(jì)算能力

  大量的機(jī)器學(xué)習(xí)才可能讓語音引擎不斷完善,云計(jì)算的超級(jí)計(jì)算能力讓這點(diǎn)成為可能,商業(yè)化云平臺(tái)的不斷成熟,使基于云計(jì)算的語音識(shí)別不再困難。

  智能設(shè)備

  在Android 和iOS的推動(dòng)下,移動(dòng)互聯(lián)網(wǎng)迎來了爆發(fā)性增長,智能手機(jī)和平板電腦已經(jīng)十分普遍,與 PC 相比,手持設(shè)備因?yàn)橐讛y等優(yōu)勢(shì),語音識(shí)別能得到更加生活化的應(yīng)用,而這也就是語音識(shí)別得以廣泛應(yīng)用的基礎(chǔ)。

  高速網(wǎng)絡(luò)

  語音識(shí)別,速度對(duì)于用戶體驗(yàn)毋庸置疑,高質(zhì)量的語音識(shí)別依賴于高速網(wǎng)絡(luò),而這也將隨著3G和4G網(wǎng)絡(luò)的普及而被解決。

  語音識(shí)別可能是巨變的開端

  對(duì) Google 等公司,Siri毫無疑問是一個(gè)威脅,在語音時(shí)代之前,普通搜索引擎是互聯(lián)網(wǎng)的入口,但是在語音時(shí)代,人們已經(jīng)有了更加方便和人性化的工具。影響雖然不是替代,但它代表了一種更方便的工作、生活方式,而這也將催生行業(yè)的變革。

  Sherry Turkle,這位 MIT 的社科教授稱,人類更加傾向于可以說話的設(shè)備,好像這就是他們的知心伴侶。相對(duì)于打字,語音來的更加便捷與精確,這種區(qū)別上所導(dǎo)致的影響,可能就像 Paul Ricci (Xerox 前執(zhí)行官)所言,類似80年代鼠標(biāo)和圖形化界面對(duì)于電腦的影響。說話是人類的天性,但打字與技巧和熟練度有關(guān),在一句話就可以解決問題的時(shí)代,為什么還需要辛苦的輸入。

  不僅對(duì)于搜索,對(duì)于汽車導(dǎo)航,甚至是飛機(jī)訂票、呼叫中心等事宜都可以用語音識(shí)別技術(shù)來替代,Nuance 公司已經(jīng)成功推出了一款用于航空客服的語音交互系統(tǒng) Wally ,據(jù)紐約時(shí)報(bào)介紹,相當(dāng)?shù)挠脩舯嬲J(rèn)不出他們是在同機(jī)器對(duì)話,掛電話時(shí)甚至友好的說了謝謝。

  語音控制,另一把科技雙刃劍

  語音識(shí)別可能帶來顛覆性變革,但也會(huì)隨之帶來一些新的問題,同社交網(wǎng)絡(luò)興起一樣,語音識(shí)別或許會(huì)產(chǎn)生一個(gè)問題:隱私。

  每一次的語音識(shí)別請(qǐng)求,我們的聲音都會(huì)被上傳到到服務(wù)器分析,為了讓語音識(shí)別系統(tǒng)更加準(zhǔn)確,系統(tǒng)也必須學(xué)習(xí),材料就是這些我們上傳的語音。人聲音的特質(zhì)(聲紋),就像是指紋一般獨(dú)一無二,指紋和聲音都是密碼方面常用且重要的憑據(jù),如果自己的聲音數(shù)據(jù)被泄漏,信息安全得不到保障。在紐約時(shí)報(bào)對(duì) Nuance 的報(bào)道中,Nuance 稱在美國,除了聯(lián)邦政府,他們擁有最大的聲音信息數(shù)據(jù)量。同時(shí),語音合成技術(shù)的成熟,也使得語音詐騙有存在的可能性,試想一個(gè)電話打來,聽聲音是自己的朋友,找自己借錢什么的,誰又能區(qū)別真假呢?湯姆·克魯斯在《碟中諜3》中假扮霍夫曼時(shí)合成聲音的以假亂真或許就成為現(xiàn)實(shí)。而科大訊飛在其招股書中提到,其中英文語音合成技術(shù)的自然度能超過真人發(fā)音水平(4.0分)。

  在語音識(shí)別應(yīng)用越來越廣泛的時(shí)候,還有一個(gè)大的問題是不能忽視,那就是對(duì)機(jī)器的高度依賴對(duì)人的生理和心理所產(chǎn)生的改變,Pranav Mistry 在 TED 的演講《第六感技術(shù)的驚異潛力》中提出了一個(gè)觀點(diǎn):科技的發(fā)展,不是要讓人類越來越機(jī)器化,而是讓人變得越來越人性化?萍寄芨纳粕睿泊嬖诘赖潞臀幕系碾y題。

比特網(wǎng)



相關(guān)閱讀:
專訪科大訊飛吳曉如:語音云服務(wù) 深入千家萬戶 2012-03-27
語音操控體驗(yàn)攪熱移動(dòng)互聯(lián)網(wǎng) 2012-01-30
捷通華聲董事長張連毅:HCI前景不可限量 2011-12-26
采訪Nuance高層:車載語音導(dǎo)航新篇章 2011-12-23
人人都愛上Siri 智能機(jī)器人大行其道 2011-11-21

熱點(diǎn)專題:  語音合成TTS 語音識(shí)別ASR