首頁>>>技術(shù)>>>語音應(yīng)用>>>語音識(shí)別(ASR)  語音識(shí)別產(chǎn)品

語音識(shí)別領(lǐng)域的VC投資機(jī)會(huì)

周春兵 2009/06/23

一、行業(yè)簡單描述

  語音是人類溝通和獲取信息最自然便捷的方式。自上世紀(jì)6、70年代作為殘障人士的輔助型技術(shù)產(chǎn)生,到今天已逐漸在各類實(shí)用領(lǐng)域嶄露頭角并發(fā)揮獨(dú)特效能的一項(xiàng)高科技,語音識(shí)別技術(shù)在業(yè)界正得到越來越廣泛的認(rèn)可并予以密切的關(guān)注。在信息化時(shí)代,人們對(duì)信息獲取和信息溝通方式提出了更加智能的要求,輕松便捷地解決一切日常問題成為業(yè)界爭相尋求突破的著眼點(diǎn)。而語音識(shí)別技術(shù)以其得天獨(dú)厚的優(yōu)勢越來越多地進(jìn)入到人們?nèi)粘I詈凸ぷ鞯姆椒矫婷妫鹤岆娔X、手機(jī)、玩具等各種機(jī)器設(shè)備能聽懂主人的命令,提供更為人性化的操作方式;在電話里對(duì)自動(dòng)語音發(fā)出指令即能解決問題;用語音軟件進(jìn)行文字輸入等等。在人們享受日益豐富的語音技術(shù)應(yīng)用所帶來的便利性、人性化和個(gè)性化的同時(shí),語音技術(shù)廣闊的產(chǎn)業(yè)化前景正越來越清晰地展現(xiàn)在世人眼前。毋庸置疑,其可預(yù)見的應(yīng)用市場和潛在的無限商機(jī)正同時(shí)吸引著具有遠(yuǎn)大目光的技術(shù)提供商和資本運(yùn)營商。

  語音識(shí)別技術(shù)根據(jù)識(shí)別對(duì)象的不同分為聲紋識(shí)別技術(shù)和語意識(shí)別技術(shù)。

  聲紋識(shí)別:是根據(jù)語音波形中反映說話人生理和行為特征的語音參數(shù)自動(dòng)識(shí)別說話人身份的一門技術(shù)。聲紋識(shí)別的作用主要有兩個(gè)方面:一是說話人辨認(rèn)(Speaker Identification),主要用于判斷某一語音材料是由若干發(fā)音者中哪一人所說,屬于“多選一”的識(shí)別;二是說話人確認(rèn)(Speaker Verification),主要用于確認(rèn)某一語音材料是否由指定的某個(gè)人所說的,屬于“一對(duì)一”識(shí)別。聲紋識(shí)別賴以實(shí)現(xiàn)的基礎(chǔ)是蘊(yùn)含于語音信號(hào)中的說話人發(fā)音特征,這一技術(shù)強(qiáng)調(diào)說話人的個(gè)性,而不考慮以語音為物質(zhì)外殼的話語意義。從本質(zhì)上說,聲紋識(shí)別技術(shù)屬于“生物因子”認(rèn)證范疇。聲紋同指紋有著類似的屬性。每個(gè)人的指紋都是唯一的,而聲紋也是人的個(gè)性特征,很難找到兩個(gè)聲紋完全相同的人。

  語意識(shí)別:是對(duì)語音材料所承載的實(shí)際意義的識(shí)別。它有別于聲紋識(shí)別,聲紋識(shí)別主要著眼于語音的物理屬性和生理屬性,以辨認(rèn)或確認(rèn)說話人為目的;而語意識(shí)別則著眼于語音的社會(huì)屬性,以識(shí)別語音信號(hào)所承載的話語內(nèi)容為目的。語意識(shí)別比聲紋識(shí)別要困難得多。說話人的語音通常會(huì)受到母語、方言、發(fā)音器官和發(fā)音狀態(tài)等諸多因素的影響,正是因?yàn)檎f話人語音特征各異,才為聲紋識(shí)別提供了可能性。但是,要將具有個(gè)性的聲紋與具有共性的語法和語義模型相匹配,要通過詞語切分、詞性標(biāo)注、結(jié)構(gòu)分析和語境理解等程序,達(dá)到正確識(shí)別話語內(nèi)容,則是一個(gè)相當(dāng)復(fù)雜的處理過程。

二、語音識(shí)別市場分析

  語音識(shí)別技術(shù)是生物識(shí)別技術(shù)的一種,自上世紀(jì)6、70年代語音識(shí)別技術(shù)的產(chǎn)生,到如今該技術(shù)已日漸完善,并逐步走出實(shí)驗(yàn)室在各領(lǐng)域進(jìn)入實(shí)際應(yīng)用階段。語音比起其他交互方式有著更多獨(dú)特的優(yōu)勢,在生物識(shí)別領(lǐng)域,它以其靜態(tài)(聲紋)和動(dòng)態(tài)(語意)的雙重屬性具有其他生物特征無可比擬的廣闊應(yīng)用前景,因而在許多發(fā)達(dá)國家已被廣泛接受和使用。而在中國,語音技術(shù)的應(yīng)用起步較晚,以至于有些在國外已經(jīng)十分常見的語音產(chǎn)品在國內(nèi)看來仍十分新鮮甚至令人不可思議。眾所周知,市場空白并不意味著零市場,相反,尚未被喚醒的市場需求經(jīng)過信息流動(dòng)和共享后有可能得到“井噴”式的爆發(fā)增長。

  語音識(shí)別技術(shù)根據(jù)其屬性,基本功能可歸為兩大類,一類是根據(jù)人本身的聲紋特征來進(jìn)行身份認(rèn)證,另一類是根據(jù)人發(fā)出特定的語音指令來進(jìn)行命令控制。由此引出的應(yīng)用市場基本可以包括這幾個(gè)方面:桌面應(yīng)用、嵌入式應(yīng)用、電話系統(tǒng)、Web應(yīng)用以及特殊應(yīng)用領(lǐng)域等。

1. 桌面應(yīng)用

  即語音識(shí)別技術(shù)集成在PC機(jī)上的應(yīng)用,不僅可以用語音識(shí)別來進(jìn)行身份認(rèn)證和編輯文本,而且可以通過聽取和響應(yīng)用戶講述的命令來運(yùn)行程序并與操作系統(tǒng)實(shí)現(xiàn)交互。但是跨國IT巨頭如微軟、IBM等已介入該領(lǐng)域,且可以充分利用其成熟產(chǎn)品的協(xié)同性來進(jìn)行市場滲透,如Windows XP、Vista及Office 2007等都內(nèi)嵌了語音識(shí)別功能,具有壟斷優(yōu)勢。

2. 嵌入式應(yīng)用

  嵌入式應(yīng)用的范疇很廣,需要根據(jù)市場需求考慮不同的嵌入式硬件平臺(tái),如手持或移動(dòng)通訊設(shè)備及家用電器的語音控制和內(nèi)容輸入。從目前的市場來看,嵌入式語音識(shí)別系統(tǒng)最大的市場主要是針對(duì)玩具、手機(jī)、車載GPS、MP3/MP4等。

3. 電話系統(tǒng)應(yīng)用

  語音識(shí)別技術(shù)應(yīng)用于企業(yè)自動(dòng)語音服務(wù),可以為企業(yè)提供一種智能化的并且相對(duì)安全的自動(dòng)服務(wù)方式。主要包括,企業(yè)的用戶服務(wù)中心(Call-Center),電話銀行,股票交易,電子商務(wù)等應(yīng)用領(lǐng)域,用戶可以在電話中進(jìn)行身份認(rèn)證及菜單流程的快捷選擇。

4.Web應(yīng)用

  Web應(yīng)用是把語音技術(shù)與Web應(yīng)用結(jié)合,例如語音瀏覽器、語音搜索引擎、網(wǎng)上語音聊天室及語音網(wǎng)游等。

5. 行業(yè)特殊應(yīng)用領(lǐng)域

  語音識(shí)別技術(shù)可以為有關(guān)部門提供應(yīng)用方案,幫助它們通過電話采集的語音進(jìn)行自動(dòng)的身份辨認(rèn),節(jié)省大量的人力,并大大提高工作效率和識(shí)別的成功率。

三、已開始處于商用化的市場

1、特殊行業(yè)市場

  指國家安全、偵破等特殊領(lǐng)域,由于該市場專業(yè)性強(qiáng),進(jìn)入壁壘非常高,同業(yè)競爭者非常少。

2、民用市場

  手機(jī)市場:中國近兩年在通訊業(yè)發(fā)展迅猛,工業(yè)和信息化部2009年1季度發(fā)布的統(tǒng)計(jì)顯示,截至2月底,全國手機(jī)用戶已逼近6.6億,這意味著國內(nèi)平均每2人就擁有1部手機(jī)。手機(jī)行業(yè)日趨成熟,而愈演愈烈的同質(zhì)化競爭必然促使商家在手機(jī)所提供的附加價(jià)值上翻花樣、做文章,以此來提高身價(jià)。隨著功能越來越強(qiáng)大的智能手機(jī)走紅市場,語音識(shí)別技術(shù)更有了發(fā)展的空間。研究表明,智能手機(jī)市場將在今后的數(shù)年里繼續(xù)保持增長勢頭,全球出貨量將從去年的1460萬部增長到2009年的1.25億部,2009年全球智能手機(jī)將增長至占全球手機(jī)市場的16%,而據(jù)預(yù)測中國智能手機(jī)2010年銷售量將達(dá)5190萬臺(tái)。按此數(shù)據(jù),以語音識(shí)別技術(shù)開發(fā)包應(yīng)用平均收入為7元/臺(tái)計(jì)算,相關(guān)市場規(guī)模可達(dá)3.5億元/年。

  車載導(dǎo)航市場:在國內(nèi)市場當(dāng)中,截止到2006年,中國汽車數(shù)量已經(jīng)超過3300萬輛,其中10萬元以下轎車占40%,10至30萬元之間的轎車占40%,30萬元以上的轎車大約占20%,但是車載GPS的安裝率卻僅為2%,遠(yuǎn)遠(yuǎn)低于日本59%、韓國40%、歐美25%的水平。根據(jù)計(jì)世資訊(CCW Research)最新研究報(bào)告《2007-2008年中國汽車電子市場發(fā)展趨勢研究報(bào)告》研究表明, 2007-2008年中國汽車GPS導(dǎo)航系統(tǒng)市場年增長率將超過80%。在不考慮車輛市場中每年新增量的前提下,以此潛在市場規(guī)模預(yù)測,GPS市場普及達(dá)到三者的平均水平41.3%,其中約70%的加裝語音識(shí)別人機(jī)交互系統(tǒng)。按此數(shù)據(jù),以嵌入式語音識(shí)別芯片平均收入為40元/套計(jì)算,相關(guān)市場規(guī)?蛇_(dá)3.8億元。

  MP3/MP4:中國的MP3/MP4市場已趨成熟,整體產(chǎn)銷的增長量也逐漸下滑,但是語音識(shí)別技術(shù)在此領(lǐng)域的滲透率卻微乎其微,仍有很大的增長空間。據(jù)賽迪顧問預(yù)計(jì),2009年中國MP3/MP4播放機(jī)市場銷售量將達(dá)到596.7萬臺(tái),同比增長4.9%,到2011年MP3/MP4播放機(jī)市場銷售量將達(dá)到650.2萬臺(tái),2009-2011年中國MP3/MP4播放機(jī)市場銷量年均復(fù)合增長率達(dá)到4.6%。以此為計(jì)算依據(jù)。按此數(shù)據(jù),以語音識(shí)別技術(shù)開發(fā)包應(yīng)用平均收入為7元/臺(tái)計(jì)算,相關(guān)市場規(guī)?蛇_(dá)0.46億元/年。

  玩具市場:中國是世界重要的玩具生產(chǎn)及出口地,75%的世界玩具產(chǎn)量均來自國內(nèi),僅2006年,玩具生產(chǎn)的產(chǎn)值便達(dá)到770億元,出口達(dá)到70.55億美元。中國有13億人口,自身又是玩具消費(fèi)的大市場,據(jù)有關(guān)部門預(yù)測,到2010年中國的玩具消費(fèi)額有望超過千億元人民幣。近來智能玩具發(fā)展勢頭看好,每年以40%左右的速度遞增,估計(jì)未來幾年間將占到整個(gè)玩具市場1/5左右的市場份額,這是一個(gè)數(shù)百億產(chǎn)值的市場,語音識(shí)別智能玩具即便只占這個(gè)市場份額的1/3,每年也會(huì)有數(shù)十億到上百億的產(chǎn)值。由于玩具本身的生產(chǎn)成本較低,附加值不高,因此語音識(shí)別智能芯片將至少占到其中一半甚至3/4的市值。

  行業(yè)應(yīng)用市場:除了以上個(gè)人消費(fèi)品市場以外,利用我們的核心軟件,生產(chǎn)出語音平臺(tái)銷售給二次開發(fā)商,最終產(chǎn)品可以進(jìn)入電信、銀行、網(wǎng)絡(luò)等客戶,具有不可估量的擴(kuò)展市場容量。

四、行業(yè)主要品牌

國際品牌

  Nuance:世界上最大的專業(yè)的語音識(shí)別軟件提供商,提供語音識(shí)別、語言理解和聲紋鑒定等一系列軟件,其產(chǎn)品被應(yīng)用于旅行預(yù)定、股票交易和企業(yè)門戶等眾多領(lǐng)域。公司在世界各地都設(shè)有分部或者合作伙伴,亞太總部設(shè)在香港,中國大陸地區(qū)的代理商為科大訊飛公司。Nuance的具體產(chǎn)品包括語音識(shí)別引擎,聲紋鑒定軟件,TTS引擎,SpeechObject組件(用于VXML以增強(qiáng)其功能),語音瀏覽器等等。

  IBM:IBM公司在語音識(shí)別領(lǐng)域有很長的研究歷史,其著名的產(chǎn)品是ViaVoice。如今,IBM公司在這個(gè)領(lǐng)域中的努力主要體現(xiàn)在Voice Server及其SDK上,該服務(wù)器建立在VXML基礎(chǔ)上以幫助開發(fā)商建立廣泛的電話語音應(yīng)用。由于擁有多元化的產(chǎn)業(yè)和雄厚的資金實(shí)力,它作為語音識(shí)別市場的先驅(qū),通過花費(fèi)大量資金培育市場,讓人們知道了什么是語音識(shí)別技術(shù)。

  Microsoft:微軟作為世界上最大的軟件提供商,一直視語音識(shí)別技術(shù)為其優(yōu)先研究項(xiàng)目,也適時(shí)地推出過許多產(chǎn)品,近年推出的Windows Vista系統(tǒng)已經(jīng)內(nèi)嵌了語音控制軟件。微軟強(qiáng)大的品牌效應(yīng)、龐大的研究機(jī)構(gòu)、優(yōu)秀的市場整合能力使得它成為業(yè)界強(qiáng)有力的競爭對(duì)手。

  國內(nèi)品牌有科大訊飛(以語音合成技術(shù)為主,當(dāng)初的戰(zhàn)略投資者獲得了數(shù)十倍的回報(bào))等少數(shù)幾家。

五、項(xiàng)目公司的優(yōu)勢

  項(xiàng)目公司是國內(nèi)專業(yè)從事語音識(shí)別技術(shù)研究、軟件開發(fā)和銷售的高科技公司。經(jīng)過多年的努力,公司發(fā)明了擁有完全自主知識(shí)產(chǎn)權(quán)的語音識(shí)別核心技術(shù),并以此內(nèi)核為基礎(chǔ),由公司的技術(shù)團(tuán)隊(duì)開發(fā)出專用的聲紋識(shí)別系統(tǒng)、語音關(guān)鍵詞識(shí)別系統(tǒng)和語音搜索引擎,將語音識(shí)別技術(shù)推廣到市場的同時(shí),也獲得了市場的認(rèn)可,在該專用領(lǐng)域占領(lǐng)了相當(dāng)?shù)氖袌龇蓊~。公司自成立以來,一直致力于從事聲紋識(shí)別技術(shù)及產(chǎn)品的研究、開發(fā)和銷售,利用其在身份識(shí)別上獨(dú)有的特性,深耕挖掘其使用價(jià)值。公司的聲紋識(shí)別技術(shù)現(xiàn)包括ATD聲紋識(shí)別技術(shù)和TI聲紋識(shí)別技術(shù)。開集區(qū)間技術(shù)實(shí)用化測試,以行業(yè)標(biāo)準(zhǔn)相等錯(cuò)誤率(EER指標(biāo))測試出其結(jié)果為0.6%,識(shí)別性能超過了指紋識(shí)別技術(shù)的識(shí)別水平,成為業(yè)內(nèi)唯一一家實(shí)現(xiàn)利用聲紋識(shí)別技術(shù)作為身份識(shí)別的唯一依據(jù),而非輔助依據(jù)的公司。公司正準(zhǔn)備啟動(dòng)下一步的發(fā)展計(jì)劃,在已有產(chǎn)品的基礎(chǔ)之上,利用在語意識(shí)別技術(shù)上的新突破,開發(fā)針對(duì)于各種移動(dòng)設(shè)備的語音識(shí)別軟件開發(fā)包、可進(jìn)行二次開發(fā)的軟件工具包,以及通用型的語音識(shí)別芯片,將語音識(shí)別技術(shù)與具有更廣泛市場基礎(chǔ)的領(lǐng)域相結(jié)合。

項(xiàng)目公司技術(shù)優(yōu)勢與特色:
  1. 仿生性——模擬人對(duì)語音和說話人的聽辨功能,而不是使用統(tǒng)計(jì)的方法。

  2. 可學(xué)習(xí)性——與人相類似,識(shí)別能力和準(zhǔn)確性隨著樣本量的增加而提高。

  3. 實(shí)時(shí)性——對(duì)瞬間語音信號(hào)的感知,而不是對(duì)固定長度的語音信號(hào)進(jìn)行處理。

  4. 強(qiáng)魯棒性〔robustness〕——在充分訓(xùn)練的情況下,識(shí)別能力具有極強(qiáng)的穩(wěn)定性和可靠性。

  5. 識(shí)別速度快——識(shí)別過程是一種快速的并行過程,實(shí)際上是一種輸入到輸出的映射,不需要在一個(gè)龐大的語音庫中進(jìn)行搜索。

  6. 強(qiáng)分辨能力——神經(jīng)網(wǎng)絡(luò)的非線性映射,比概率方法有更強(qiáng)的分辨能力;平均識(shí)別分辨度已接近或超過人耳分辨度。

  7. 開集識(shí)別——建立在高識(shí)別分辨度及無關(guān)性訓(xùn)練基礎(chǔ)上。

博銳管理在線


相關(guān)鏈接:
3G時(shí)代語音識(shí)別成本仍然是“攔路虎” 2009-06-10
自動(dòng)語音識(shí)別決定呼叫中心未來 2009-06-02
紫金礦業(yè)視頻會(huì)議系統(tǒng)備份需求 2009-05-21
吳曉如:語音技術(shù)助力更智能更安全的新一代呼叫中心 2009-04-22
VoiceXML論壇官方認(rèn)證平臺(tái) 2008-12-10