首頁>>>技術(shù)>>>語音應(yīng)用>>>語音識(shí)別(ASR)  語音識(shí)別產(chǎn)品

智能識(shí)別領(lǐng)域的新三國(guó)演義

周速華 2003/03/31

  微軟之傷

  盡管在平臺(tái)軟件方面取得了壟斷性地位,但是微軟的創(chuàng)始人、現(xiàn)任微軟董事長(zhǎng)兼首席軟件設(shè)計(jì)師比爾.蓋茨卻并不滿足,因?yàn)樗幸粋(gè)夢(mèng)想-Natural Computing(指用戶可以用最自然的方法進(jìn)行操作的電腦環(huán)境)。

  為了這個(gè)目標(biāo),微軟已經(jīng)努力了很久。幾年前微軟推出了“Windows for Pen Computing”, 但在經(jīng)歷過多次嘗試后以失敗告終;兩年前,微軟又提出了“Tablet PC”的概念;不久前,微軟聯(lián)合幾大知名硬件廠商推出了實(shí)質(zhì)性的產(chǎn)品。如此種種,足以表明已在操作系統(tǒng)領(lǐng)域處于領(lǐng)導(dǎo)地位的微軟正朝Natural Computing步步逼近。

  在此過程中,困擾微軟最大的問題是自然語言的識(shí)別技術(shù),包括文字輸入、語音輸入等技術(shù)。在智能識(shí)別技術(shù)上,微軟并不占據(jù)領(lǐng)先地位。目前在語音輸入和中文手寫輸入占據(jù)領(lǐng)導(dǎo)地位的分別是IBM和中國(guó)的漢王公司,微軟要想搶占智能輸入的制高點(diǎn)就必須向這兩家公司發(fā)起挑戰(zhàn)。

  智能輸入和識(shí)別的未來

  智能識(shí)別到底有何魅力,使得計(jì)算機(jī)軟件領(lǐng)域的首席代表如此尷尬不已?

  人與計(jì)算機(jī)的交互一直是困擾廠商和用戶的一個(gè)難題。隨著技術(shù)的不斷發(fā)展,人機(jī)交互日臻完美已經(jīng)不再停留在各種構(gòu)想的可行性討論階段,結(jié)合計(jì)算機(jī)系統(tǒng)和生物系統(tǒng),人們構(gòu)想的各種交互方式已經(jīng)成為可能。

  試想一下,當(dāng)我們手中的鋼筆成為最常用的輸入設(shè)備,成為替代軟盤的存儲(chǔ)介質(zhì)時(shí),你有什么樣的感慨?生活真的可以如此方便簡(jiǎn)單,它可以比傳統(tǒng)臺(tái)式和筆記本計(jì)算機(jī)更迅速快捷地記錄下我們思維中瞬間的閃光點(diǎn)。

  盡管人機(jī)交互的探討一直沒有定論,但是“語音加筆輸入”的輸入方式必是未來的人機(jī)界面的發(fā)展趨勢(shì)。隨著信息技術(shù)的發(fā)展,人們正在逐漸擺脫線纜和體積的束縛,對(duì)于任何需要交互的設(shè)備來說,信息輸入都是必不可少的,而語音和筆輸入無疑是最理想的輸入方式。

  目前在智能終端設(shè)備上,手寫輸入已經(jīng)全面普及。中高端掌上電腦基本上都具備了手寫輸入的功能;具備手寫輸入功能的智能手機(jī)也不斷面市,如索尼和愛立信聯(lián)合推出的P802手機(jī),多普達(dá)推出的Pocket PC手機(jī)等都可成為見證。

  而語音輸入在我們的日常家居中更為普遍。采用語音輸入的基于嵌入式操作系統(tǒng)的智能家居設(shè)備已經(jīng)走出了實(shí)驗(yàn)室;通過語音來控制家里的家電如燈光的亮度、空調(diào)的開關(guān)都已經(jīng)成為可能。

  智能輸入使我們忙碌的生活變得精彩和簡(jiǎn)單,也給某些特殊的人群帶去福音。對(duì)于老年人而言,手寫輸入使得他們能夠親自體驗(yàn)信息技術(shù)的便利;而對(duì)于殘疾人來說,語言和手寫輸入無疑便實(shí)現(xiàn)了其最大的價(jià)值。

  IBM和漢王領(lǐng)跑

  IBM在語音輸入方面的霸主地位不容否認(rèn),IBM在語音識(shí)別領(lǐng)域的研究也已有20多年的歷史,最近它又宣布將語音引擎放到Radhat的Linux中。在美國(guó),IBM語音識(shí)別產(chǎn)品ViaVoice的銷量達(dá)到百萬套以上。IBM通過持續(xù)的研發(fā)在最近的兩三年已經(jīng)取得了突破性的進(jìn)展,識(shí)別率接近95%。IBM希望將語音識(shí)別將從簡(jiǎn)單的聽寫,發(fā)展到更廣的應(yīng)用領(lǐng)域,人們將可以做到與計(jì)算機(jī)的真正對(duì)話。

  與此同時(shí),IBM也致力于將語音識(shí)別技術(shù)應(yīng)用到PDA等移動(dòng)設(shè)備之中。由于通過鍵盤鼠標(biāo)輸入不適用于移動(dòng)計(jì)算環(huán)境,因而在移動(dòng)計(jì)算領(lǐng)域,語音輸入具有極大的發(fā)展?jié)摿。但移?dòng)設(shè)備的資源通常比較有限,在這樣有限的空間內(nèi)要集成語音識(shí)別技術(shù)有相當(dāng)大的難度,而這也是語音技術(shù)應(yīng)用的最大空間。另外,語音識(shí)別技術(shù)自身還存在許多技術(shù)難題需要解決,比如對(duì)方言的適應(yīng)性、容易受外界環(huán)境的干擾等。

  而在中文手寫輸入領(lǐng)域稱霸的則是一向不太愛拋頭露面的漢王科技,這家脫鉤于中國(guó)科學(xué)院自動(dòng)化研究所國(guó)家文字識(shí)別中心的企業(yè),憑借近20年的技術(shù)積累,在技術(shù)以及市場(chǎng)上都已遙遙領(lǐng)先于其他競(jìng)爭(zhēng)對(duì)手。

  早在1985年,現(xiàn)任漢王科技總裁劉迎建就研發(fā)成功了“聯(lián)機(jī)手寫漢字識(shí)別在線裝置”,成為國(guó)內(nèi)首創(chuàng)。劉迎建隨后向國(guó)家“863”計(jì)劃專家組提出的“樣本收集-方法研究-系統(tǒng)實(shí)現(xiàn)”三級(jí)研究開發(fā)線路,在業(yè)界第一個(gè)把樣本收集整理提到了重要地位,對(duì)促進(jìn)我國(guó)手寫漢字識(shí)別的研究起到了極其重要的作用。如今,漢王科技的手寫識(shí)別系統(tǒng)已經(jīng)發(fā)展到了第10版,其中的“行草王”及“大字符集”兩大識(shí)別核心的突破,使得漢王手寫識(shí)別產(chǎn)品不僅能識(shí)別一般的連筆字、繁體字、倒插筆順字,還能完全識(shí)別手寫行草體漢字,并且能識(shí)別國(guó)家GBK漢字標(biāo)準(zhǔn)字庫(kù)中的所有27000個(gè)漢字,使手寫輸入真正達(dá)到了輕松自如的境地,同時(shí)也進(jìn)一步確定了漢王在同業(yè)中的領(lǐng)先地位。

  據(jù)悉,在目前的手寫輸入產(chǎn)品市場(chǎng),漢王的市場(chǎng)占有率已經(jīng)達(dá)到了75%。不管是商務(wù)通、聯(lián)想、名人等知名品牌的掌上電腦,還是基于Palm OS或者基于Pocket PC的其他一些掌上電腦設(shè)備,目前使用的都是漢王公司的手寫識(shí)別技術(shù)。聯(lián)想、金長(zhǎng)城、金恒生等國(guó)內(nèi)許多知名品牌的電腦,以及大部分集成了手寫輸入功能的手機(jī)使用的也都是漢王的手寫技術(shù)。正是因?yàn)樵诤诵募夹g(shù)上的領(lǐng)先地位以及應(yīng)用上的巨大成就,漢王手寫識(shí)別技術(shù)還獲得了2001年度的國(guó)家最高科技獎(jiǎng)項(xiàng)--國(guó)家科技進(jìn)步一等獎(jiǎng)。

  IBM已經(jīng)將語音輸入擴(kuò)展到了Linux、手機(jī)操作系統(tǒng)上,而漢王也將手寫輸入擴(kuò)展到了掌上電腦、電話機(jī)、手機(jī)上。2002年底,漢王科技進(jìn)一步明確了“做核心、做應(yīng)用、做擴(kuò)散”的發(fā)展思路。

  微軟的努力

  微軟顯然看到了智能識(shí)別技術(shù)這一發(fā)展趨勢(shì),而IBM和漢王顯然不會(huì)放棄領(lǐng)先優(yōu)勢(shì)。習(xí)慣了領(lǐng)者風(fēng)范的微軟,絕對(duì)忍受不了與IBM和漢王各分一杯羹,可以預(yù)見,一場(chǎng)關(guān)于智能輸入的爭(zhēng)奪戰(zhàn)即將拉開序幕。

  由于自身缺乏核心技術(shù)的優(yōu)勢(shì),因此在智能輸入上微軟還只能通過聯(lián)盟的方式進(jìn)行運(yùn)作。早在1998年,微軟的Windows CE中文版使用的就是漢王的手寫技術(shù),2001年6月,微軟推出的Pocket PC中文版再一次使用了漢王的手寫技術(shù)。前段時(shí)間,當(dāng)大家都在批評(píng)Tablet PC的中文手寫識(shí)別不盡人意時(shí),業(yè)界又傳出消息:微軟正在就Tablet PC的手寫輸入問題與漢王進(jìn)行合作。

  作為軟件行業(yè)的霸主微軟顯然明白核心技術(shù)的重要,但現(xiàn)在微軟不得不面對(duì)在智能識(shí)別技術(shù)上受制于人的現(xiàn)狀。為了改善這種情況,微軟將一切希望寄托于1998年成立的微軟亞洲研究院,其前身是微軟中國(guó)研究院,是微軟公司在海外開設(shè)的第二家基礎(chǔ)科研機(jī)構(gòu),也是亞洲地區(qū)唯一的基礎(chǔ)研究機(jī)構(gòu)。

  顯然,微軟對(duì)其亞洲研究院給予厚望。微軟亞洲研究院的使命就是使未來的計(jì)算機(jī)能夠看、聽、學(xué),能用自然語言與人類進(jìn)行交流。目前在進(jìn)行智能識(shí)別技術(shù)研發(fā)的有多通道用戶界面組、語音技術(shù)組和自然語言組在各自領(lǐng)域進(jìn)行探索。

  微軟當(dāng)然會(huì)利用其在PC操作系統(tǒng)方面的優(yōu)勢(shì),今后在微軟的Windows和Office兩大主力產(chǎn)品中都會(huì)加入對(duì)手寫和語音輸入的支持。微軟曾經(jīng)考慮過在Windows中加入對(duì)手寫輸入的支持,由于礙于和漢王的合作關(guān)系最終沒有得逞,但是一旦微軟啟動(dòng)這一計(jì)劃,打擊也將是毀滅性的,Netscape失敗的例子已經(jīng)證明了微軟的威力。

  微軟野心勃勃,IBM希望締造一個(gè)全方位的語音平臺(tái),漢王的目標(biāo)是做中文非鍵盤輸入的領(lǐng)導(dǎo)者,三者誰也不會(huì)示弱, IBM、微軟、漢王之間這場(chǎng)關(guān)于語音輸入和中文手寫輸入的斗爭(zhēng)最后鹿死誰手尚難預(yù)料。

eNet硅谷動(dòng)力(cio.enet.com.cn)


相關(guān)鏈接:
清華大學(xué)計(jì)算機(jī)應(yīng)用專業(yè)博士鄭方聊天實(shí)錄 2003-03-14
中文語音語言處理技術(shù)與中國(guó)無線互聯(lián) 2003-03-14
結(jié)合ASR系統(tǒng)有聲有色 2003-03-11
語音技術(shù)帶來呼叫中心用戶體驗(yàn)的變革 2003-03-11
也談?wù)Z音識(shí)別技術(shù)在玩具領(lǐng)域的低成本應(yīng)用 2003-01-06

分類信息:     文摘   技術(shù)_語音識(shí)別_文摘