IBM中國(guó)研究中心 沈麗琴 博士 2000/09/13
直到今天,像人一樣的機(jī)器人依然顯得遙不可及,但作為機(jī)器人的耳朵,語(yǔ)音識(shí)別技術(shù)近幾年有了許多突破性進(jìn)展,終于從實(shí)驗(yàn)室走進(jìn)了我們的生活。
首先,將隱馬爾科夫模型引入語(yǔ)音識(shí)別是該領(lǐng)域的重要突破。它有效體現(xiàn)了語(yǔ)音信號(hào)的隨機(jī)概率過(guò)程,它成熟的訓(xùn)練算法又為語(yǔ)音模型的建立提供了基礎(chǔ)。至今,這仍是語(yǔ)音建模的主流方法。在隨后的研究中,科學(xué)家們發(fā)現(xiàn)同樣一個(gè)音,在它的上下文不同時(shí),發(fā)音的特征不盡相同。為了更準(zhǔn)確地描述這些變化,決策樹(shù)被用來(lái)描述和記錄上下文對(duì)語(yǔ)音模型的影響。另外,我們?cè)诼?tīng)別人講話時(shí),并不一定聽(tīng)清了對(duì)方發(fā)出的每一個(gè)音,但根據(jù)談話的主題和我們的語(yǔ)言知識(shí)背景,可以猜出那些沒(méi)聽(tīng)清的音是什么,而且毫不影響我們的交流。這就是語(yǔ)言模型的功勞了。它幫助我們?cè)诼?tīng)到前面的談話內(nèi)容后,猜測(cè)后面會(huì)說(shuō)什么,特別是有同音詞和近音詞的時(shí)候,幫助我們消除歧義,確定正確的說(shuō)話內(nèi)容。IBM的科學(xué)家們發(fā)明了n元的統(tǒng)計(jì)語(yǔ)言模型,通過(guò)輸入給計(jì)算機(jī)大量的文字資料,讓它“學(xué)習(xí)”和“記憶”人們會(huì)怎么用詞,組句?墒牵Z(yǔ)音識(shí)別需要的計(jì)算資源太大,沒(méi)有新的突破它依然只能是實(shí)驗(yàn)室技術(shù)。特別是要聽(tīng)懂人們?nèi)粘Vv話,因?yàn)槲覀兂S玫脑~匯太多,有好幾萬(wàn),科學(xué)家們想出了先用快速匹配方法,用很小的計(jì)算量很快地找出與發(fā)音相似的候選詞,然后在縮小的范圍中,進(jìn)行仔細(xì)計(jì)算,這顯著提高了大詞匯系統(tǒng)識(shí)別的速度。還有其他一系列不勝枚舉的重大突破。IBM的許多科學(xué)家在這領(lǐng)域長(zhǎng)期不懈的努力和獲得的一百多項(xiàng)專利,確定了公司技術(shù)上的領(lǐng)先地位。另外值得一提的是,得益于這些年微處理器的速度加快,成本降低,語(yǔ)音識(shí)別才真正能夠走入我們的生活。
創(chuàng)造先進(jìn)的技術(shù)是根本,將技術(shù)用于生活和工作,服務(wù)于人類才是最終的目的。1997年,IBM公司推出了世界上第一個(gè)中文連續(xù)語(yǔ)音識(shí)別產(chǎn)品——ViaVoice4.0,終于突破了連續(xù)語(yǔ)音、大詞匯量和非特定識(shí)別人的難關(guān),并成功解決了漢語(yǔ)同音字多、有聲調(diào)、口音復(fù)雜等問(wèn)題,幫助人們從笨拙的鍵盤(pán)輸入中解脫出來(lái),因而被廣泛認(rèn)為是漢字輸入的重要里程碑。這項(xiàng)技術(shù)對(duì)中國(guó)人的意義尤其重大,因?yàn)闈h字的鍵盤(pán)輸入對(duì)許多人來(lái)說(shuō)都是很困難的。至今為止,IBM共有13種語(yǔ)言的語(yǔ)音識(shí)別產(chǎn)品。但是聽(tīng)寫(xiě)機(jī)只是一個(gè)開(kāi)始,直到去年的ViaVoice巍巍世紀(jì)版,更有語(yǔ)音控制、語(yǔ)音上網(wǎng)、網(wǎng)上聊天等功能,讓人們能真的輕松運(yùn)用計(jì)算機(jī)。(IBM中國(guó)研究中心沈麗琴博士)
IBM在去年年底發(fā)布的電話語(yǔ)音識(shí)別技術(shù)可以使許多商家的服務(wù)更 周到,更多的電話用戶受益。有了這項(xiàng)技術(shù),各種信息查詢、飛機(jī)訂 票、旅館預(yù)定等都可以實(shí)現(xiàn)自動(dòng)化。利用IBM的語(yǔ)音識(shí)別技術(shù)通過(guò)電話 上網(wǎng),用戶只需說(shuō)出你想得到的網(wǎng)上信息,機(jī)器就會(huì)自動(dòng)識(shí)別,將你 的請(qǐng)求送到互聯(lián)網(wǎng)上,并把返回的相關(guān)信息用語(yǔ)音合成技術(shù)回放給你, 為用戶提供人性化的語(yǔ)音應(yīng)答交互界面。這樣,眾多的電話用戶就可 以享受到網(wǎng)上信息服務(wù)。
越來(lái)越多的掌上設(shè)備正慢慢成為許多人的生活和工作必備品,比 如手機(jī)、電子記事本,IBM的WorkPad等。這些小的設(shè)備或者沒(méi)有鍵 盤(pán),或者只有簡(jiǎn)單的數(shù)字鍵,輸入和各種操作都十分不便。如果能用 人們覺(jué)得最自然的方式———語(yǔ)音進(jìn)行控制,人們將更加青睞這些靈 巧的伴侶。IBM公司將已經(jīng)在高端計(jì)算機(jī)上發(fā)展的語(yǔ)音技術(shù)進(jìn)行簡(jiǎn)化, 抽取其中的核心技術(shù),研制出用于這類低端設(shè)備的識(shí)別引擎,并在市 場(chǎng)中的某些掌上電腦上成功建立了實(shí)用的原型系統(tǒng),證明了技術(shù)的可 行性。相信在不久的將來(lái),人們完全可以用語(yǔ)音操作手機(jī)和各種掌上 設(shè)備。
為了讓人與機(jī)器的交流更加自然,我們需要機(jī)器不僅能識(shí)別準(zhǔn)用 戶說(shuō)的話,更要理解它,然后去執(zhí)行相應(yīng)的動(dòng)作。比如,用戶通過(guò)語(yǔ) 音訂房,要求“訂一套10月12日在某某酒店的單人房”。當(dāng)用語(yǔ)音識(shí) 別技術(shù)識(shí)別出這句話后,機(jī)器還需要理解客戶入住的時(shí)間是“10月 12日”,酒店是“某某酒店”,房型是“單人房”。然后將這些需求 送給系統(tǒng)才能完成預(yù)定。這是自然語(yǔ)言理解的技術(shù)。目前還不十分成 熟,但已初步使用。同時(shí)機(jī)器必須產(chǎn)生合適的回答把得到的信息(如 是否有房,價(jià)格等)反饋給用戶,或提示用戶需要進(jìn)一步的信息(如 請(qǐng)用戶提供離店日期等),這就是自然語(yǔ)言產(chǎn)生的技術(shù)。產(chǎn)生準(zhǔn)確地 應(yīng)答也是一項(xiàng)十分具有挑戰(zhàn)性的技術(shù)。另外相關(guān)的技術(shù)還有,在許多 應(yīng)用場(chǎng)合,需要說(shuō)話人辨識(shí)技術(shù),以便通過(guò)語(yǔ)音判斷說(shuō)話人是誰(shuí),免 去用戶記憶難記的密碼。提供更友好的系統(tǒng)與人的交互界面。
當(dāng)然,語(yǔ)音識(shí)別本身也還沒(méi)有達(dá)到完美,還有許多挑戰(zhàn)等待著科 學(xué)家去一一攻破。比如對(duì)不同噪聲環(huán)境的適應(yīng);兩種或多種語(yǔ)言?shī)A雜 使用的語(yǔ)音識(shí)別;或者特別隨意的對(duì)話識(shí)別等等?梢钥吹剑Z(yǔ)音識(shí) 別技術(shù)將讓我們體會(huì)到技術(shù)創(chuàng)新給人類帶來(lái)的輕松和效率。
《光明日?qǐng)?bào)》 2000/09/13