看美女视频的app推荐,五月天美女视频

首頁(yè)>>>技術(shù)>>>語(yǔ)音應(yīng)用>>>語(yǔ)音識(shí)別(ASR)　　語(yǔ)音識(shí)別產(chǎn)品

擒獲未來(lái)：下一代的語(yǔ)音識(shí)別技術(shù)

何生 2004/02/17

　　機(jī)器人和人進(jìn)行交談，對(duì)科幻電影愛(ài)好者來(lái)說(shuō)可能是再自然不過(guò)的事情了；相反，如果他們不能交談，倒會(huì)讓人覺(jué)得是咄咄怪事�？蓪�(duì)于真正研究人機(jī)自然交流的全世界科學(xué)家來(lái)說(shuō)，為了實(shí)現(xiàn)這一看似簡(jiǎn)單的的夢(mèng)想所要解決的難題可能遠(yuǎn)遠(yuǎn)超過(guò)讓人登上火星。他們已經(jīng)努力了30多年，或多或少，縮短了人們和這一夢(mèng)想的距離。是否需要再等另一個(gè)30年呢？

　　“也許不需要那么長(zhǎng)，”美國(guó)喬治亞理工學(xué)院的電子計(jì)算機(jī)工程系教授Fred Juang說(shuō)，“下一代的語(yǔ)音識(shí)別機(jī)可能在五到十年內(nèi)成為現(xiàn)實(shí)�！盝uang教授是語(yǔ)音識(shí)別研究領(lǐng)域的專(zhuān)家，他曾參與自動(dòng)電話(huà)接線(xiàn)語(yǔ)音識(shí)別技術(shù)的開(kāi)發(fā)�，F(xiàn)在這一技術(shù)已經(jīng)廣泛的用于各行業(yè)。

　　他在正在西雅圖召開(kāi)的美國(guó)科學(xué)促進(jìn)協(xié)會(huì)(AAAS)的年會(huì)上說(shuō)，為了制造出能夠真正和人自然交流的機(jī)器來(lái)，需要對(duì)現(xiàn)在的語(yǔ)音識(shí)別技術(shù)所依賴(lài)的理論進(jìn)行根本的改造。

　　現(xiàn)在的語(yǔ)音識(shí)別技術(shù)基本上是由機(jī)器對(duì)人的語(yǔ)音進(jìn)行信號(hào)處理，然后將其與預(yù)先設(shè)計(jì)的文字?jǐn)?shù)據(jù)庫(kù)進(jìn)行比對(duì)，將與收到的語(yǔ)音信號(hào)最相匹配的文字挑選出來(lái)，然后按照預(yù)先設(shè)定的一些語(yǔ)法規(guī)則排列，從而實(shí)現(xiàn)從語(yǔ)音到文字的轉(zhuǎn)變。如果得到的文本和人原來(lái)表達(dá)的意思相同或相近，那么，我們就可以說(shuō)，機(jī)器完成了語(yǔ)音識(shí)別。完成這一過(guò)程的主要數(shù)學(xué)基礎(chǔ)就是一種叫做隱含馬爾可夫模型的算法。

　　研究者們發(fā)現(xiàn)，基于這種算法的語(yǔ)音識(shí)別技術(shù)對(duì)于一些簡(jiǎn)單的人機(jī)對(duì)話(huà)能夠達(dá)到不錯(cuò)的效果，但對(duì)于達(dá)到自如的相互交談來(lái)說(shuō)還遠(yuǎn)遠(yuǎn)不夠。通常來(lái)說(shuō)，對(duì)于設(shè)定的場(chǎng)景，設(shè)定主題的對(duì)話(huà)，語(yǔ)音識(shí)別機(jī)會(huì)有比較好的表現(xiàn)效果。例如，定票服務(wù)，電話(huà)接駁，聽(tīng)寫(xiě)等等。實(shí)際上，語(yǔ)音識(shí)別技術(shù)在這些方面的應(yīng)用已經(jīng)日漸廣泛。特別是隨著移動(dòng)通信的發(fā)展，諸如語(yǔ)音撥號(hào)，語(yǔ)音郵件已經(jīng)開(kāi)始或者將要開(kāi)始進(jìn)入應(yīng)用領(lǐng)域。但是，困擾語(yǔ)音識(shí)別多年的根本性問(wèn)題仍然沒(méi)有得到解決。華盛頓大學(xué)的瑪麗·奧斯騰多夫說(shuō)道。一個(gè)重要的方面是，目前的人機(jī)交流仍然出于一種非自然的，非談話(huà)的狀態(tài)。“我們會(huì)時(shí)刻注意到，我們是在和機(jī)器，而不是和人在說(shuō)話(huà)，”她說(shuō)。簡(jiǎn)而言之，你無(wú)法期待它完全像人一樣反應(yīng)。一旦你想要和它聊天一樣說(shuō)話(huà)，它就無(wú)法應(yīng)對(duì)了。

　　人講話(huà)中經(jīng)常出現(xiàn)的停頓，重復(fù)，發(fā)音不清，“嗯”，“啊”，等等，對(duì)機(jī)器來(lái)說(shuō)無(wú)異于一場(chǎng)惡夢(mèng)。再考慮到方言，口音的影響，語(yǔ)音識(shí)別機(jī)的出錯(cuò)率往往讓任何一個(gè)使用者喪失信心。

　　另一方面的挑戰(zhàn)是，人講話(huà)往往并非在非常安靜的環(huán)境，外界環(huán)境的噪聲，其他人的插話(huà)，等等，會(huì)極大影響語(yǔ)音識(shí)別的準(zhǔn)確性。正是由于這種環(huán)境對(duì)聲音的扭曲和人類(lèi)交談的隨意性的特點(diǎn)，使得語(yǔ)音識(shí)別準(zhǔn)確率的提高困難重重。

　　科學(xué)家們嘗試了各種辦法，包括設(shè)計(jì)各種新算法，改進(jìn)受話(huà)麥克風(fēng)的設(shè)計(jì)，以及開(kāi)發(fā)具有學(xué)習(xí)和糾錯(cuò)能力的識(shí)別機(jī)，等等。試驗(yàn)已經(jīng)證明，通過(guò)改進(jìn)受話(huà)麥克風(fēng)的設(shè)計(jì)，可以比較明顯的“過(guò)濾”噪音，提高識(shí)別的質(zhì)量。但這還遠(yuǎn)遠(yuǎn)不夠。而開(kāi)發(fā)具有學(xué)習(xí)和糾錯(cuò)能力的識(shí)別機(jī)還處于起步階段。而另外一種，更加前沿的探索則是，使語(yǔ)音識(shí)別機(jī)具有人類(lèi)的“常識(shí)”。通過(guò)賦予機(jī)器人類(lèi)語(yǔ)言的語(yǔ)義學(xué)知識(shí)，語(yǔ)法知識(shí)，模擬人識(shí)別語(yǔ)音的過(guò)程，從而企望達(dá)到更好的識(shí)別率和更自然的交流。

　　Juang所說(shuō)的下一代語(yǔ)音識(shí)別機(jī)正是這一前沿探索之一。

　　他說(shuō)，當(dāng)人們?cè)诮徽剷r(shí)，往往對(duì)某些指稱(chēng)的內(nèi)容已經(jīng)有了共識(shí)。例如，如果一群電子工程師在交談時(shí)，他們可能會(huì)使用“它”來(lái)指代剛剛談到的歐姆定律。但對(duì)機(jī)器來(lái)說(shuō)，卻完全不知道它指稱(chēng)為何，更不用說(shuō)理解其真正含義了�！叭绻恳淮斡懻摃r(shí)都需要對(duì)其進(jìn)行指定的話(huà)，交流就會(huì)變得極其笨拙了�！彼f(shuō)�！澳軌蚶斫馍舷挛闹械闹阜Q(chēng)對(duì)自然語(yǔ)言交流來(lái)說(shuō)是關(guān)鍵的。如果機(jī)器能作到這點(diǎn)，就能夠和人自然的交流了�！彼O(shè)想一套框架，由一些所謂的“信息探測(cè)器”組成，旨在收集，分析話(huà)音中的“意思”，而非簡(jiǎn)單的字詞。這種識(shí)別機(jī)將能夠自己學(xué)習(xí)，能夠像人一樣，在沒(méi)聽(tīng)懂時(shí)說(shuō)：“我沒(méi)聽(tīng)懂”。要求進(jìn)一步說(shuō)明。

　　而要實(shí)現(xiàn)這一設(shè)想，Juang認(rèn)為需要研究新的，超越隱含馬爾可夫模型的算法。而實(shí)際上，包括他在內(nèi)的世界各國(guó)的不少研究者正在這方面努力�！拔覀冋幵诎l(fā)展新模式的起步階段，可以說(shuō)，我們已經(jīng)有了所需框架的百分之六十了。其它的一些問(wèn)題并不是不可解決，”Juang說(shuō)。

　　也許。

　　但剩下的百分四十的部分也許不像看起來(lái)的那么簡(jiǎn)單。語(yǔ)音技術(shù)發(fā)展的經(jīng)驗(yàn)似乎表明，每當(dāng)研究者前進(jìn)一步，離最終的目標(biāo)似乎就“似近實(shí)遠(yuǎn)”。我們對(duì)基本問(wèn)題——例如人的語(yǔ)音識(shí)別過(guò)程——的了解越深入，讓我們感到困惑無(wú)力的地方似乎也越多。Juang和許多的同行是樂(lè)觀派，不過(guò)可能也有同樣數(shù)量的其它研究者沒(méi)有這么樂(lè)觀.“也許，在我們真正了解人自身識(shí)別語(yǔ)言的全部秘密之前，我們只能接受不那么像人的機(jī)器語(yǔ)音識(shí)別。”微軟研究院的阿塞羅說(shuō).

新浪科技(tech.sina.com.cn)

淺談ASR和TTS技術(shù)在CTI中的應(yīng)用 2004-01-02

語(yǔ)音識(shí)別前景如何？ 2003-12-06

語(yǔ)音技術(shù)成為主流 2003-11-27

電話(huà)語(yǔ)音識(shí)別系統(tǒng)流程設(shè)計(jì) 2003-11-20

分類(lèi)信息: 文摘技術(shù)_語(yǔ)音識(shí)別_文摘