語(yǔ)音應(yīng)用技術(shù)實(shí)現(xiàn)人性化溝通
劉德明
2002/08/19
語(yǔ)音,作為人類最自然的交流方式,正以其不可阻擋的強(qiáng)勁勢(shì)頭融入到網(wǎng)絡(luò)系統(tǒng)中。在國(guó)外市場(chǎng),以Tellme.com和Nuance 、SpeechWorks為代表的企業(yè)異軍突起,倡導(dǎo)人性化的語(yǔ)音上網(wǎng)服務(wù)。隨后Yahoo、Lycos等著名互聯(lián)網(wǎng)公司紛紛進(jìn)入相應(yīng)的服務(wù)領(lǐng)域,建立大規(guī)模的語(yǔ)音門戶網(wǎng)站,AOL則提供所謂AOL-By-Phone服務(wù)。除了在互聯(lián)網(wǎng)的應(yīng)用之外,現(xiàn)在很多呼叫中心開始利用語(yǔ)音應(yīng)用技術(shù)實(shí)現(xiàn)更加人性化的溝通。
從技術(shù)角度看,語(yǔ)音識(shí)別技術(shù)、文語(yǔ)轉(zhuǎn)換技術(shù)已經(jīng)從實(shí)驗(yàn)室逐步走向成熟,其算法的復(fù)雜性也逐年下降,從而使這些技術(shù)逐步在市場(chǎng)中得以應(yīng)用。
語(yǔ)音技術(shù)在計(jì)算機(jī)領(lǐng)域中的關(guān)鍵技術(shù)是語(yǔ)音識(shí)別技術(shù)和語(yǔ)音合成技術(shù)。語(yǔ)音識(shí)別技術(shù)(ASR :Automatic Speech Recognition ),是指將人說話的語(yǔ)音信號(hào)轉(zhuǎn)換為可被計(jì)算機(jī)程序所識(shí)別的文字信息,從而識(shí)別說話人的語(yǔ)音指令以及文字內(nèi)容的技術(shù)。目前關(guān)于中文語(yǔ)音識(shí)別的研制和開發(fā)的廠商有:Speechworks、Nuance、Philips、Microsoft、IBM、L&H(已解體)、Infotalk、中科模式識(shí)別、天朗、得意音通、安可爾通信、聲碩科技等。而語(yǔ)音合成技術(shù)(TTS :Text to Speech ),是指將文本信息轉(zhuǎn)變?yōu)檎Z(yǔ)音數(shù)據(jù),以語(yǔ)音的方式播放出來的技術(shù)。目前關(guān)于中文語(yǔ)音合成的研制和開發(fā)的廠商有:捷通華聲、炎黃新星、Infotalk、科大訊飛、IBM、Microsoft等。
類似于互聯(lián)網(wǎng)上的Web 瀏覽技術(shù),語(yǔ)音瀏覽技術(shù)是以一種XML 標(biāo)記語(yǔ)言為數(shù)據(jù)載體,通過各種網(wǎng)絡(luò)數(shù)據(jù)傳輸協(xié)議,而以Client/Server 的方式為語(yǔ)音瀏覽器所解析,通過語(yǔ)音的方式呈現(xiàn)給用戶。這類似于Web與IE瀏覽器的概念,只不過IE以圖像的方式在顯示器上將信息呈現(xiàn)出來,而語(yǔ)音瀏覽器則以語(yǔ)音的方式在電話、手機(jī)或其它語(yǔ)音手持設(shè)備的通道中呈現(xiàn)。IE 接受用戶的鼠標(biāo)和鍵盤指令,而語(yǔ)音瀏覽器接受用戶的說話為指令。目前,已經(jīng)有廠商開始將語(yǔ)音瀏覽技術(shù)應(yīng)用于呼叫中心,在當(dāng)今以廠商為中心的模式中,主叫用戶只能以掛斷電話的方式來"擺脫"某一企業(yè)的按鍵式交互語(yǔ)音應(yīng)答(IVR)系統(tǒng),而在未來以用戶為中心的模式中,主叫用戶可與語(yǔ)音瀏覽展開交互式對(duì)話,可以像網(wǎng)上沖浪般快捷、方便地從一家企業(yè)自由地 跳到另外一家企業(yè)。
語(yǔ)音應(yīng)用技術(shù)是語(yǔ)音技術(shù)、語(yǔ)音瀏覽技術(shù)、智能文字信息處理技術(shù)等技術(shù)的集合,它是跨接在以語(yǔ)音為核心的電話網(wǎng)絡(luò)和以數(shù)據(jù)為核心的互聯(lián)網(wǎng)絡(luò)兩者之間的一座橋梁,使人們可以自由地以對(duì)話方式與機(jī)器和遠(yuǎn)端語(yǔ)音服務(wù)器交談,以語(yǔ)音的方式命令機(jī)器為自己服務(wù)。
賽迪網(wǎng) 中國(guó)信息化(industry.ccidnet.com)
相關(guān)鏈接: