從技術(shù)角度看,語音識別技術(shù)、文語轉(zhuǎn)換技術(shù)已經(jīng)從實驗室逐步走向成熟,其算法的復雜性也逐年下降,從而使這些技術(shù)逐步在市場中得以應用。
語音技術(shù)在計算機領域中的關(guān)鍵技術(shù)是語音識別技術(shù)和語音合成技術(shù)。語音識別技術(shù)(ASR :Automatic Speech Recognition ),是指將人說話的語音信號轉(zhuǎn)換為可被計算機程序所識別的文字信息,從而識別說話人的語音指令以及文字內(nèi)容的技術(shù)。目前關(guān)于中文語音識別的研制和開發(fā)的廠商有:Speechworks、Nuance、Philips、Microsoft、IBM、L&H(已解體)、Infotalk、中科模式識別、天朗、得意音通、安可爾通信、聲碩科技等。而語音合成技術(shù)(TTS :Text to Speech ),是指將文本信息轉(zhuǎn)變?yōu)檎Z音數(shù)據(jù),以語音的方式播放出來的技術(shù)。目前關(guān)于中文語音合成的研制和開發(fā)的廠商有:捷通華聲、炎黃新星、Infotalk、科大訊飛、IBM、Microsoft等。
類似于互聯(lián)網(wǎng)上的Web 瀏覽技術(shù),語音瀏覽技術(shù)是以一種XML 標記語言為數(shù)據(jù)載體,通過各種網(wǎng)絡數(shù)據(jù)傳輸協(xié)議,而以Client/Server 的方式為語音瀏覽器所解析,通過語音的方式呈現(xiàn)給用戶。這類似于Web與IE瀏覽器的概念,只不過IE以圖像的方式在顯示器上將信息呈現(xiàn)出來,而語音瀏覽器則以語音的方式在電話、手機或其它語音手持設備的通道中呈現(xiàn)。IE 接受用戶的鼠標和鍵盤指令,而語音瀏覽器接受用戶的說話為指令。目前,已經(jīng)有廠商開始將語音瀏覽技術(shù)應用于呼叫中心,在當今以廠商為中心的模式中,主叫用戶只能以掛斷電話的方式來"擺脫"某一企業(yè)的按鍵式交互語音應答(IVR)系統(tǒng),而在未來以用戶為中心的模式中,主叫用戶可與語音瀏覽展開交互式對話,可以像網(wǎng)上沖浪般快捷、方便地從一家企業(yè)自由地 跳到另外一家企業(yè)。
語音應用技術(shù)是語音技術(shù)、語音瀏覽技術(shù)、智能文字信息處理技術(shù)等技術(shù)的集合,它是跨接在以語音為核心的電話網(wǎng)絡和以數(shù)據(jù)為核心的互聯(lián)網(wǎng)絡兩者之間的一座橋梁,使人們可以自由地以對話方式與機器和遠端語音服務器交談,以語音的方式命令機器為自己服務。
賽迪網(wǎng) 中國信息化(industry.ccidnet.com)