語音應(yīng)用(VAP)技術(shù)指基于語音進(jìn)行處理的技術(shù),包括語音識(shí)別技術(shù)和語音合成技術(shù)等。語音應(yīng)用技術(shù)(以下簡(jiǎn)稱VAP技術(shù))反映了對(duì)語音信號(hào)進(jìn)行處理的能力,其發(fā)展的程度,將影響計(jì)算機(jī)通過語音與人類進(jìn)行交互的能力,并將影響計(jì)算機(jī)應(yīng)用的領(lǐng)域。
下面將就VAP技術(shù)與CTI技術(shù)的結(jié)合進(jìn)行有關(guān)的介紹。
四大變化
我們知道,目前世界范圍內(nèi)最大的通信網(wǎng)絡(luò)仍然是電話網(wǎng)絡(luò)。不管將來數(shù)據(jù)網(wǎng)絡(luò)技術(shù)如何發(fā)展,人與人之間最方便的交流方式還是語音交流。畢竟對(duì)于很多人來說,熟練地操作鍵盤并不是容易的事情。
對(duì)于CTI技術(shù)也是一樣。CTI技術(shù)的優(yōu)勢(shì),在于將傳統(tǒng)的電話語音網(wǎng)絡(luò)發(fā)展成為用戶獲得各種信息的接入手段,而通過VAP技術(shù)可以極大地加強(qiáng)這種接入手段的能力。例如,通過VAP技術(shù),用戶可以在旅行的過程中,通過電話“聽”取自己電子郵件的內(nèi)容,并通過語音留言回復(fù)有關(guān)的郵件,而不必?cái)y帶笨重的計(jì)算機(jī)。
CTI技術(shù)的核心是有個(gè)龐大的信息庫,通過CTI技術(shù)完成與用戶的交互功能。而采用了VAP技術(shù)后,用戶就可以通過語音,直接對(duì)這個(gè)信息庫進(jìn)行24小時(shí)的訪問,并十分容易地獲得各種個(gè)性化服務(wù),這無疑將會(huì)對(duì)CTI技術(shù)產(chǎn)生革命性的影響。
1.接入手段的提升
通過VAP技術(shù),我們可以直接用語音進(jìn)行有關(guān)的交互工作。其優(yōu)勢(shì)表現(xiàn)在如下幾個(gè)方面。
第一,效率提高了。例如,目前在聽完了大段的語音提示選單后,我們還要不斷地停下來,按動(dòng)電話上有限的數(shù)字按鍵,進(jìn)行相應(yīng)的選擇,然后繼續(xù)聽下一段的語音提示。
在使用了VAP技術(shù)后,我們可以像與服務(wù)員一樣,采用語音的方式,連續(xù)地聽語音選單,并直接通過語音“說”出相關(guān)的選擇,避免了連續(xù)按鍵的過程。
第二,交互的界面更加豐富了。我們知道,傳統(tǒng)的電話僅能通過DTMF信號(hào),傳送有限的幾個(gè)數(shù)字及符號(hào)按鍵,這使得與用戶的交互界面常常受到限制,而VAP技術(shù)則采用了語音識(shí)別的方式,其交互的界面幾乎不受限制,極大地?cái)U(kuò)展了交互的能力。
第三,信息終端的小型化。在目前,信息終端普遍是計(jì)算機(jī),體積大而不便攜帶。采用VAP技術(shù)以后,電話將成為有效的信息終端。用戶在馬路邊的公共電話亭,就可以方便地獲得信息,將產(chǎn)生出許多嶄新的應(yīng)用。
2.開辟語音服務(wù)的廣闊市場(chǎng)
將VAP技術(shù)與CTI技術(shù)相結(jié)合,將產(chǎn)生許多新的業(yè)務(wù)應(yīng)用。這些應(yīng)用不僅可以強(qiáng)化CTI傳統(tǒng)的一些應(yīng)用,如語音自動(dòng)應(yīng)答業(yè)務(wù)等,而且能夠發(fā)展出許多嶄新的業(yè)務(wù)應(yīng)用,既豐富了為用戶服務(wù)的形式,也給運(yùn)營(yíng)商帶來巨大的利潤(rùn)。具體的例子詳見本文下面的應(yīng)用舉例。
3.與移動(dòng)通信技術(shù)的結(jié)合,促進(jìn)個(gè)人化信息終端的發(fā)展
目前的移動(dòng)通信技術(shù),可以使用戶在語音通信方面具有移動(dòng)性。與VAP技術(shù)結(jié)合后,用戶可以方便地在移動(dòng)中,通過語音獲得各種信息。
這可以在某種程度上,分擔(dān)WAP技術(shù)中顯示屏幕過小所帶來的信息訪問的不便。例如,可以通過WAP進(jìn)行有關(guān)文字方面的檢索,然后將大段的信息通過語音拼讀以語音的形式通知用戶。
4.促進(jìn)自動(dòng)信息服務(wù)的發(fā)展
在傳統(tǒng)的IVR系統(tǒng)中,只能事先錄好各種提示音,既占用了大量的存儲(chǔ)資源,又很難靈活應(yīng)對(duì)用戶的交互需求。采用VAP技術(shù)以后,事先可以不用錄制提示音,信息仍以數(shù)字化方式存在,通過語音合成技術(shù)將信息“讀”給用戶聽。這樣,IVR還可以擔(dān)負(fù)有關(guān)的信息檢索的功能。例如,通過有關(guān)的搜索引擎,可以直接在互聯(lián)網(wǎng)上檢索信息,并將結(jié)果“讀”給用戶。
由于這種技術(shù)是24小時(shí)不間斷的,而且服務(wù)的內(nèi)容完全可以依據(jù)海量的信息庫自動(dòng)進(jìn)行,因此將完全改變現(xiàn)有IVR系統(tǒng)的形式和內(nèi)容。
四大新應(yīng)用
下面列舉一些VAP技術(shù)與CTI技術(shù)結(jié)合后的應(yīng)用例子。
1. 電子郵件語音識(shí)別
采用VAP技術(shù)后,用戶可以直接通過撥打一個(gè)電話,而“聽”自己的新郵件內(nèi)容,并通過電話直接進(jìn)行語音回復(fù)。在撥通號(hào)碼的時(shí)候,系統(tǒng)首先進(jìn)行有關(guān)的用戶身份鑒別,然后檢查郵箱。如果有新的電子郵件到達(dá),將通過語音合成技術(shù),將郵件的題目和發(fā)信人直接“讀”給用戶聽,然后通過語音識(shí)別技術(shù)判斷用戶的選擇,如果用戶想知道郵件的內(nèi)容,則繼續(xù)通過語音合成技術(shù),將郵件的內(nèi)容讀給用戶聽。當(dāng)用戶需要進(jìn)行立刻回復(fù)時(shí),系統(tǒng)將自動(dòng)錄取用戶的回復(fù)內(nèi)容,并將該錄音文件通過電子郵件系統(tǒng)回復(fù)給發(fā)信人。
如果用戶想發(fā)新的郵件,可以通過語音識(shí)別技術(shù),告訴系統(tǒng)收信人地址,然后將該郵件直接發(fā)給收信人。如果“語音”郵件不方便閱讀,則可以通過語音識(shí)別技術(shù)將用戶的語音信息轉(zhuǎn)成文字信息,然后傳給有關(guān)的閱信人。
2. 虛擬主持人
通過語音合成技術(shù),目前已經(jīng)出現(xiàn)了虛擬主持人主持的新聞節(jié)目。用戶在互聯(lián)網(wǎng)上有關(guān)站點(diǎn)檢索到自己感興趣的內(nèi)容后,屏幕上將顯示一個(gè)虛擬的主持人形象(一般是通過動(dòng)畫技術(shù)來顯示),這位主持人將根據(jù)信息的內(nèi)容,自動(dòng)地通過語音合成技術(shù)將這些信息播放給用戶,同時(shí)嘴唇做相應(yīng)的動(dòng)作,就像新聞播音員直接進(jìn)行報(bào)道一樣。這種虛擬主持人技術(shù),可以提供24小時(shí)的全天候報(bào)道,報(bào)道的內(nèi)容根據(jù)用戶選擇的內(nèi)容決定。
這種虛擬的主持人技術(shù),可以應(yīng)用到新聞、娛樂等不同的領(lǐng)域,如果與電視應(yīng)用結(jié)合,還會(huì)產(chǎn)生出更多的應(yīng)用內(nèi)容。
3. 聲紋密碼識(shí)別
目前,我們的身份識(shí)別可以采用指紋、照片等方式進(jìn)行。另一方面,每個(gè)人的聲音也包含了其自身的特點(diǎn),如果將其作為身份鑒別的一種依據(jù),就要考慮聲紋密碼識(shí)別技術(shù)。
能夠通過聲紋識(shí)別技術(shù),可以完全確定一個(gè)人的身份,就可以極大地加強(qiáng)在語音方面的應(yīng)用領(lǐng)域。例如,在現(xiàn)有的電話系統(tǒng)中,如果沒有專用的端加密設(shè)備,通過DTMF信號(hào)輸入身份密碼,很容易就可能被別人竊取。而如果是通過聲紋鑒別技術(shù),可十分安全地保證系統(tǒng)的可靠性,同時(shí)別人無法模仿,即使竊取了也沒有用處。這樣,將來就可以很容易地進(jìn)行有關(guān)的電話銀行業(yè)務(wù)的處理。通過電話,用戶就可以進(jìn)行各種銀行業(yè)務(wù),遠(yuǎn)遠(yuǎn)超出今天電話銀行所能夠提供的業(yè)務(wù)內(nèi)容。
另一方面,在CTI應(yīng)用中,傳統(tǒng)的“Screen Pop”功能,僅能夠通過用戶的主叫號(hào)碼進(jìn)行用戶身份的自動(dòng)識(shí)別,而電話號(hào)碼并不能唯一地確定用戶的身份。通過聲紋識(shí)別技術(shù),可以唯一地確定用戶的身份,因此能更加快捷地為用戶提供“個(gè)性化”服務(wù)。
同時(shí),在電話訂購商品方面,也將有極大的推動(dòng)作用。廠家可以根據(jù)有關(guān)的聲紋識(shí)別技術(shù),判斷這些信息的可信度如何,并據(jù)此決定是否送貨等,由此可以大大地提高電話訂購商品的效率,推動(dòng)“電話商務(wù)”的發(fā)展。
4. 語音瀏覽互聯(lián)網(wǎng)
目前,互聯(lián)網(wǎng)是世界上最大的信息庫,而通過計(jì)算機(jī)進(jìn)行信息檢索,對(duì)移動(dòng)用戶等十分地不便。如果通過電話網(wǎng)絡(luò),就可以在互聯(lián)網(wǎng)上進(jìn)行信息檢索,無疑具有十分誘人的前景。通過語音合成技術(shù),可以將檢索到的信息以簡(jiǎn)單的形式播放給用戶聽,然后用戶可選擇是否聽詳細(xì)的內(nèi)容。
以上僅列舉了一些應(yīng)用的內(nèi)容。因?yàn)镃TI技術(shù)代表的是與電話網(wǎng)絡(luò)的接口,而VAP技術(shù)則代表了通過語音技術(shù)進(jìn)行信息處理的能力。因此,兩者的結(jié)合,能夠產(chǎn)生出更多的、目前無法預(yù)料的業(yè)務(wù)應(yīng)用。
影響力還會(huì)更深
目前的VAP技術(shù),還存在許多的技術(shù)難點(diǎn)。英語方面研究較多,也比較成熟,有些方面已經(jīng)可以進(jìn)行商用。但在漢語方面,還有很多的工作要做。另一方面,由于VAP技術(shù)還比較新,因此在CTI產(chǎn)業(yè)中還沒有形成影響力,缺乏一支相應(yīng)的產(chǎn)業(yè)化隊(duì)伍進(jìn)行推動(dòng)。
為此,應(yīng)加大在兩者相互結(jié)合方面的研究工作。同時(shí),結(jié)合一些已經(jīng)可以商用的VAP技術(shù),尋找可以商用的應(yīng)用業(yè)務(wù),為用戶帶來真正的實(shí)惠。
在VAP技術(shù)與CTI技術(shù)結(jié)合方面,還要做大量的宣傳工作,吸引兩方面企業(yè)聯(lián)合,共同開拓有關(guān)的市場(chǎng)。