什么是基于Web的語音平臺?
簡而言之,它就是互聯(lián)網(wǎng)絡(luò)的一個語音接口。用戶可以通過固定電話或者移動電話通過語音交互的方式訪問互聯(lián)網(wǎng)。我們可以通過下面的圖來看看Web語音平臺的位置:
上圖中的Speech Server就是微軟的Web語音平臺,可以看到它連接起了電話網(wǎng)絡(luò)(PSTN)以及Web Server。
為什么要使用基于Web的語音平臺
滿足客戶端復(fù)雜性的要求 現(xiàn)在的互聯(lián)網(wǎng)絡(luò)接入設(shè)備不再像5、6年以前只有PC,智能手機、Pocket PC、Tablet PC以及其他各種智能終端都是訪問互聯(lián)網(wǎng)的客戶端,而這些設(shè)備受使用場所、自身尺寸等方面的限制,不可能像PC那樣使用傳統(tǒng)的鼠標、鍵盤和相對較大的顯示界面進行交互。在這個時候,語音交互就可以大顯身手了。
整合的要求 很多企業(yè)都有自己的語音平臺和Web平臺。在很多企業(yè)中,它們是獨立的系統(tǒng)。通過基于Web的語音平臺,可以將兩者有機地結(jié)合在一起。例如微軟的Speech Server 2004就支持與Intel 以及 Intervoice語音平臺的集成。
Speech Server 2004:語音先行者
在語音應(yīng)用方面微軟是一個先行者,在語音應(yīng)用還沒有被人們所認識的時候微軟已經(jīng)推出了自己的桌面語音產(chǎn)品(大家應(yīng)該都知道金山詞霸中的單詞發(fā)音,它使用的就是微軟TTS引擎)。而Speech Server 2004是微軟今年新推出的基于Web的語音服務(wù)器端產(chǎn)品,它主要分為兩個部分:SES(Speech Engine Services)和TAS(Telephony Application Services)。其中SES是語音引擎服務(wù),包括SAPI、語音輸入以及語音識別,支持話音、PPC以及桌面語音;TAS是電話應(yīng)用服務(wù),集成了SALT以及媒體與語音管理,是第三方話音界面與Speech Server的接口。
Speech Server 2004相比其他的語音系統(tǒng)有以下的主要特點:
開發(fā)語音應(yīng)用曾經(jīng)是一個開銷很大的工程,它需要對電話語音底層有深入的了解。而Speech Server是建立在 .NET平臺基礎(chǔ)之上,提供了基于.NET的SDK,通過Speech Server SDK中集成的眾多組件以及輔助工具,開發(fā)人員可以像開發(fā)普通ASP.NET Application一樣來開發(fā)、測試、部署語音應(yīng)用程序。
它支持通過PBX進入的語音以及從ACD/CTI進入的數(shù)據(jù)。
微軟在Speech Server中集成了數(shù)據(jù)分析工具,Call Viewer以及Speech Application Reports。Call Viewer可以讓開發(fā)人員和系統(tǒng)管理人員直觀地查看電話撥入情況,而Speech Application Reports是一個基于Microsoft Reporting Services的報表工具?梢酝ㄟ^這個工具生成詳細的報表。
應(yīng)用前景
想象一下,當你開車進入一個陌生的城市尋找餐廳時,只要對著車載話筒說出你想要吃的口味,你的車載導(dǎo)航系統(tǒng)中就會自動列出符合你口味的餐廳并顯示出路線圖。你可以選擇餐廳、收聽餐廳介紹、查看餐廳用餐情況并可直接與餐廳員工通話訂座位。再想象一下如果你需要在明天下午3點組織一個重要會議,只需在企業(yè)內(nèi)部網(wǎng)中登記會議以及參與會議的公司人員,那么在開會之前,所有的參會人員都能夠接到通知開會的電話。
由于語音技術(shù)的改進(包括發(fā)音引擎、語音識別),語音應(yīng)用開發(fā)標準的制定,相關(guān)市場的成熟,加上用戶對通過智能設(shè)備訪問互聯(lián)網(wǎng)/內(nèi)部網(wǎng)的需求越來越多,基于Web的語音平臺必定有廣闊的發(fā)展空間。