■ 您的公司需要語音技術(shù)嗎?
算法的改進(jìn)和新應(yīng)用的出現(xiàn)(例如語音門戶和Web 消息等),使得語音技術(shù)成為市場主流。語音門戶可以使得用戶通過電話線使用語音命令訪問基于Internet的信息,而Web
消息是統(tǒng)一消息新孕育出的業(yè)務(wù),可以使用傳統(tǒng)的電話技術(shù)接入網(wǎng)絡(luò),像語音mail,email和傳真等等。加上新出現(xiàn)的自動(dòng)語音應(yīng)答為企業(yè)提供整合了WEB的接口,您會(huì)發(fā)現(xiàn)所有的相關(guān)技術(shù)和市場都在快速增長。簡而言之,語音技術(shù)的巨大潛力已經(jīng)使其成為個(gè)人電腦、電話以及其他電子設(shè)備的下一個(gè)關(guān)鍵的接口。
■ 發(fā)展的機(jī)遇在哪里?
語音門戶對(duì)使用語音技術(shù)的應(yīng)用開發(fā)商而言是巨大的發(fā)展機(jī)遇。Frost & Sullivan*預(yù)計(jì)在以后的6年里,語音門戶的市場將會(huì)保持
54%增長率**,公共網(wǎng)絡(luò)提供商、本地交換運(yùn)營商(LECs) 、競爭性的本地交換運(yùn)營商(CLECs)、Internet
服務(wù)提供商(ISPs)都正在尋找該領(lǐng)域的閃光點(diǎn),期望從中能找出能夠帶來豐厚回報(bào)的增值服務(wù)。
企業(yè)級(jí)的統(tǒng)一消息應(yīng)用可以利用包括語音,email和傳真消息等交互消息平臺(tái)獲取利潤, Web消息在功能上是其自然的發(fā)展,。網(wǎng)絡(luò)公司則可引入語音技術(shù)來訪問它的Web服務(wù)器和分布式數(shù)據(jù)庫,以得到更高程度上的業(yè)務(wù)集成。這種向語音技術(shù)的發(fā)展將會(huì)有更大的市場需求,移動(dòng)電話用戶會(huì)更喜歡語音撥號(hào)取代手動(dòng)撥號(hào),蜂窩電話尺寸的減少使得這種語音技術(shù)的優(yōu)越性將會(huì)更加明顯。
■ 持續(xù)語音處理- 使得消息更加宏亮和清晰
增強(qiáng)語音技術(shù)平臺(tái)的結(jié)果是持續(xù)語音處理(CSP),Dialogic? Dialogic?板卡和CSP技術(shù)將會(huì)開發(fā)基于語音的應(yīng)用,這種應(yīng)用通過整合新技術(shù)和提供高質(zhì)量的語音命令的傳輸,達(dá)到最好的精確度和最好的性能。
CSP 給開發(fā)商帶來5個(gè)方面的好處:
- 節(jié)省成本 - 系統(tǒng)平臺(tái)的成本更低
- 性能好 - 減少系統(tǒng)延遲提高響應(yīng)時(shí)間
- 準(zhǔn)確性高 - 更高的識(shí)別準(zhǔn)確度
- 適用范圍廣 - 適用從小型到大型的的各種系統(tǒng)
- 密度高 - 每一個(gè)板卡上具有經(jīng)濟(jì)合算的端口密度
我們將在后面談及這些好處,下面分析一下CSP的關(guān)鍵支撐技術(shù)
■ 解開神秘的面紗
CSP構(gòu)建在輔助有新算法的增強(qiáng)型語音技術(shù)之上,它的一個(gè)關(guān)鍵組件是話音插入(barge-in),即允許用戶說話來打斷提示語,同時(shí)中斷期間語音識(shí)別器依然可以識(shí)別話音。在大多數(shù)電話的應(yīng)用環(huán)境中,到達(dá)的信號(hào)是用戶話音、從提示語過來的回聲和線路噪聲的混合體?紤]到包括各種類型和質(zhì)量的線路的變化,同時(shí)考慮到說話者的聲音,開發(fā)出話音插入技術(shù)意味著將面臨艱巨的技術(shù)挑戰(zhàn)。為了能使其工作,系統(tǒng)必須為真實(shí)電話環(huán)境的回聲特征建模,并從接收信號(hào)中減去提示語回聲。利用CSP技術(shù),這種極其消耗CPU資源的功能將不再使用系統(tǒng)主機(jī)的CPU,而轉(zhuǎn)向使用語音板卡上的DSP來進(jìn)行高效地語音檢測(cè)。針對(duì)基于主機(jī)的語音資源處理,CSP技術(shù)可優(yōu)化其性能,例如駐留在主機(jī)上的大詞匯量的自動(dòng)語音識(shí)別(ASR)引擎
。CSP可以實(shí)現(xiàn)語音數(shù)據(jù)在電話板卡和主機(jī)處理器之間的流式預(yù)處理。
CSP功能具有幾個(gè)關(guān)鍵特征,這些關(guān)鍵特征對(duì)于應(yīng)用和擴(kuò)大市場份額至關(guān)重要。
- 回聲消除 (EC) - 在語音識(shí)別、Internet電話、DTMF/音頻檢測(cè)技術(shù)中使用,用來在到達(dá)信號(hào)中消除提示語的影響。
- 全雙工操作 - 該應(yīng)用使每個(gè)電話端口都能夠同時(shí)發(fā)送和接收話音數(shù)據(jù)
- 語音激活檢測(cè)器 (VAD) - 檢測(cè)線路上是否有語音能量信號(hào)
- 話音插入 - 在給定話路上進(jìn)行語音檢測(cè)時(shí),CSP可以通過編程自動(dòng)中止話路上的提示語,通過快速中止提示語和識(shí)別呼叫者的輸入,可以改善識(shí)別精度。沒有提示語的快速停止,呼叫者的說話可能會(huì)斷斷續(xù)續(xù)或者不清晰,降低識(shí)別性能。
- 語音驅(qū)動(dòng)信令 - 當(dāng)檢測(cè)到語音信號(hào)時(shí),不需要停止提示語播放,CSP通過編程發(fā)送信號(hào)給處理器,允許ASR引擎中止提示語已達(dá)到更好的質(zhì)量。
- 預(yù)話音緩沖器- 到達(dá)的話音數(shù)據(jù)存儲(chǔ)在一個(gè)250ms的緩沖器中,當(dāng)檢測(cè)到語音信號(hào)時(shí),緩沖器中的話音會(huì)被轉(zhuǎn)發(fā)給ASR資源進(jìn)行處理,這種預(yù)語音包含高精度識(shí)別所需的關(guān)鍵信息。
- 統(tǒng)一的應(yīng)用編程接口 (API) - 為保留系統(tǒng)的靈活性,應(yīng)用編程接口必須一致,而且與底層的硬件無關(guān)
■ CSP 優(yōu)點(diǎn)
如果我們對(duì)具有CSP的系統(tǒng)和沒有CSP的系統(tǒng)的呼叫流程做一個(gè)比較,CSP的優(yōu)點(diǎn)就會(huì)很清楚。沒有CSP的系統(tǒng),主機(jī)不斷地從DSP接收數(shù)據(jù),包括所有的端口,這對(duì)CPU和主機(jī)的壓力很大,會(huì)降低系統(tǒng)性能。當(dāng)DSP不斷地將語音包發(fā)給CPU時(shí),這些輸入數(shù)據(jù)將占用CPU的90-100%的處理能力。而且,DSP沒有對(duì)無用的數(shù)據(jù)(例如:非語音信息)進(jìn)行過濾,而直接送給CPU進(jìn)行處理,這將進(jìn)一步降低系統(tǒng)性能。結(jié)果,必須安裝高性能的平臺(tái)以補(bǔ)償對(duì)CPU和主機(jī)負(fù)荷的增加。
當(dāng)呼叫者在基于CSP的語音平臺(tái)上交互操作時(shí),將會(huì)有提示語播放,呼叫者可以在提示語播放期間隨時(shí)說話來發(fā)出命令。這種方式通過使用語音菜單來加速引導(dǎo)過程,使用戶功能輕而易舉的找到目標(biāo)。同樣系統(tǒng)可以高效地進(jìn)行后臺(tái)處理,平臺(tái)只在語音輸入時(shí)才要求主機(jī)系統(tǒng)進(jìn)行處理,通常只需要其它應(yīng)用程序的10-15%的處理時(shí)間。通過使用DSP上的VAD,只有當(dāng)由語音輸入時(shí)才提交流數(shù)據(jù),CSP可以大大節(jié)省CPU的處理時(shí)間。使用CSP時(shí),板上DSP的語音檢測(cè)模塊就可以完成這種工作。
◎ 預(yù)話音緩沖器的解釋
使用預(yù)語音緩沖器和VAD的話音插入組件后,可以將主機(jī)從繁重的持續(xù)語音處理的任務(wù)中釋放出來,并減少系統(tǒng)的復(fù)雜度。只有當(dāng)有事件發(fā)生時(shí)系統(tǒng)才會(huì)工作,例如語音檢測(cè)。這樣做有很多好處,負(fù)載減輕后可以將系統(tǒng)擴(kuò)展到上百個(gè)端口,因?yàn)橹鳈C(jī)CPU不再需要處理一些無用的數(shù)據(jù)。此外,預(yù)語音緩沖器使應(yīng)用開發(fā)商可以提高系統(tǒng)的可靠性和準(zhǔn)確性。
使用話音插入組件的語音系統(tǒng)將經(jīng)過回聲消除處理的數(shù)據(jù)裝在很小的數(shù)據(jù)包中(小于100 MS),從語音卡傳送到主機(jī)的ASR引擎。這樣意味著檢測(cè)和識(shí)別呼叫者的話音數(shù)據(jù)將會(huì)花費(fèi)很少的時(shí)間,進(jìn)而轉(zhuǎn)換為更高的精度。呼叫者會(huì)發(fā)現(xiàn)系統(tǒng)更友好,因?yàn)橹灰徽f話,提示語就會(huì)停止。
選擇已經(jīng)十分清楚了,具有預(yù)語音緩沖器的語音檢測(cè)系統(tǒng)裝配在板卡上,而不是主機(jī)上,這是建立一個(gè)可擴(kuò)展的和高密度的現(xiàn)代系統(tǒng)的所不可缺少的。
■ 利潤再現(xiàn)
Internet的成功和電子商務(wù)的持續(xù)發(fā)展為語音技術(shù)提供了巨大的商機(jī),同樣也會(huì)刺激像CSP這樣的語音平臺(tái)的需求。除了構(gòu)架的概念以外,應(yīng)用開發(fā)商可以使用CSP的關(guān)鍵優(yōu)點(diǎn)開發(fā)出新功能并投放市場。
◎ 準(zhǔn)確性
利用話音插入組件、預(yù)語音緩沖器和回聲消除技術(shù),能夠提高CSP的準(zhǔn)確性, 可以滿足用戶的需要,特別是對(duì)那些由于使用了語音技術(shù)而遭受挫折的用戶。背景噪聲、靜電噪聲、線路質(zhì)量差等影響可以通過配置噪聲門限得以減小或者消除,假如開發(fā)商打算介入各種市場應(yīng)用,那么這種平臺(tái)可以應(yīng)用在各種電話環(huán)境中。
◎ 密度/可擴(kuò)展性
CSP 每個(gè)卡可以提供4-120個(gè)話路的端口密度,因?yàn)檎Z音識(shí)別的關(guān)鍵組件可以由板上的功能完成,將主CPU從連續(xù)的流數(shù)據(jù)中解放出來。如果在在一個(gè)機(jī)箱中安裝多個(gè)高密度板卡組件,語音平臺(tái)可以很容易地?cái)U(kuò)展到每系統(tǒng)上百個(gè)端口。
◎ 節(jié)約成本
通過在實(shí)施和運(yùn)行維護(hù)方面降低成本,CSP可以節(jié)省開支。因?yàn)檎Z音門戶和Web消息常常是布署在一個(gè)共享的主機(jī)站點(diǎn),空間方面的考慮是十分重要的。高密度的系統(tǒng)可以將系統(tǒng)配置在一個(gè)緊湊的計(jì)算機(jī)機(jī)箱中,使得系統(tǒng)占用的空間最小。
此外,板卡級(jí)的組件減少了對(duì)高成本平臺(tái)的需求,只需使用較低價(jià)位的處理器就可以得到相當(dāng)好的性能。像運(yùn)行成本,話音插入組件,預(yù)語音緩沖器和回聲消除之類的高級(jí)特征有助于減少呼叫持續(xù)時(shí)間,從而增加處理呼叫的數(shù)量。
應(yīng)用提供商也可以節(jié)省開支,通常通過一個(gè)免費(fèi)號(hào)碼就能訪問語音應(yīng)用,如果呼叫持續(xù)的時(shí)間變短,電話的費(fèi)用也會(huì)相應(yīng)減少。
最主要的好處是能夠提高的服務(wù)質(zhì)量,獲得一個(gè)新客戶是很非常昂貴的。使用CSP提高精確度和簡化引導(dǎo)方式,您就能留住這個(gè)老顧客,從而可以集中精力和時(shí)間去發(fā)掘更賺錢的服務(wù),并招攬更多新的顧客。
◎ 增強(qiáng)的性能
CSP 提供的高性能是其他平臺(tái)所不能提供的。話音插入組件對(duì)于一個(gè)話音驅(qū)動(dòng)的系統(tǒng)是至關(guān)重要的一個(gè)因素。讓用戶和計(jì)算機(jī)進(jìn)行步調(diào)一致的對(duì)話,用戶將得到很好的體驗(yàn)。沒有話音插入組件,呼叫者就會(huì)變得不耐煩或者感覺被計(jì)算機(jī)控制。話音插入組件的準(zhǔn)確度也很重要,性能低下的系統(tǒng)往往將插入的話音視為背景噪聲或者其他的非語音事件。如果話音插入組件不準(zhǔn)確,呼叫者往往會(huì)等待已經(jīng)被錯(cuò)誤的語音事件所中斷的提示音或選擇。高級(jí)的系統(tǒng)在終止提示語之前會(huì)使用精密的話音檢測(cè)器,以避免提示語不被無意識(shí)的輸入打斷。在沒有硬件輔助的系統(tǒng)中,要完成這種高級(jí)的處理,大量的主機(jī)處理資源將被消耗,這樣將限制系統(tǒng)的規(guī)模和性能。
CSP將使得呼叫者感到輕松。板卡上語音檢測(cè)器和預(yù)語音緩沖器的結(jié)合,允許板卡級(jí)的語音處理組件擋住本應(yīng)流向主機(jī)CPU的數(shù)據(jù)流,只有語音才能夠被檢測(cè)和捕獲,結(jié)果是CPU的負(fù)荷大大減輕,語音事件的捕獲更為精確并能夠直接送到識(shí)別器進(jìn)行處理。最終得到的是更準(zhǔn)確的識(shí)別和客戶的滿意。
■ 您希望全世界都聽到您的聲音嗎?
如果您的業(yè)務(wù)是提供這種前沿的語音處理應(yīng)用,你應(yīng)當(dāng)關(guān)注持續(xù)語音處理(CSP)平臺(tái)。CSP在這個(gè)產(chǎn)業(yè)中可以提供最好的語音應(yīng)用的支持,像語音門戶和Web消息,F(xiàn)在就來利用這種激動(dòng)人心和前景誘人的創(chuàng)新技術(shù)吧!
|