語音門戶——用語言“改變”世界
2001/03/23
從古老的“芝麻開門”傳說開始,人類就一直幻想著用語言去征服和改造自然。伴隨新技術(shù)的不斷發(fā)展,人類的這一夢想正在逐步實(shí)現(xiàn)。誰能預(yù)知中文語音識別技術(shù)究竟能給我們帶來什么樣的應(yīng)用前景?技術(shù)與應(yīng)用又將是怎樣的一種互動關(guān)系呢?
對話者:
主 持 人:王向東 《計(jì)算機(jī)世界》報(bào)記者
IT 廠 商:沈鱇騏 言豐科技有限公司(中國區(qū))總經(jīng)理
用 戶: 黃富清 北京京信北斗信息服務(wù)中心262信息臺總經(jīng)理
對話主題:中文語音識別技術(shù)的應(yīng)用將帶來什么樣的商機(jī)?
主持人:昨天,人類對技術(shù)孜孜不倦的追求,總能不斷帶動應(yīng)用的腳步。今天,語音識別技術(shù)的商業(yè)應(yīng)用正在引起人們的廣泛關(guān)注,因?yàn)樗鼘⒁粤钊穗y以置信的擴(kuò)張力量改變我們的工作和生活。語音識別技術(shù)已發(fā)展到何種階段?它未來的應(yīng)用目標(biāo)是什么?
人機(jī)交互突破瓶頸
主持人:新技術(shù)轉(zhuǎn)化為生產(chǎn)力的核心是應(yīng)用,而同樣的技術(shù)未必能得到同樣的應(yīng)用效果。比如說電腦,中國人使起來就是不如美國人方便,輸入方式是最大的瓶頸。從五筆字型到漢王手寫輸入,再到最近的筆輸入,都是在努力讓中國人實(shí)現(xiàn)同電腦更方便地交流。當(dāng)然,還有一種技術(shù)可以使不同國家的人同電腦保持同樣的距離,這就是語音識別技術(shù)。只有通過這項(xiàng)技術(shù)人們才能同樣享受到電腦科技的無窮魅力。包括IBM、飛利浦等一些知名企業(yè)都在不斷挑戰(zhàn)語音識別技術(shù)這一難題。言豐科技是否也屬于這支隊(duì)伍中的一員?從應(yīng)用的角度去看問題,語音識別技術(shù)要攻克的瓶頸是什么?
沈鱇騏:從技術(shù)的角度來看,目前語音識別技術(shù)有三個研究發(fā)展方向,即電腦、電話和手機(jī)三個不同的應(yīng)用領(lǐng)域。第一個是電腦的語音錄入應(yīng)用,就是電腦能夠把人們所說的話記錄下來,解決文字輸入的問題;第二個是電話的語音識別應(yīng)用,就是借助通信平臺實(shí)現(xiàn)語音技術(shù)的更廣泛應(yīng)用;第三個是手機(jī)的語音識別應(yīng)用,就是嵌入式的語音識別技術(shù),實(shí)現(xiàn)手機(jī)、尋呼機(jī)在移動通信中的語音識別應(yīng)用。我個人認(rèn)為,五到十年以后,上述三個方向?qū)叩揭黄饋怼?
目前,IBM主要是在第一項(xiàng)電腦語音錄入方面取得了重大的突破,而言豐科技所研究的領(lǐng)域主要是在第二項(xiàng),如何通過通信平臺實(shí)現(xiàn)語音識別技術(shù)的廣泛商業(yè)應(yīng)用。這兩者在技術(shù)領(lǐng)域和應(yīng)用領(lǐng)域都有著較大的差別:首先是語音信號的采集方式不同。電腦錄入對語音質(zhì)量的要求比較嚴(yán)格,而電話采集的語音質(zhì)量就比較差;其次是自然語言和非自然語言的區(qū)別,電腦錄入使用的是非自然語言,需要對電腦進(jìn)行特殊的培訓(xùn)才能使用。而電話是自然語言,因?yàn)槟銦o法預(yù)知是誰打來的電話,是男是女、是何種口音;第三個不同在于字庫量,電腦錄入的難度是詞匯量非常巨大,要盡可能包容任何可能出現(xiàn)的詞匯,這也是電腦錄入在技術(shù)上的難題。而基于通信平臺的語音識別應(yīng)用是有一定范圍的,它所涉及的詞匯量是可以控制的。由此可以看出,兩種語音識別技術(shù)將在不同的應(yīng)用方面發(fā)揮不同的作用。
言豐科技研發(fā)的語音識別技術(shù)所要達(dá)到的應(yīng)用目標(biāo)是:通過自然的語言交流,實(shí)現(xiàn)人機(jī)交互式的對話形式,使電腦能理解我們的語言,并按照我們的指示去工作。這一目標(biāo)的實(shí)現(xiàn)將會給人類的工作和生活帶來質(zhì)的變化,同時將產(chǎn)生巨大的商業(yè)價值。因此,今天基于通信平臺的語音識別技術(shù)的商業(yè)應(yīng)用已為眾多的企業(yè)所關(guān)注。那么為什么語音識別技術(shù)應(yīng)用會突然熱起來呢?我認(rèn)為是技術(shù)的發(fā)展在一定階段時打破了應(yīng)用的瓶頸,從而帶來了應(yīng)用的進(jìn)步。因?yàn)檎Z音識別是一項(xiàng)難度很大的技術(shù),里面的算法非常復(fù)雜,對CPU的要求也非常高,過去應(yīng)用的條件不具備。而近兩年CPU發(fā)展很快,而語音識別中的算法也日益精湛,兩者有機(jī)地集成在一起后,應(yīng)用的條件就日趨成熟?梢灶A(yù)見,隨著技術(shù)的快速發(fā)展,再過10~20年的時間,我們將可以做到非常自然的人機(jī)交互式對話。
技術(shù)應(yīng)用互為依存
主持人:技術(shù)和應(yīng)用是一對矛盾,他們互為瓶頸、互為動力,語音識別技術(shù)也應(yīng)體現(xiàn)這一客觀規(guī)律。具體在實(shí)際發(fā)展中,語音識別技術(shù)與應(yīng)用是如何相互作用的?
黃富清:我們在實(shí)踐中對技術(shù)與應(yīng)用的體會還是很深的。因?yàn)槲覀冮_辦的信息臺屬于高科技類的經(jīng)營模式,這決定了它必須采用比較先進(jìn)的網(wǎng)絡(luò)技術(shù)和語音識別技術(shù),才能夠?yàn)橛脩籼峁└哔|(zhì)量的服務(wù)。262信息臺也正是通過積極采用新技術(shù)提供新服務(wù),從而獲得了可觀的經(jīng)濟(jì)效益。比如說,信息臺的起步就是建立在20世紀(jì)90年代應(yīng)用先進(jìn)的語音卡技術(shù)的基礎(chǔ)上,通過這塊語音卡開發(fā)出了多種語音服務(wù)系統(tǒng),從而提供了無人值守電話、股票信息自動查詢系統(tǒng)、電話自動點(diǎn)歌系統(tǒng)等多項(xiàng)服務(wù)。那時候買一塊語音卡要花4萬多元,加上軟件開發(fā)費(fèi)總共需要11萬多元。但是我們幾天就能掙回來,因?yàn)榇螂娫挷樵兊娜颂貏e多。當(dāng)時股票炒得火,電話查詢又非常方便,滿足了廣大股民的實(shí)際需求。
正是新技術(shù)給我們帶來了應(yīng)用的提高和實(shí)際的收益,但同時技術(shù)的瓶頸又成為應(yīng)用進(jìn)一步發(fā)展的攔路石。由于語音技術(shù)幾年沒有進(jìn)一步發(fā)展,信息臺的業(yè)務(wù)也因技術(shù)的限制而無法跳躍性地向前發(fā)展。舉例而言,用戶今天要通過信息臺查詢股票行情,需要在電話上操作很多鍵,要通過幾層、十幾層甚至幾十層,才能找到自己想要的東西。用戶要想查詢某支股票,首先要選擇按鍵1(上海)和按鍵2(深圳),其次要查詢多少號的股票,第三再查詢1(總指數(shù))、2(收盤價)、3(現(xiàn)在價)等等。
這種查詢方式非常繁鎖,很不方便,用戶多數(shù)是查到第四層就不愿再繼續(xù)往下聽了。有的用戶聽著聽著就糊涂了,或者是聽了半天也沒有找到自己想要的東西。用戶普遍對這種水平的服務(wù)越來越不滿意。現(xiàn)在移動局的手機(jī)短信息服務(wù)也遇到這個問題,用戶發(fā)了半天最后按錯了,就得重來,可是費(fèi)用還要照交,用戶對此非常有意見。
這里面就涉及了技術(shù)與應(yīng)用的關(guān)系問題,用戶進(jìn)入了信息查詢系統(tǒng)就應(yīng)該交費(fèi)了,可是用戶又沒能得到自己真正想要的服務(wù)。這就是因?yàn)榧夹g(shù)不完善,不能滿足今天用戶的需求,如果技術(shù)不能向前發(fā)展,應(yīng)用水平不能進(jìn)一步提高,原有的低水平服務(wù)將逐步被用戶所淘汰。所以,我們對任何能帶來新應(yīng)用的新技術(shù)都非常關(guān)注,只要它能提高我們原有的服務(wù)水平,我們就會積極地應(yīng)用它,F(xiàn)在光靠改善服務(wù)態(tài)度是不能從根本上提高服務(wù)質(zhì)量,只有在技術(shù)上有新的突破。
沈鱇騏:的確如此,技術(shù)與應(yīng)用是密不可分的關(guān)系。言豐科技所推動的基于通信平臺的語音識別技術(shù),已超越了電話按鍵層層查詢的應(yīng)用時代,已可以做到通過電話與電腦交談。比如說我想查今天的股價,電腦已經(jīng)可以根據(jù)你的語音提示,自動找尋并報(bào)出股價給你聽,電腦的語言識別系統(tǒng)已可以理解用戶要查詢的內(nèi)容。這里面包含著一個關(guān)鍵的自動化技術(shù),使電腦可以從數(shù)據(jù)庫里找出你所需要的東西,在一定范圍里,我們已能夠做到人機(jī)交流了。這就為下一步推動商業(yè)應(yīng)用奠定了更堅(jiān)實(shí)的技術(shù)基礎(chǔ)。
我們現(xiàn)有的語音識別系統(tǒng)還有一定的局限性,還不能自然到像人與人交談一樣。比如說“幫我看一下北京今天的航班情況”,這句話本是很自然的語言,但要從語音識別的角度來看,我們要做出很多改進(jìn),從硬件到軟件。我們認(rèn)為還需要十年、二十年才能真正達(dá)到人與電腦用自然的語言交談。那么為什么我們今天就把現(xiàn)有語音識別技術(shù)拿出來用呢?是因?yàn)槲覀円芽吹皆诤芏鄳?yīng)用領(lǐng)域,在一定的可控制范圍之內(nèi),現(xiàn)有的語音識別技術(shù)已足夠推動應(yīng)用水平向前邁進(jìn)一步,它會給用戶帶來效益上的提高。
從目前我們的理解,從語音識別技術(shù)應(yīng)用角度來說,這項(xiàng)技術(shù)還遠(yuǎn)未達(dá)到應(yīng)用的熱潮。我們認(rèn)為真正的熱潮還要一年到兩年時間,一來是需要培育市場,接受新觀念;二來是改善應(yīng)用環(huán)境,包括技術(shù)環(huán)境、市場環(huán)境,無論是電腦平臺還是通信平臺,都有一個逐步淘汰和更新的過程。此外,還有一個語音特征數(shù)據(jù)庫的積累,這個積累過程沒有任何捷徑可走,只有從大量的語音量中提取相同的語音特征,才能真正產(chǎn)生成熟的應(yīng)用。
語音門戶商機(jī)無限
主持人:語音識別技術(shù)在不斷進(jìn)步,這項(xiàng)技術(shù)所帶來的商業(yè)應(yīng)用也將日益廣泛。那么,經(jīng)過未來10年或20年發(fā)展,技術(shù)與應(yīng)用的成熟將會產(chǎn)生什么樣的結(jié)果?語音識別技術(shù)近期可以實(shí)現(xiàn)的應(yīng)用目標(biāo)是什么?
黃富清:作為用戶,我深深地感受到技術(shù)向前發(fā)展一步,就會促進(jìn)生產(chǎn)力向前發(fā)展,而且它的經(jīng)濟(jì)效益可能是成幾十倍往上增長。同樣,我們?nèi)绻捎昧艘粋好的新技術(shù),下個月的收入會成倍往上增長。從現(xiàn)實(shí)情況來看,從語音卡到軟件開發(fā)有局限性,一層一層往下分,如果信息量大了,內(nèi)容太多了,服務(wù)就沒法做了。從我的經(jīng)驗(yàn)看,如果技術(shù)應(yīng)用穩(wěn)定在一個水平上,客戶卻不是穩(wěn)定在同一水平上,而是在下降。因?yàn)槟憧倹]有新東西,客戶就會不滿意了,就可能轉(zhuǎn)向一個更新更好的應(yīng)用平臺。
所以,我們?nèi)ツ?月發(fā)現(xiàn)言豐科技的語音識別技術(shù)之后,覺得非常了不起。應(yīng)用言豐的技術(shù)之后,我們就可以打破很多原有的限制,用戶可以比原來更方便地進(jìn)行人機(jī)交流,比原來按鍵方式方便、快捷多了;用戶滿意多了,愛用的人多了,我們的企業(yè)效益也隨之提高了。
沈鱇騏:我個人認(rèn)為,語音識別技術(shù)的發(fā)展是一個環(huán)環(huán)相扣的關(guān)系,由于語音識別技術(shù)所借助的很多基礎(chǔ)性技術(shù)也在不斷發(fā)展、變化,使得語音技術(shù)所要攻克的目標(biāo)也在不斷發(fā)展變化。所以我們把語音識別技術(shù)定位在應(yīng)用技術(shù),底層的技術(shù)平臺搭得越高,應(yīng)用層次的技術(shù)就開始發(fā)生變化。從用戶的角度來看,你可以通過運(yùn)用語音技術(shù)去進(jìn)行企業(yè)的改造或企業(yè)的服務(wù),然后再把更好的服務(wù)提供給更廣泛的終端用戶。
如何把電話語音系統(tǒng)跟Internet和商務(wù)結(jié)合起來?電話在全球有1.7億部,應(yīng)用基礎(chǔ)非常廣泛,為此,我們在中國推出了語音門戶平臺新理念,分為電信級的語音門戶平臺和企業(yè)級的語音門戶平臺。目的是通過它為個人、企業(yè)和電信行業(yè)提供更好的語音識別技術(shù)服務(wù)?梢韵胂褚幌,當(dāng)某一天您開車上班時,可以用語音控制開關(guān)車門、車?yán)锏囊繇、手機(jī);到辦公室后也是用語音指揮收發(fā)電子郵件、收發(fā)傳真、查詢電話錄音、制定工作計(jì)劃、篩選有效信息,以及用語音預(yù)訂機(jī)票、午餐、查詢交易股票等等?傊,通過開發(fā)與推動多語種交談式語音識別技術(shù)在最普及的電話及無線電話中的應(yīng)用,可以使有用、準(zhǔn)確、及時的信息在任何時間、任何地點(diǎn)提供給需要它的任何客戶。那時,語音識別技術(shù)將真正幫助人類用語言打開改變世界之門。
語音門戶的革命 2001-03-23 |
語音網(wǎng)站不是信息臺 2001-02-16 |
網(wǎng)絡(luò)與電話技術(shù)的完美結(jié)合 -- VoiceXml 2001-02-07 |
語音,無所不在 2001-01-18 |
語音識別技術(shù)面臨的問題 2000-12-19 |