首頁>>>技術(shù)>>>語音應用>>>語音合成(TTS)  語音合成產(chǎn)品

2005年語音技術(shù)產(chǎn)業(yè)發(fā)展展望

奧運之聲專欄作家: 古源 2004/11/19

語音技術(shù),引無數(shù)英雄競折腰

  語音是人類最本能、最方便的信息交流方式,它是后來文字語言的基礎(chǔ)。

  語音在人類進化中有著獨特的作用,它的作用并不亞于直立行走和工具的使用。語音語言的使用,使人類在進化中獲得了其他動物所無法比擬的優(yōu)勢,講話使人的聲帶及其周圍小肌肉群得到空前的發(fā)展,聽力促進了神經(jīng)系統(tǒng)的進化,從語言學角度看,人類的文明史就是一部語言與知識相互促進作用、共同發(fā)展的歷史。

  俗話說逢聾必啞。語言能力的培養(yǎng)與發(fā)展,始于人的聽覺系統(tǒng)所受到的刺激。如果人長期不能受到聽力的刺激,發(fā)音系統(tǒng)就會逐漸喪失,人要在依靠聽力吸收信息的同時,不斷地校正自己發(fā)音能力。現(xiàn)在計算機也到了聾啞并治的時候,聽取信息和講出信息將成為一個有機整體。

  讓機器能聽會說,是人類由來已久的理想,這個理想甚至比個人電腦的歷史還要久遠。在世界上第一臺計算機的誕生之日,人們就提出了要讓計算機聽懂人的話并且能夠說話。后來計算機以每一兩年一代產(chǎn)品的速度向前發(fā)展,同時世界軟件業(yè)對于語音合成、語音識別的研究從來沒有停止過。

  但是,語音技術(shù)又與其他技術(shù)不同,譬如與能源(電的使用)、通信(電話的使用)、交通(汽車、飛機的使用)不同,人類對它充滿了期待,又同時滿懷耐心。因為它的確非常的困難。讓機器聽懂人說話曾經(jīng)被一位知名的美國教授稱之為是"比登月還難"的科學難題。

  不管哪家公司公布了所謂達到如何如何分辨率的語音識別產(chǎn)品,人們都會以合理的懷疑態(tài)度來聽取它;當這個產(chǎn)品在實際的應用中,出現(xiàn)這樣、那樣的紕漏時,人們又以在其它地方很少見到的耐心和寬容來諒解它。

  因為人的大腦是一個十足的黑匣子,它通過人的五官而印象整個世界,這之間沒有中間環(huán)節(jié),它也沒有操作系統(tǒng)。人類學習語音語言的過程,是一個把聽、說、學習和推理統(tǒng)一起來的過程,也就是說,語言是知識的符號,語言系統(tǒng)實際就是知識系統(tǒng)。人從呱呱落地到上了大學開始了一個長達20多年的學習過程;同時這是一個漫長的學習語言的過程,他要掌握更多、更專門的詞匯及其概念,要學會表述這些概念,從經(jīng)驗上看一個人畢業(yè)后仍需進行語言的學習和實踐,幾年之后才能在他所從事的領(lǐng)域具備正確的表達和寫作能力。

  遺憾的是迄今為止我們一直沒有教會計算機學習,沒有給它一個知識的結(jié)構(gòu),它的操作系統(tǒng)所追求的目標一直都是硬件的效率與穩(wěn)定,界面的友好與方便,除此之外我們根本沒有考慮如何讓電腦學會學習的問題。具體的講一臺電腦也許處理過幾百萬甚至上千萬、上億的文字資料,但是它什么都沒有學,就連最簡單的詞匯搭配規(guī)律也視而不見,更不要說知識的歸納了。不要單怪電腦"笨",現(xiàn)在似乎是該考慮新的操作系統(tǒng)的時候了,人類也許在本世紀內(nèi)能夠解決這個問題,就是說語音識別與語音合成不是表層的模式、詞庫和算法問題,當電腦能夠基本了解語言所表述的邏輯關(guān)系的時候,電腦張嘴給我們提一個意見,會嚇我們一跳。

  人們不會因為故事遙遠而停止努力,合理的懷疑不等于否定,難得的寬容不是無限的耐心。國內(nèi)外不少為了把夢想變?yōu)楝F(xiàn)實的廠商而致力于對夢的專情、專注,在語音合成上取得了顯著成效。在國內(nèi),北京捷通華聲語音技術(shù)有限公司無疑是其中一個最為典型的代表。作為一個在理想和現(xiàn)實中確立積極價值觀的軟件企業(yè),伴隨著語音技術(shù)應用市場的展開,捷通華聲以其務實低調(diào)的企業(yè)作風、精湛的語音合成技術(shù)、出色的市場推廣能力,到目前為止,其語音合成技術(shù)產(chǎn)品在中國市場擁有50%以上的市場占有率。捷通華聲公司在確立了自己在中文語音合成(TTS)領(lǐng)域的國內(nèi)、國際領(lǐng)先地位之后,聯(lián)手國內(nèi)外知名語音企業(yè)大膽進軍語音識別技術(shù)領(lǐng)域,在2004年陸續(xù)不斷地推出以"奧運之聲"為代表的最先進的語音技術(shù)重頭產(chǎn)品。

  面對挑戰(zhàn)性的考驗,以捷通華聲為代表的一些企業(yè)對語音技術(shù)一往情深而"咬定青山不放松"的源動力到底何在?

  捷通華聲公司總經(jīng)理武衛(wèi)東說出了他的看法:其一是語音技術(shù)已經(jīng)成為計算機是否可以實現(xiàn)與社會服務體系無縫銜接的最關(guān)鍵的技術(shù)瓶頸之一,因而被國外眾多媒體和專家評為21世紀前十年將對人類生活方式產(chǎn)生重大影響的十大科技進展之一。其二是廣闊的市場前景及語音技術(shù)對人類生活的重大意義。中國互聯(lián)網(wǎng)絡中心也預測:"未來五年,中文語音技術(shù)領(lǐng)域?qū)?300億元的市場容量。"

  基于對整體市場的認識和深刻理解,捷通華聲公司總經(jīng)理武衛(wèi)東先生從完全實用的角度道明了語音技術(shù)的歷史性意義所在:

首先是語音技術(shù)可以消減政府開支、提高政府服務質(zhì)量

  現(xiàn)在我國政府提倡"以人為本"和"為民從政",我們經(jīng)常聽到哪一個地區(qū)、哪一級政府開了一項什么服務熱線,從房改咨詢熱線,到采暖咨詢熱線。在我們感悟政府為民辦實事的時候,有沒有想到它的成本呢?世界上沒有免費的午餐。

  開一條熱線,花上幾十萬元太普通了,動輒百萬也不足為奇,更重要的是政府的人員編制在一次次"具有積極意義"的為民服務中不知不覺地擴大了。以2002年為例,當年的政府財政收入為15000億,各種數(shù)字化辦公項目開支達到1000多億元。這真是矛盾,我們在享受政府服務的同時,政府的資源在擴大著耗費,納稅人的負擔在無形中增加著。語音技術(shù)就可以解決這個問題,起碼可以大大降低費用。只要線路條件允許,機器問答24小時不知疲倦,不要加班費,也不要提薪提職,而且同時能夠把從記錄中得來的問題分解成為可以進入數(shù)據(jù)庫的記錄,政府工作人員可以方便的處理這些數(shù)據(jù),把更多的精力用在分析問題和解決問題上面。

其次是咨詢服務業(yè)對于語音技術(shù)的期待已久

  曾幾何時,呼叫中心被視為新的IT經(jīng)濟增長點,被視為現(xiàn)代服務的革命。

  但是人們很快就發(fā)現(xiàn)它有嚴重的成本問題,中小企業(yè)對此尤為敏感,他們不少又回到了業(yè)務員代接咨詢電話,誰趕上誰接的傳統(tǒng)方式;一些大的企業(yè)800810客服專線的接通率、應答率也不盡人意,甚至形如虛設。一個呼叫中心,一個或幾個服務器;一個坐席,一部專線,一個或兩個話務員,算下來投資和費用都是不小的一筆。

  呼叫中心的出路在哪里呢?-- 答案是語音技術(shù),語音識別和語音合成,再加上數(shù)據(jù)庫共同組成的解決方案。

  呼叫中心必須迅速地走上機器智能應答和記錄的道路,不然的話,呼叫中心只能變成一個美麗而不實際的神話,24小時的熱線服務,不均勻的問訊量峰谷,日益增高的工資成本,坐席人員的培訓與流失,很快就會使企業(yè)不堪其負。

  機器的語音應答,自動的問訊和需求記錄,將大幅度降低呼叫中心的投資及其運轉(zhuǎn)成本,尤其是它將受到廣大中小企業(yè)的歡迎。

  國際上衡量一個國家的咨詢服務業(yè)發(fā)展程度有一個參考值,即信息咨詢產(chǎn)值與電子產(chǎn)品工業(yè)產(chǎn)值的比率,這個比值在歐美日的平均水平是1:1強,而中國的這個比值是不到9%,香港新加坡的平均水平是中國大陸的4倍左右。美國的著名咨詢企業(yè)安達信南公司曾報告指出,按照中國的市場化發(fā)展速度看,如果正常,到2010中國的信息咨詢業(yè)將達到100億美元,即1000億人民幣左右的規(guī)模。這還不包括各級政府、大中小企業(yè)自建的咨詢服務熱線,所以說,中國互聯(lián)網(wǎng)中心所預計的語音產(chǎn)品及其咨詢業(yè)規(guī)模將在1300億元是可信的。

最后是無限關(guān)聯(lián)的生活需求

  一位坐輪椅的老人對自己的輪椅說"伙計,再往前來一下。"
  一個粗心的家庭主婦對著微波爐說"咳,麥克,解凍2斤肉要幾分鐘呀?"
  一個著急的司機對著愛車喊道"我說,馬駒子,咱們現(xiàn)在在哪啊這是?""現(xiàn)在我們在京良路上,剛進入大興縣。"

  在語音技術(shù)發(fā)展所至的今天,這些都不再是神話了。技術(shù)么,不復雜,但是因為有了語音技術(shù),產(chǎn)品好像前進了一個時代。

  面對前沿科技的魅力,捷通華聲公司以前瞻性的眼光和舉動在業(yè)內(nèi)默默耕耘,業(yè)內(nèi)人士對于他們的評價更多的是用"在推進產(chǎn)業(yè)發(fā)展的同時,捷通華聲同樣享受著收獲的快感"。多年來,捷通華聲致力發(fā)展語音技術(shù)、始終占據(jù)中文語音技術(shù)產(chǎn)業(yè)化發(fā)展制高點。尤其是在北京籌辦2008年奧運會的進程中,無疑為捷通華聲再一次飛躍提供了更好的契機,其呼叫中心和語音合成模塊兩個方面技術(shù)突破更是為行業(yè)樹起了新的希望和夢想!

千呼萬喚,無坐席呼叫中心將成為服務領(lǐng)域生力軍

  捷通華聲作為國內(nèi)外重要的中文語音技術(shù)供應商,積極與國內(nèi)外知名語音技術(shù)廠商建立戰(zhàn)略合作聯(lián)盟,以求全面發(fā)展語音合成、語音識別兩項關(guān)鍵技術(shù)相結(jié)合的整體解決方案,其中與美國SCANSOFT公司、馬來西亞NUSAURA、中科模識、中科信利、法國ELAN等建立了密切的合作伙伴關(guān)系。
2004年10月,捷通華聲向國內(nèi)CTI市場推薦了美國SCANSOFT公司所研制的最新語音識別技術(shù)0SR,此后捷通華聲借助高性能的OSR技術(shù)完成了語音合成、語音識別技術(shù)的完美組合,努力使代表未來發(fā)展趨勢之一的無坐席呼叫中心成為可能。

  所謂無坐席呼叫中心的語音服務應答簡單過程如下:


記錄語音來訪的簡單流程如下:


  這種用語音技術(shù)支撐起來的呼叫中心將創(chuàng)造一種嶄新的工作方式,我們似乎可以暫時稱之為"無坐席呼叫中心"。無坐席呼叫中心是一個24小時不關(guān)閉的信息窗口,不管是政府,還是公司,他們與受眾者之間永遠保持著一條熱線,并且是以一種合理的開支來運行的。在開始籌建階段,某個負責該熱線的辦公室,要把索引詞想得盡量全面、合理,把內(nèi)容輸入進數(shù)據(jù)庫,呼叫中心就完成了內(nèi)容的準備。運轉(zhuǎn)之后,有關(guān)人員一上班,系統(tǒng)已經(jīng)給他整理出了若干小時以內(nèi)的來訪統(tǒng)計及其明細記錄,同時還整理出來訪的留言信息,包括反映的問題、聯(lián)系的方法、批評與建議,以及未得到解答的需要系統(tǒng)進一步補充完善的問題。一個具有基本效率要求的機構(gòu)自然知道如何使工作和呼叫中心的運轉(zhuǎn)節(jié)奏吻合起來,從而進入服務的良性循環(huán)。

  來訪者的口音是一個無法回避的問題,對此捷通華聲采取了積極的應對措施,諸如,針對呼叫中心所在的服務領(lǐng)域提高音庫、詞庫的針對性和反映速度,同時使系統(tǒng)具備不斷學習來訪者口音的能力,使語料庫不斷豐富,識別率不斷提高。無坐席呼叫中心咄咄逼人的市場意義就在于它可以很快降低服務成本、提高服務效率。

  另一個鼓舞人心的機會就是2008年北京奧運會,捷通華聲與國內(nèi)外廠商合作已經(jīng)能夠提供二十幾種語言的語音合成與識別技術(shù),為使在2008年前建成多語種的2008北京奧運語音查詢系統(tǒng)奠定了堅實的基礎(chǔ)。現(xiàn)在的問題是多語種數(shù)據(jù)庫的建立,以及在公用一個平臺下的多語種切換技術(shù)。捷通華聲正在與首信集團、中科模識、華建集團等眾多合作伙伴緊密合作,合力攻關(guān),力爭早日實現(xiàn)北京在申辦2008年奧運會中所作出的鄭重承諾:"在2008北京奧運,Any Time, Any Where, Any One, Any Device都能方便地獲取奧運的信息,分享奧運的喜悅"。

浪沙淘盡,還信息家電本義

  對于在整個領(lǐng)域所取得的輝煌成績,捷通華聲相關(guān)人士從其戰(zhàn)略上作了相關(guān)的詮釋。其把語音產(chǎn)品的完整戰(zhàn)略歸結(jié)于宏、微兩個戰(zhàn)場的合二為一。

  宏,就是CTI類的呼叫中心解決方案;微,就是在嵌入式設備中的應用,2003年捷通華聲已經(jīng)成功推出了靈感嵌入式智能技術(shù)解決方案,"靈感"是一個包括語音合成、語音識別、手寫識別技術(shù)在內(nèi)的整體嵌入式解決方案,發(fā)展語音DSP技術(shù),直至真正語音技術(shù)芯片即語音信號處理的集成電路技術(shù)是捷通華聲更高的語音技術(shù)產(chǎn)業(yè)化發(fā)展目標。

  回顧一下,和"呼叫中心"觀念同時打響的還有"信息家電"觀念,就有家電企業(yè)搞出了可以上網(wǎng)的冰箱。這種積極的進取精神令人感動,但是即使是最狂熱的網(wǎng)蟲,也還不至于一定要在從冰箱取雞蛋的時候上網(wǎng)。這個故事頗具幽默色彩,但是也從一個側(cè)面說明,人們在摸索一個新觀念的往往要負出不小的代價。

  那么什么是信息家電呢?其實我們更愿意把它們叫做"數(shù)碼家電",或者"智能家電"。

  筆者認為"信息家電"起碼要在兩個"域"里符合四個條件,兩個域,一個是局域,可以以人的耳目所及的空間為范圍;一個是廣域,可以理解為互聯(lián)網(wǎng)。

  1) 能夠接收人的信息,當然最方便簡單的接收方式是語音;
  2) 能夠向人反饋信息,其現(xiàn)實方法,當然最直接的是語音;
  3) 以有線或無線方式發(fā)出自身的信息,這里要例舉幾個例子加以說明。

  例如老幼病人的自動監(jiān)護設備,要向服務中心反饋情況;高價值復雜商品,例如汽車、復印機的跟蹤服務、故障分析或保養(yǎng)期限的管理;在居室主人不在情況下的室內(nèi)能耗管理、水電、氣的計量等等。

  4) 以網(wǎng)絡方式接收來自服務中心的信息,使相關(guān)的設備獲得學習能力,這最后一條應當限于信息設備,諸如電腦、PDA、電子詞典、手機等,具體講就是讓設備可以自動接收來自某個服務器發(fā)布的信息,例如新的詞條、功能的補充、軟件的補丁、電腦病毒的疫苗、時鐘的調(diào)整等等,這里的關(guān)鍵技術(shù)是,接收來的信息如何像已有的信息一樣穩(wěn)定的存在系統(tǒng)的ROM里,并且插入已有的索引隊列。這一點聽起來容易,做起來還是有問題待解決的。

  這四條中,前兩條屬于局域的范圍,后兩條屬于廣域的范圍,廣域的事情將仰賴IP6的實施,128位編碼將使網(wǎng)址資源近乎無限的擴大,能夠供給每一本電子詞典、每一部電話、每一扇門窗、每一個文具盒一個網(wǎng)址。那似乎還要等上幾年,還是先回到眼前的局域范圍,捷通華聲的語音合成模塊將充分詮釋信息家電的本質(zhì)特點 -- 和人之間的交流,而且是方便的語音交流。目前捷通華聲的語音合成模塊化的產(chǎn)品對象首先定位于汽車的語音導航系統(tǒng)和語音智能集團電話交換機。

  汽車語音導航系統(tǒng),結(jié)合衛(wèi)星定位技術(shù),可以使司機手不離方向盤,眼不離行駛前方,通過語音與導航系統(tǒng)交流。這是一項極具市場潛力的技術(shù),它一端連著汽車制造業(yè),一端連著衛(wèi)星定位導航這個新興的交通服務業(yè)務。最后的完善試驗、與有關(guān)廠商的協(xié)作洽談都在緊張地進行之中。駕駛者和車的語音交流在國內(nèi)外都是新東西,其效果如何?能否迅速占領(lǐng)市場?這不僅是對捷通華聲的考驗,也是對中國工業(yè)的考驗。

  語音智能集團電話交換機更是把語音技術(shù)的應用推到了極致。

  當用戶訪問一個單位的時候,將不需要記住分機號碼,你只要說出聯(lián)系人的姓名或者具體部門,電話就會自動接過去;它還可以說的更多,例如應當接聽電話的人現(xiàn)在在不在?為什么不在?在哪里可以找到他,或者問題還可以問哪個部門?甚至集團交換機可以回答一些簡單而重復回答的問題,例如某個時間、地址、價格等等。

  捷通華聲的語音合成模塊技術(shù)在智能玩具、智能教學以及各種白色家電上都有廣泛的用武之地,工作要一步步地展開,包括基礎(chǔ)設計、基礎(chǔ)試驗、工業(yè)標準的穩(wěn)定性試驗、知識產(chǎn)權(quán)的管理和界定、向有關(guān)產(chǎn)業(yè)展開縱向調(diào)查、產(chǎn)品定型及其可行性研究,工作的難度和數(shù)量都可想而知,這對于一個成立于2000年的科技企業(yè)來說是一個不小的考驗。

  技術(shù)擁有者必須有寬大的襟懷、靈活的策略、謹嚴的實業(yè)理念、必要的妥協(xié)精神才能夠與產(chǎn)業(yè)界實現(xiàn)健康的合作,即不能盲目投機亦不能孤芳自賞錯失產(chǎn)業(yè)發(fā)展的良機。我們期待著捷通華聲公司能夠盡早使產(chǎn)品技術(shù)全面實現(xiàn)工業(yè)標準,實現(xiàn)語音技術(shù)向制造業(yè)的轉(zhuǎn)移,同時也期待著他們能夠漂亮地實現(xiàn)與制造業(yè)企業(yè)合作,促成中國語音產(chǎn)業(yè)的快速發(fā)展。

  2005年,我們靜靜等候捷通華聲公司的語音技術(shù)產(chǎn)品的美妙華音。

作者供稿 CTI論壇編輯



相關(guān)鏈接:
嵌入式語音合成技術(shù)在車載終端中的應用 2004-10-13
語音界面設計感想一二 2004-08-31
用電話聽的網(wǎng)絡 2004-07-21
淺談TTS與CTI技術(shù) 2004-07-12
2004年度國家科技成果重點推廣計劃捷通華聲榜上有名 2004-06-28

分類信息:     文摘   技術(shù)_語音合成_文摘