首頁>>廠商>>語音識別與合成>>天朗語音

"科技成就夢想"
――北京天朗語音技術(shù)有限公司市場部經(jīng)理劉歡采訪

2002/08/02

采訪人:記者
被采訪人:劉歡 天朗公司

  記者:據(jù)我所知,天朗語音公司的核心技術(shù)研發(fā)人員,產(chǎn)品設(shè)計人員,市場推廣銷售人員都是來自于國家863語音實驗室以及微軟、英特爾等國際化大企業(yè),是什么原因吸引了這么多優(yōu)秀的人才聚集到語音技術(shù)研究及產(chǎn)品化的這項事業(yè)中來呢?

  劉歡:語音技術(shù)的應(yīng)用,是產(chǎn)業(yè)發(fā)展的必然。無論是PC平臺,還是高端的平臺、甚至移動設(shè)備,各種形態(tài)的嵌入式的計算設(shè)備等等,語音技術(shù)都可以使冰冷的計算設(shè)備以更富友好和人性化的界面出現(xiàn)。我們相信,這項對人類生活產(chǎn)生重大影響的技術(shù)必將使更多人、更多時間和更有樂趣地享受IT和計算帶來的深刻價值。尼葛洛龐帝在《數(shù)字化生存》一書中寫到"在下一個千年里,我們會發(fā)現(xiàn)我們和機器說的話,與我們和人類說的話一樣多,或甚至比跟人類說的話還要多";而比爾·蓋茨在COMDEX展會上也說道:"工業(yè)界應(yīng)對語音識別領(lǐng)域的重大突破作好充分的準(zhǔn)備,那將是席卷全球的另一次狂潮"。這一切都將預(yù)示著語音技術(shù)的應(yīng)用將為人類未來的生活帶來巨大的變革。

  自20世紀(jì)90年代以來,包括微軟、IBM等國外大企業(yè),都在語音領(lǐng)域加大了研發(fā)力度。語音技術(shù)的發(fā)展對IT業(yè),對建立高度智能的信息化社會有著深遠(yuǎn)的意義,語音技術(shù)的突破,將會在整個信息產(chǎn)業(yè)掀起一股狂潮。語音技術(shù),已被公認(rèn)為是21世紀(jì)最有開發(fā)潛力和應(yīng)用前景的高科技技術(shù)。

  長久以來,軟件業(yè)的核心技術(shù)掌握在微軟、Oracle、IBM等國外軟件巨頭手中,甚至與我們毗鄰的印度在近10年的時間里,一躍成為除美國以外最大軟件出口國,它所生產(chǎn)的計算機軟件產(chǎn)品已遠(yuǎn)銷75個國家,出口量是中國的100倍之多,2008年預(yù)計出口軟件總值將達(dá)到500億美元。

  與美國、印度等軟件大國相比,我們到底缺了什么?很顯然,國內(nèi)軟件業(yè)在很長一段時間里存在著缺乏核心技術(shù)、科研規(guī)劃能力不強、人才流失等等一系列問題。WTO時代的到來,也正是國內(nèi)軟件業(yè)大展鴻圖的契機。國家加大對軟件產(chǎn)業(yè)的扶持的力度以及重視對知識產(chǎn)權(quán)的保護,加之國內(nèi)軟件本身市場潛力巨大以及國內(nèi)軟件業(yè)具備本土化優(yōu)勢、教育高校人才云集等巨大優(yōu)勢完全可以帶動國內(nèi)軟件業(yè)的發(fā)展,當(dāng)然國內(nèi)軟件產(chǎn)業(yè)的提高最終還是需要自身技術(shù)的提高。

  如今,天朗公司擁有國際領(lǐng)先的核心語音技術(shù),有理由相信無論在傳統(tǒng)的IT和電信領(lǐng)域,還是在其它領(lǐng)域;我們將在不斷變化的市場中,提高我們自身的核心技術(shù)和核心技術(shù)適應(yīng)能力。我們期望通過不斷的合作實現(xiàn)從今天開始到未來的知識經(jīng)濟的時代的語音的科技之夢。

  記者:語音技術(shù)曾一度是冷門學(xué)科,其科研工作過去也一直是在悄然中進行,如今,雖然語音技術(shù)已經(jīng)達(dá)到一個相對高的水平,并正在從實驗室研究中走出來,進入一個實用化的階段,但在IT業(yè)界,相對其它軟件技術(shù)來講,語音在業(yè)界的聲音仍然很小,甚至,對于大多數(shù)人來說,對語音技術(shù)感受還是比較陌生,您是如何解釋這一現(xiàn)象?

  劉歡:語音技術(shù)包括語音識別和語音合成,而前者又比后者更難于實現(xiàn)。語音識別是指從人的語音波形中提取信息并確定其語言含義的過程。它是人機交互技術(shù)中最為關(guān)鍵,難度又很大的一個課題。語音識別與計算機幾乎是同時誕生,雖然有50年的研究歷史,但是要實現(xiàn)實質(zhì)上的突破,是被喻為和"人類登月計劃"有著同等難度的攻關(guān)計劃。

  機器識別語音難在什么地方呢?人說話的語音信號是很不穩(wěn)定的。不同人由于性別、年齡不同,所受的教育和性格不同,地方口音不同,說話的輕重不同,甚至說話時的心理、生理狀況不同等等,都會影響語音信號的特征,使得計算機感到對它難于琢磨。這就是專業(yè)術(shù)語所說的語音信號的隨機性和多變性問題。這種隨機性和多變性造就了語音本身的不定性和難懂性。

  清華-天朗語音科技研究中心在經(jīng)過多年的語音識別研究后,提出了一套新的語音識別模型和相應(yīng)的訓(xùn)練算法、識別算法。對聲學(xué)處理我們提出了一個新的語音識別模型,這個模型與國際上(包括國內(nèi)大多數(shù)研究語音識別技術(shù)所使用的)流行的語音識別模型不同之處恰恰就在于它能夠描述于語音信號的隨機性和不平穩(wěn)性。目前大眾對語音技術(shù)的陌生是很正常的,因為語音技術(shù)的全面深入應(yīng)用是一個長期發(fā)展的過程,語音技術(shù)的成熟性要分階段實現(xiàn)。相信經(jīng)過研究者的不斷努力,在攻克語音識別中的主要難題后,語音識別技術(shù)將對人類的生活方式產(chǎn)生深遠(yuǎn)的影響。

  記者:業(yè)內(nèi)人士都知道:語音技術(shù)是被列為國家863重點科研攻關(guān)計劃,而清華-天朗語音科技研究中心作為長期承擔(dān)國家863重點語音科研項目的研究機構(gòu),在王作英教授的帶領(lǐng)下,取得了多項科研成果。請問天朗公司將如何把這些核心技術(shù)進行封裝,實現(xiàn)產(chǎn)品化、產(chǎn)業(yè)化?同時,對于語音行業(yè)未來的發(fā)展,天朗語音有一個什么樣的戰(zhàn)略規(guī)劃?

  劉歡:清華-天朗語音科技研究中心從80年代末開始進行語音識別和語音信號處理方面的研究。經(jīng)過十幾年的努力,取得了很多重要成果,自94年以來,在國家863計劃組織的測試中連續(xù)三屆以較大優(yōu)勢獲得冠軍,代表了國內(nèi)語音識別領(lǐng)域的最高水平。經(jīng)過近一段時間的努力,所擁有的技術(shù)目前已經(jīng)進行了實用化和產(chǎn)品化的工作。并已經(jīng)將技術(shù)部分在飛利浦、中國電子器件總公司等投入使用。當(dāng)今世界,科學(xué)技術(shù)發(fā)展日新月異,知識經(jīng)濟和理性互聯(lián)網(wǎng)的概念是主流的思想。世界各國和地區(qū)紛紛把發(fā)展高新技術(shù)產(chǎn)業(yè)作為提高經(jīng)濟競爭力的制高點,大力增強技術(shù)創(chuàng)新能力,積極促進科技成果商品化。核心技術(shù)的產(chǎn)品化是中國軟件產(chǎn)業(yè)必須堅持發(fā)展的道路。

  雖然,目前的語音識別技術(shù)還沒有達(dá)到非常理想的狀態(tài),但這并不妨礙以語音技術(shù)為核心的人機交流應(yīng)用的發(fā)展。語音識別的應(yīng)用是非常廣泛的,目前,語音識別已經(jīng)在聽寫機、電話查詢系統(tǒng)、家電控制等諸多領(lǐng)域獲得了廣泛的應(yīng)用。天朗語音將力爭把核心語音識別技術(shù)深入應(yīng)用到從電信、IT等領(lǐng)域,不斷擴充到消費電子、汽車、玩具、電話等和大眾生活息息相關(guān)的領(lǐng)域,讓更多的人感受到語音高科技所帶來的便利。如何更有效地將語音核心技術(shù)轉(zhuǎn)化為產(chǎn)品是我們現(xiàn)階段的工作重點,同時,我們將繼續(xù)研究語音目前存在的難題,分階段的解決這些問題,研發(fā)出更為高端的語音核心技術(shù)。

  記者:自94年以來,清華-天朗語音科技研究中心在國家863計劃組織的語音測試中連續(xù)三屆以較大優(yōu)勢獲得冠軍,代表了國內(nèi)語音識別領(lǐng)域的最高水平。請問天朗語音公司除了在語音識別技術(shù)上有優(yōu)勢以外,還有何別的競爭優(yōu)勢?

  劉歡:天朗語音的核心研發(fā)部門清華-天朗語音科技研究中心從國家開展863計劃以來,長期承擔(dān)國家863計劃的重點語音課題,同時也為天朗語音提供了強大的技術(shù)后臺支持,這一點是天朗公司的核心競爭優(yōu)勢所在。但是,實現(xiàn)語音技術(shù)真正的產(chǎn)業(yè)化,缺少不了資本和市場的支持和接受。以市場為導(dǎo)向是語音公司能夠穩(wěn)定發(fā)展的關(guān)鍵。天朗公司的投資方之一是北京市政府下屬的北京高新技術(shù)創(chuàng)業(yè)投資股份有限公司,具有豐富的高新投資經(jīng)驗的北京高新技術(shù)創(chuàng)業(yè)投資股份公司給天朗語音提供優(yōu)良的技術(shù)研究和開發(fā)環(huán)境。北高投的介入為天朗語音提供了強大的政府資本支持,這也充分說明政府對語音行業(yè)前景十分看好,對國內(nèi)的語音事業(yè)充滿信心。此外,天朗語音的主要的產(chǎn)品化設(shè)計人員都來自英特爾、微軟等國際化企業(yè),具有豐富的產(chǎn)品設(shè)計和解決方案能力。同時,天朗語音還擁有一個具備成熟管理經(jīng)驗的經(jīng)營團隊,這一切都是天朗擁有的競爭優(yōu)勢。

  記者:大家都知道,美國常常將最先進的科技運用到軍事上,而日本則往往將其應(yīng)用在與百姓生活息息相關(guān)的領(lǐng)域里。那天朗呢,天朗語音公司今后技術(shù)發(fā)展方向及產(chǎn)品開發(fā)方向的重點是什么?

  劉歡:語音技術(shù)的應(yīng)用最重要的應(yīng)用就是實現(xiàn)人機的自然交流。任何人、在任何時間、任何場所都能夠安全、方便、快捷、高效地獲取可支付得起的、豐富的、無語言障礙的、個性化的信息服務(wù),從而實現(xiàn)人與計算機的無障礙溝通。當(dāng)這種溝通實現(xiàn)的時候,我們會在一個完全新型的計算環(huán)境和社會環(huán)境內(nèi)。人們可以享受數(shù)字家庭的理想;可以利用移動電話,控制自己的家電;可以用簡單的設(shè)備,實現(xiàn)家居的智能控制;語音技術(shù)的突破,使人們真正實現(xiàn)無障礙的地球村的夢想。NEC公司在本次世界杯,成功的使用了由日本本國技術(shù)研發(fā)的語音掌上設(shè)備。這個產(chǎn)品能夠?qū)崿F(xiàn)外國人和本國人的暢通溝通。我們期望在2008年的奧運會上我們本土的語音技術(shù)的應(yīng)用能夠完全實現(xiàn)中國申辦奧運時的承諾,實現(xiàn)數(shù)字奧運的無障礙溝通。

  IT產(chǎn)業(yè)的迅速發(fā)展是不平衡的,主要表現(xiàn)在作為IT業(yè)主體技術(shù)的計算機并不是非常適合于人的操作。解決這些問題,一直是人類的夢想,使這一夢想成真是天朗人的神圣職責(zé)。

  記者:關(guān)于語音識別技術(shù)的發(fā)展水平及其商品化的時機問題眾說紛紜:有人認(rèn)為語音識別技術(shù)商業(yè)化的時代已經(jīng)到來,有人則說還需那么三、五年時間。對此你有何看法?

  劉歡:語音識別技術(shù)商品化是一個過程。在《智能計算機》的有關(guān)研究中,"863智能計算機"專家組提出了"頂天立地"的四字方針。所謂頂天就是創(chuàng)新,立地就是要產(chǎn)業(yè)化。就技術(shù)所能夠達(dá)到的性能而言,今天的語音識別技術(shù)已經(jīng)能夠滿足許多方面的使用要求。對語音識別技術(shù)的應(yīng)用要求是多方面的,而實現(xiàn)每一種應(yīng)用產(chǎn)品的設(shè)計都需要解決特定的用戶需求。其中許多問題就需要在產(chǎn)品化的過程中去解決。當(dāng)然也有許多技術(shù)層面上的問題,但是就目前而言,主要的問題是如何把已經(jīng)達(dá)到的語音識別技術(shù)性能配上人性化的設(shè)計,應(yīng)用到產(chǎn)品中去。語音技術(shù)的成熟性將會分階段實現(xiàn)。

  記者:聯(lián)盟一直是IT行業(yè)的一道獨特的風(fēng)景線,而且正如您所說到的:語音技術(shù)的發(fā)展是和周邊技術(shù)的發(fā)展分不開的,那么天朗語音未來的發(fā)展策略是什么?

  劉歡:語音識別從學(xué)術(shù)上看,涉及了多種學(xué)科,屬于交叉學(xué)科的范疇;從產(chǎn)業(yè)上看,語音識別遍布計算領(lǐng)域。語音識別技術(shù)的研究不同于其他軟件技術(shù),它需要長時間的積累,所需要的資源也是驚人的。語音識別技術(shù)的應(yīng)用現(xiàn)階段的核心是語音技術(shù)和其他相關(guān)技術(shù)的聯(lián)合開發(fā)。事實上,在缺乏完整的理想核心技術(shù)解決方案的現(xiàn)階段,應(yīng)用技術(shù)和核心技術(shù)的聯(lián)合開發(fā)將是非常重要的。

  語音產(chǎn)業(yè)離不開應(yīng)用的開發(fā),離不開解決方案的開發(fā),離不開運營商的支持和理解。天朗語音的模式非常簡單清楚:采用多贏的合作模式,注重多領(lǐng)域的聯(lián)盟和適合客戶和市場的應(yīng)用方案開發(fā)。

  我們期望通過我們的核心技術(shù),和所有的應(yīng)用開發(fā)商聯(lián)合,共同開發(fā)適合各種領(lǐng)域的應(yīng)用產(chǎn)品,并提供部分解決方案和技術(shù)支持。同時我們將全力配合其它語音應(yīng)用廠商和語音應(yīng)用的運營商全力推廣自身的產(chǎn)品。目前,天朗公司已和多家國際、國內(nèi)高科技公司建立了戰(zhàn)略聯(lián)盟。唯有國內(nèi)的企業(yè)、廠商都聯(lián)合起來,結(jié)成統(tǒng)一戰(zhàn)線,合作聯(lián)盟,才能攜手共創(chuàng)知識經(jīng)濟時代的科技之夢!

天朗語音公司供稿 CTI論壇編輯



相關(guān)鏈接:
天朗分布式語音識別系統(tǒng)在語音門戶中的使用 2003-10-13
天朗分布式語音識別系統(tǒng)改造傳統(tǒng)IVR 2003-10-10
天朗分布式語音識別系統(tǒng)產(chǎn)品白皮書 2003-09-27
鍵盤漸成擺設(shè),未來手機一呼通 2003-09-22
天朗語音成功開發(fā)出分布式語音識別系統(tǒng) 2003-09-19

分類信息:     新聞頻道   文摘   技術(shù)_語音識別_文摘