2013第二屆運(yùn)商終端與應(yīng)用創(chuàng)新合作大會(huì)于8月7-8日在國(guó)賓酒店召開,來自產(chǎn)業(yè)各界近500位嘉賓出席,針對(duì)運(yùn)營(yíng)商終端定制、產(chǎn)業(yè)合作、流量經(jīng)營(yíng)等焦點(diǎn)話題展開深入交流。通信世界網(wǎng)作為直播媒體將對(duì)本次大會(huì)進(jìn)行直播。
捷通華聲首席架構(gòu)師陳明
陳明:大家下午好!我是北京捷通華聲首席架構(gòu)師陳明,給大家介紹一下靈云平臺(tái)人機(jī)交互的平臺(tái),捷通華聲品牌不是很強(qiáng),簡(jiǎn)單介紹一下捷通華聲,另外講一下靈云平臺(tái)介紹、應(yīng)用和解決方案。
捷通華聲成立于2000年10月,一直致力于云的交互、手寫識(shí)別智能交互系統(tǒng)的研究應(yīng)用開發(fā),公司的主要愿景和理想,讓人機(jī)交互變成人與人溝通簡(jiǎn)單自然,包括我本人和公司創(chuàng)始人,以及聘請(qǐng)兩位老科學(xué)家,指導(dǎo)我們做語音合成和手寫識(shí)別教授,我們都是在這個(gè)領(lǐng)域多年經(jīng)驗(yàn),一直成為讓人機(jī)交互越來越自然,成為我們很大的夢(mèng)想。超前追溯一下可以追到1998年,成立捷通軟件公司,推出漢字輸入系統(tǒng),當(dāng)時(shí)集成OCR手寫識(shí)別、語音識(shí)別、TDS協(xié)同,現(xiàn)在有一些輸入法集成進(jìn)來,我們15年前做了這個(gè)事情,只不過在PC上邊,當(dāng)時(shí)技術(shù)或多或少有不成熟地方,這個(gè)參加推出來以后,我們公司下決心一個(gè)技術(shù)方面要有掌握核心技術(shù),因?yàn)楫?dāng)時(shí)技術(shù)都是集成第三方的技術(shù),包括當(dāng)時(shí)用的云識(shí)別是IBM的VRS,想有自己的產(chǎn)品技術(shù),2000年成立捷通華聲,相繼一年以后推出TTS技術(shù)和手寫識(shí)別技術(shù),TTS技術(shù)是國(guó)內(nèi)實(shí)用化技術(shù),02年的時(shí)候因?yàn)橐粋(gè)機(jī)遇,假如聯(lián)通和高通合作的業(yè)務(wù)開發(fā)里邊,因此進(jìn)入移動(dòng)互聯(lián)網(wǎng)行業(yè),03年中標(biāo)北京重大科技奧運(yùn)項(xiàng)目,開發(fā)多語種智能平臺(tái),奠定公司在語音行業(yè)的地位,06年參與移動(dòng)百寶箱業(yè)務(wù)08年我們業(yè)務(wù)接入電信天翼。09年中標(biāo)中國(guó)高鐵項(xiàng)目,站臺(tái)播報(bào)技術(shù)都是我們提供,2010年公司看到云技術(shù)、大數(shù)據(jù)技術(shù)發(fā)展,也想轉(zhuǎn)化商業(yè)模式,希望我們提供人機(jī)交互模式,提供開發(fā)商,希望把技術(shù)放在云端,讓用戶使用,促成靈云的誕生,2011年底推出靈云平臺(tái),經(jīng)過一年半發(fā)展,現(xiàn)在也是靈云平臺(tái)比較成熟。
經(jīng)過十幾年發(fā)展,公司在各個(gè)領(lǐng)域、各個(gè)行業(yè)緊密合作伙伴,包括運(yùn)營(yíng)商、手機(jī)廠商等合作伙伴。
二、靈云平臺(tái)介紹
希望把手寫識(shí)別、語音識(shí)別、語音合成等等人機(jī)交互系統(tǒng)放在云端,讓用戶在使用各種設(shè)備,在任何時(shí)間點(diǎn)都可以像用水、用電一樣使用智能人機(jī)交互技術(shù),實(shí)現(xiàn)人機(jī)交互人與人溝通簡(jiǎn)單自然的目標(biāo)。這是我們平臺(tái)架構(gòu),主要有多個(gè)服務(wù)結(jié)點(diǎn),都包含任務(wù)的分配,轉(zhuǎn)化具體服務(wù)器進(jìn)行處理,不同的語音識(shí)別組成服務(wù)器的池,我們有一個(gè)中央統(tǒng)一運(yùn)維管理系統(tǒng),云平臺(tái)很大的優(yōu)點(diǎn),我們能夠收集大量用戶上傳的視聽資料,對(duì)于我們做手寫識(shí)別的技術(shù),不斷提升我們識(shí)別率,開發(fā)者可以通過我們登陸社區(qū)平臺(tái)申請(qǐng)應(yīng)用,下載SDK進(jìn)行相關(guān)的開發(fā)。
靈云平臺(tái)第一個(gè)特點(diǎn)高度融合的平臺(tái),這個(gè)平臺(tái)融合很多人機(jī)交互能力,我們接口是比較統(tǒng)一的接口,保持比較大的一致性,然后用戶可以很容易訪問其他能力,另外底層能力接口定義規(guī)范,新的能力可以很融入加入里邊,現(xiàn)在跟人臉廠商討論,希望把他們技術(shù)引入我們平臺(tái)上邊去。單一能力可能自己做自學(xué)、不斷優(yōu)化的工作,在統(tǒng)一平臺(tái)做一些工作,試圖多個(gè)出入模塊里邊,把用戶數(shù)據(jù)進(jìn)行統(tǒng)一的學(xué)習(xí)、數(shù)據(jù)挖掘,提高我們質(zhì)量。
靈云平臺(tái)第二個(gè)特點(diǎn)是云加端方式,本地處理各自有各自的優(yōu)點(diǎn),中國(guó)環(huán)境不是很好,互聯(lián)互通問題情況下,除了提供云的能力以外,其實(shí)我們也提供本地端的處理方式,可以不依賴于網(wǎng)絡(luò),達(dá)到更好的可用性和更好響應(yīng)時(shí)間,實(shí)際計(jì)算處理可以放在本地做,另外一些場(chǎng)景下邊云加端識(shí)別策略,云識(shí)別場(chǎng)景下對(duì)于云端,本地端對(duì)本地通訊錄、本地應(yīng)用達(dá)到更好的識(shí)別率,可以進(jìn)行協(xié)同識(shí)別策略兩邊結(jié)果進(jìn)行判斷,達(dá)到選擇更好、更有可能的結(jié)果,使用戶體驗(yàn)更好。
第三個(gè)特點(diǎn)可定制,除了提供公有云以外,可以根據(jù)客戶需求定制云解決方案,前一段時(shí)間給百度定制云合成的私有云,根據(jù)他們運(yùn)維和監(jiān)控需求,把我們部署結(jié)構(gòu)、日志輸出都按照他們要求更改,當(dāng)然針對(duì)其他客戶也可以做這樣的宏觀。模型、音庫、模板可以根據(jù)特殊領(lǐng)域進(jìn)行定制,大大提高領(lǐng)域的識(shí)別率和合成效果,比如音庫可以跟企業(yè)合作,為他們專門進(jìn)行錄音,制造專門企業(yè)自己用的音符,跟其他聲音不一樣,這是我們一些特點(diǎn)。
從核心技術(shù)方面,主要集中在云交互和圖象識(shí)別兩個(gè)方面,后期也跟一些廠商合作,希望將來能夠拓展到生物特征識(shí)別、人臉識(shí)別方面,也把它加入我們應(yīng)用平臺(tái)上邊去。
語音合成技術(shù)是捷通華聲做了十多年,現(xiàn)在自然度、流暢度已經(jīng)很高,我們提供多語種、多音色、多領(lǐng)域的優(yōu)化,使聲音基本上可以很好,這個(gè)公司在行業(yè)一半的市場(chǎng)份額,大家平時(shí)打電話銀行、排隊(duì)叫號(hào)好多都是提供服務(wù)的。
語音識(shí)別方面前期主要做嵌入詞比較多,目前我們連續(xù)識(shí)別達(dá)到適用的水平,基本達(dá)到90%左右,另外采用圖像壓縮方式,使識(shí)別速度比較快,比較大提高識(shí)別率,我們測(cè)試結(jié)果基本能到41%以上。另外針對(duì)云服務(wù)收集上來的語料,一直進(jìn)行模型優(yōu)化訓(xùn)練,使識(shí)別率不斷提高。
手寫識(shí)別技術(shù),行疊寫是我們公司率先提出,極大的優(yōu)化用戶無線體驗(yàn),另外手寫技術(shù)支持語種非常廣泛,目前支持27種識(shí)別。光學(xué)字符識(shí)別本人以前做這方面,近年來隨著終端設(shè)備越來越強(qiáng)大,攝象頭越來越好,實(shí)際拍照出來東西對(duì)它進(jìn)行處理,有一些新的挑戰(zhàn),比如光照的影響或者拍的時(shí)候角度,包括復(fù)雜景物下文字處理,這是十年間做文檔類字符識(shí)別不考慮,兩年前主要做一些工作,主要集中圖象識(shí)別上,包括證照、票據(jù)識(shí)別上。
自然語言理解技術(shù),對(duì)自然語言進(jìn)行分析然后進(jìn)行意圖理解,在這個(gè)基礎(chǔ)上推出像智能客服、手機(jī)助手產(chǎn)品,另外也跟車載、智能家電廠商合作,做理解技術(shù)包括語音交互的產(chǎn)品。