當(dāng)盲人無法看到手機(jī)短信,卻可以聽取這些信息;當(dāng)老年人看不清手機(jī)按鍵,卻可以通過說來對手機(jī)下達(dá)“命令”;當(dāng)司機(jī)在駕駛過程中為保證安全,通過收聽語音播報獲得叫車信息……
那么是什么,給我們的生活、工作帶來了這些實實在在的便捷?不得不說,它們是包括語音合成、語音識別、光學(xué)字符識別、手寫識別等技術(shù)在內(nèi)的智能人機(jī)交互(HCI)技術(shù)。
如果說智能人機(jī)交互技術(shù)是繼鍵盤、鼠標(biāo)、觸控技術(shù)之后的人與計算機(jī)交互的一種全新的手段,你是否會有一些感動,為這種高新技術(shù)帶來的全新體驗而感動;蛟S,隨著技術(shù)的不斷成熟,不但人們使用計算機(jī)及移動智能終端的方式將得到全面顛覆,智能人機(jī)交互技術(shù)也將廣泛深入到各行各業(yè)中去。
近日,CTI論壇記者采訪到北京捷通華聲語音技術(shù)有限公司(以下簡稱“捷通華聲”)董事長張連毅先生。張連毅對于智能人機(jī)交互技術(shù)懷揣了多年的夢想、熱衷于技術(shù)的不斷完善與進(jìn)步、一步一個腳印深耕于HCI這塊兒土地。就是他,用執(zhí)著兩個字將所有的堅持與熱情一帶而過,換來一個智能人機(jī)交互技術(shù)應(yīng)用更加廣闊而開放的時代。
智能人機(jī)交互技術(shù)錦上添花
張連毅涉足智能人機(jī)交互技術(shù)可以追溯到90年代初,當(dāng)時致力于推進(jìn)中國漢字印刷體識別系統(tǒng)商品化進(jìn)程;到90年代末,智能人機(jī)交互技術(shù)掀起了一股光學(xué)字符識別的熱潮,而捷通華聲也是在此時正式成立的;到現(xiàn)階段,各項智能人機(jī)交互技術(shù)成熟度都大幅提高,相互支撐,達(dá)到了一個融合狀態(tài)。“相對來講,可以說目前智能人機(jī)交互技術(shù)初步進(jìn)入一個百花齊放、全面發(fā)展的階段”張連毅說。
實際上,張連毅個人本身的工作經(jīng)歷也見證了智能人機(jī)交互技術(shù)的起起伏伏。所以,他對智能人機(jī)交互技術(shù)也有著深刻的理解:“樂視智能電視增加了語音點播,汽車導(dǎo)航可以聽新聞、給某某打電話,完成這些功能的就是HCI技術(shù),這就促進(jìn)了產(chǎn)業(yè)升級。當(dāng)我們認(rèn)同產(chǎn)業(yè)的變革,智能人機(jī)交互技術(shù)起到的作用就是錦上添花。”
“HCI技術(shù)使得人和機(jī)器的距離拉近了,但如果拋開這個表象之后,實際上我們并沒有改變什么。HCI技術(shù)是為內(nèi)容服務(wù)的。”
為了更好地為內(nèi)容服務(wù),一直以來,捷通華聲潛心研究智能人機(jī)交互技術(shù),張連毅講到,“HCI技術(shù)具有旺盛的生命力,這種旺盛的生命力來自于需求、來自于技術(shù)的不完美。因為不完美,所以人們不斷提出新的要求,不斷去提升它的性能、指標(biāo), 從而成為可持續(xù)發(fā)展到動力。而捷通華聲務(wù)實、低調(diào)的氛圍,助力實現(xiàn)這種可持續(xù)性發(fā)展。”
新技術(shù)將重構(gòu)社會,HCI助力發(fā)展
“一個全新時代的大幕才剛剛拉開,云、移動、大數(shù)據(jù)這些技術(shù)蓬勃發(fā)展,新的商業(yè)模式也初現(xiàn)曙光。當(dāng)我們把所有用戶的行為和需求匯集到一塊去的時候,整個社會都將被技術(shù)的發(fā)展所重構(gòu)。”張連毅引用百度大數(shù)據(jù)首席架構(gòu)師林仕鼎的話來展開他的觀點與想法。
在他看來,云計算勢如破竹撞擊著傳統(tǒng)產(chǎn)業(yè),移動互聯(lián)網(wǎng)改變著人們生活工作的方式,大數(shù)據(jù)讓整個世界變得更加有規(guī)律可循,而智能人機(jī)交互技術(shù)雖然沒那么轟轟烈烈,但它卻悄然地在人們的生活、工作中助力著這幾大板塊的應(yīng)用。
“當(dāng)今HCI進(jìn)入一個相對成熟的階段,大眾對它也日益了解,無論移動互聯(lián)網(wǎng)、大數(shù)據(jù)、云計算,其實和HCI都是息息相關(guān)的。”張連毅認(rèn)為,這幾項新興技術(shù)與HCI技術(shù)之間具有相互作用的關(guān)系,他分析到:
首先,移動互聯(lián)網(wǎng)及智能終端的普及,使得運用HCI技術(shù)的廣泛應(yīng)用成為可能,并深入到每個人的生活當(dāng)中;反過來,HCI技術(shù)同時也助力了移動互聯(lián)網(wǎng)的發(fā)展。
其次,作為靈云云服務(wù)平臺,所研究的是怎么才能實現(xiàn)大家對HCI的應(yīng)用,怎么才能實現(xiàn)靈云能力的共享。答案是通過云計算能力實現(xiàn)。云計算使得智能人機(jī)交互技術(shù)的服務(wù)能夠滿足everybody希望使用HCI技術(shù)的需求。
再次,對于大數(shù)據(jù),如果沒有大數(shù)據(jù),語音識別技術(shù)不一定能夠得到突破。比如說,語音識別需要對語音語料進(jìn)行訓(xùn)練。過去可能是兩三百小時,現(xiàn)在輕則兩三千小時,重則上萬小時;過去的原始文本語料有幾個GB就很了不起,現(xiàn)在都可以以TB來計算了。無論是成千上萬的語音語料、還是基礎(chǔ)的的文本語料,都屬于大數(shù)據(jù)。由此可以看出,大數(shù)據(jù)助力智能人機(jī)交互技術(shù)性能的提升。
云計算、大數(shù)據(jù)、移動互聯(lián)網(wǎng),甚至是HCI技術(shù),彼此相互交融,正是這種技術(shù)的發(fā)展,在悄然地改變著人們的生活。
靈云開發(fā)者社區(qū)打造合作共贏局面
順應(yīng)時代的變化發(fā)展,為了將自身優(yōu)質(zhì)的資源向合作伙伴全部敞開,打造一個合作共贏的局面,捷通華聲靈云平臺開發(fā)者社區(qū)面向開發(fā)者,全面開放語音識別、語音合成、手寫識別、OCR等HCI技術(shù)能力。
“靈云開發(fā)者社區(qū)將改變原有商業(yè)合作模式,全面開放SDK,需要開發(fā)者做的只是簡單地注冊而已。”張連毅表示,全面開放靈云能力,目的是推廣HCI技術(shù)的應(yīng)用,他這樣說:
首先,對于開發(fā)商及企業(yè),希望通過使用靈云能力,能夠提高企業(yè)產(chǎn)品品質(zhì)和技術(shù)創(chuàng)新能力,使產(chǎn)品的應(yīng)用性更強(qiáng)、更有趣。例如,嘀嘀打車,使用的便是捷通華聲的語音合成技術(shù)。
其次,對于個人開發(fā)者,捷通華聲希望激發(fā)民眾之中的創(chuàng)意,讓他們的創(chuàng)意能夠通過應(yīng)用HCI技術(shù)得益于實現(xiàn),從而服務(wù)于大眾、服務(wù)于社會。
所以,對于靈云開發(fā)者社區(qū),對于不同的點有不同的期許,但核心本質(zhì)是希望大家都能夠了解、掌握、應(yīng)用HCI技術(shù),使得靈云開發(fā)者社區(qū)更加大眾化,開啟一個HCI全面開放的時代。
靈云開發(fā)者社區(qū)為打造一個合作共贏的局面,張連毅同時也強(qiáng)調(diào):“也希望通過商業(yè)模式同從事同一領(lǐng)域的企業(yè)加強(qiáng)合作,把更多的HCI技術(shù)如人臉識別、指紋識別、聲紋識別、虹膜識別等生物特征識別技術(shù)納入到靈云平臺來。”
為與合作伙伴建立合作共贏的關(guān)系,捷通華聲多年來都遵循著自己的原則,張連毅肯定地講到:“捷通華聲非常尊重合作伙伴,絕不和用我們技術(shù)的企業(yè)或行業(yè)搶生意,這是我們一直以來的信念。”
“當(dāng)然,捷通華聲也希望塑造自己的品牌,但這種塑造是按照尊重產(chǎn)業(yè)發(fā)展規(guī)律的方式、尊重合作的商業(yè)規(guī)則來實現(xiàn)的。捷通華聲希望加強(qiáng)一些宣傳方面的規(guī)范,如在合同中要求:需要在廠商產(chǎn)品或者界面上,顯示相關(guān)HCI技術(shù)由捷通華聲提供。”
為深刻認(rèn)識HCI技術(shù)的一些應(yīng)用,捷通華聲首先運用靈云能力為自己開發(fā)了“捷通知道”這樣一個智能客服系統(tǒng)。智能客服的核心是自然語言處理技術(shù)。通過對一定數(shù)據(jù)的處理,把一些共性問題提取出來。隨著技術(shù)的發(fā)展,智能客服在呼叫中心的應(yīng)用將會越來越廣,“將逐漸成為呼叫中心領(lǐng)域的一個‘配件’、一個功能模塊。”
之所以要做“捷通知道”,張連毅說:“一個好的產(chǎn)品一定要具有一定的通用性。作為設(shè)計者、開發(fā)者,我們必須抓住靈云智能客服系統(tǒng)的本質(zhì),從而更好地為企業(yè)服務(wù)。而‘捷通知道’本身具有對捷通品牌宣傳的特點,起到提高企業(yè)形象、促進(jìn)企業(yè)宣傳、提升企業(yè)規(guī)范化建設(shè)的作用。”