掌控語音就將掌控一切。語音之“熱”是真正的產(chǎn)業(yè)良機(jī)還是過度炒作?中國語音企業(yè)該選擇怎樣的成長路徑?如何揚(yáng)長避短與國際巨頭一較高下?
科大訊飛立體云、捷通華聲套餐云、云知聲靈巧云和百度開放云……且看各門各派如何搶灘中國智能語音市場。
這是一個(gè)最好的時(shí)代,這是一個(gè)聲控的時(shí)代,這是個(gè)光明的季節(jié),也是個(gè)希望的春日。
從幾年前蘋果Siri將語音迅速升溫推至消費(fèi)者面前,到現(xiàn)在語音助手幾乎已成為智能手機(jī)、汽車電子、智能家居的標(biāo)配,從人們過去在路邊招手打車到現(xiàn)在先用微信與出租車師傅說好再出門……似乎,智能語音產(chǎn)業(yè)已經(jīng)迎來生機(jī)盎然的春天。語音一時(shí)間成為輿論的焦點(diǎn):“語音將徹底替代鼠標(biāo)、鍵盤”,“語音將成為移動(dòng)互聯(lián)網(wǎng)主流信息入口”,“誰掌控語音誰就將掌控一切”……看好、贊揚(yáng)語音之聲不絕于耳。
但一個(gè)技術(shù)從萌芽期開始不斷發(fā)展,要醞釀多久才會(huì)到爆發(fā)期?智能語音產(chǎn)業(yè)是真的到爆發(fā)期了,還是被提前過度炒作了?智能語音產(chǎn)業(yè)現(xiàn)狀和未來發(fā)展方向如何?中國智能語音企業(yè)又該如何選擇適合自己的成長路徑?帶著這些疑問,記者先后采訪多位智能語音專家,力求探知一二。
莫錯(cuò)失趕超良機(jī)
智能語音是新一代的人機(jī)交互技術(shù)手段之一。就像人與人之間對話交流一樣,智能語音是要通過語音實(shí)現(xiàn)人與機(jī)器之間的交互,即機(jī)器能聽懂,并能回答提問,實(shí)現(xiàn)對話互動(dòng)。“智能語音技術(shù)主要包括語音識(shí)別、自然語言理解和語音合成三個(gè)環(huán)節(jié),完成讓機(jī)器聽懂人說話,再讓機(jī)器說人話的過程。這種交互需要基于海量的語料庫,通過模型實(shí)現(xiàn)語音識(shí)別和語義理解,包括對語法、分詞、情景,甚至是情緒等的理解,再通過知識(shí)庫系統(tǒng)找到答案,然后通過語音合成技術(shù)說出答案,來回交互。”在接受記者采訪時(shí),中國語音產(chǎn)業(yè)聯(lián)盟副秘書長李德升這樣給出他對智能語音的理解。
百度語音首席研究員賈磊在第十八屆中國國際軟件博覽會(huì)的演講中介紹,百度語音就是通過語音識(shí)別、語義理解和后臺(tái)資源來實(shí)現(xiàn)“你說我聽”、“你說我想”和“你說我做”的過程,打造人機(jī)交互的閉環(huán)過程。
人機(jī)智能語音交互,說起來容易做起來難。20世紀(jì)50年代,AT&T開發(fā)出第一個(gè)語音識(shí)別系統(tǒng)Audry;20世紀(jì)80年代,智能語音技術(shù)研究由傳統(tǒng)的基于標(biāo)準(zhǔn)模型匹配的技術(shù)思路開始轉(zhuǎn)向基于統(tǒng)計(jì)模型的技術(shù)思路;21世紀(jì)初,智能語音從技術(shù)研究走向?qū)嵱貌⑦M(jìn)入產(chǎn)業(yè)化,進(jìn)入呼叫中心、家電、汽車等領(lǐng)域;而近期,以蘋果Siri發(fā)布為重要引爆點(diǎn),智能語音應(yīng)用才開始向移動(dòng)互聯(lián)網(wǎng)等新興領(lǐng)域延伸,產(chǎn)業(yè)進(jìn)而不斷積累、發(fā)展。
智能語音技術(shù)是人工智能的研究領(lǐng)域之一,其原理涉及聲學(xué)、語言學(xué)、數(shù)字信號(hào)處理和計(jì)算機(jī)科學(xué)等多個(gè)學(xué)科,研究周期長,投入成本大,技術(shù)壁壘高。全球和中國智能語音市場基本形成寡頭壟斷的格局。隨著智能語音產(chǎn)業(yè)的快速發(fā)展,產(chǎn)業(yè)競爭進(jìn)一步加劇,也吸引了IT巨頭和中小創(chuàng)業(yè)團(tuán)隊(duì)爭相進(jìn)入,與傳統(tǒng)語音技術(shù)提供商共同角逐智能語音市場。
在國際市場,既有像Nuance這樣的占據(jù)全球62%語音市場的傳統(tǒng)語音技術(shù)巨頭,也有谷歌、蘋果、微軟、IBM等IT巨頭的競爭參與。在國內(nèi)市場,李德升告訴記者,目前我國語音技術(shù)廠商基本分為三類:一類是傳統(tǒng)語音技術(shù)廠商,一般從科研院所基礎(chǔ)研究脫胎,包括像科大訊飛(中國科技大學(xué))、捷通華聲(清華大學(xué)、中科院聲學(xué)所、北京大學(xué))、中科模識(shí)(中科院自動(dòng)化所)、中科信利(中科院聲學(xué)所)等;第二類是互聯(lián)網(wǎng)廠商,包括百度、騰訊、搜狗等,它們?yōu)榻o其廣大的互聯(lián)網(wǎng)用戶提供更好的增值服務(wù),普遍采用戰(zhàn)略合作或者收購等方式,掌握智能語音技術(shù),推廣語音服務(wù);第三類是創(chuàng)業(yè)企業(yè),像云知聲、思必馳等,它們專注于某些行業(yè)領(lǐng)域,比如汽車、家電、教育、社交網(wǎng)絡(luò)來推廣自己的語音技術(shù)和產(chǎn)品。