云知聲是伴隨著阿里巴巴、樂視的“互聯(lián)網(wǎng)汽車”概念而逐漸浮出水面的。這家成立僅2年多的創(chuàng)業(yè)公司,是隱藏在阿里Yun OS車載操作系統(tǒng)和樂視LeUI Auto背后的語音技術(shù)提供商,在樂視造車之后,我們將“互聯(lián)網(wǎng)造車”的系列報道定格在一家近幾年崛起最快的語音識別公司——云之聲。
少女聽到他的話,貓咪噠噠的跑過雪地,老人曬著暖呼吸吐納……常規(guī)之下,這些賦上心意的聲音,與你所聽到的表達,一起被稱作“溝通”。
而在現(xiàn)如今的商業(yè)世界,如常的言語往來不止是感性的細膩,它為商業(yè)拓展出更多邏輯的種類,也嘗試鏈接不同的交互載體。
云知聲就是這樣一家公司,它穿著隱身衣,住在你能想到的軟、硬件載體中,以聲音為介質(zhì),以命令為輸出,將一個個抽象的韻母、聲母拆解,合成為一條條具體的動作指示。
云知聲是伴隨著阿里巴巴、樂視的“互聯(lián)網(wǎng)汽車”概念而逐漸浮出水面的。這家成立僅2年多的創(chuàng)業(yè)公司,是隱藏在阿里Yun OS車載操作系統(tǒng)和樂視LeUI Auto背后的語音技術(shù)提供商,在2013年獲得啟明創(chuàng)投的1 億元A 輪融資之后,又在2014年年底獲得摯信等5000萬美元B輪融資,刷新了語音行業(yè)融資紀錄,成為近幾年崛起速度最快的語音識別公司。
云知聲的倒推邏輯
相比于阿里、聯(lián)想、英特爾、中興、樂視、通用汽車、小米、錘子等客戶,云知聲像是一個靜默的解語者,這種“躲”在背后的靜默恰好應(yīng)了云知聲的產(chǎn)品特點:雖然技術(shù)加載,卻因為只是輸入輸出載體,所以無法具象地被用戶感知。甚至在業(yè)已實現(xiàn)可能的案例中,被無意識地忽略。
把這樣的忽略放至大環(huán)境下的整體路徑,同樣能找到痕跡。語音交互經(jīng)歷過寒冬,從系統(tǒng)穩(wěn)定性、響應(yīng)速度、語音識別效率等維度判斷,語音交互行為本身所帶來的交互體驗并不能引起足夠多的正向討論。即使是蘋果Siri,也并沒有如想象中那樣普及開來。
云知聲CEO黃偉是國內(nèi)最早從事語音識別技術(shù)的少壯派代表,曾任職于Motorola中國研究中心和世界最大的語音公司Nuance,并開發(fā)出世界第一款手機聲紋認證系統(tǒng),加盟盛大后一手創(chuàng)建了語音分院。在十余年的語音從業(yè)經(jīng)驗中,他認為Siri對他的第一個啟示是用一個有限的人工智能去解決非常開放的需求是一個偽命題。如果把Siri定位為語音助理,用戶就會覺得應(yīng)該什么都懂,但人的需求是千變?nèi)f化的,一旦做不到就會失去用戶。
第二個啟示是語音技術(shù)必須搭載服務(wù)。人們使用語音的最終需求是機器完成整個操作,比如說導(dǎo)航,不僅是聽懂目的地,還需要完成路徑規(guī)劃,如果目的地是一個餐館,甚至可以實現(xiàn)在線下單。這考驗的是資源整合能力。
“從技術(shù)和需求兩個角度,我們認為理想的方式是什么?不要大而全,而是垂直領(lǐng)域切入。”這也成為云知聲與擅長TTS的科大訊飛,以及擅長多國語言識別的Nuance等傳統(tǒng)語音巨頭競爭的差異所在。
2011年,騰訊推出即時通訊服務(wù)的免費應(yīng)用程序——微信。智能手機作為第一波普及的硬件載體,徹底打破人們對溝通場景、對象、方式的固有模式,用戶需求的移動性、細分化也催生著語音的場景垂直。智能家居、車載、可穿戴設(shè)備、在線教育、智能客服等,每一個領(lǐng)域都可以延伸出語音的被需要。怎樣在新興領(lǐng)域開辟語音入口?怎樣判斷需求的真?zhèn)、做定制化差異?怎樣讓人們變得更懶卻也更互動?
如果說老東家Nuance的工作經(jīng)歷是告訴黃偉如何用一套普適性強的引擎體系適應(yīng)全球化的產(chǎn)品占領(lǐng),那么云知聲想要做的是一個倒推邏輯:根據(jù)不同的載體形式,定制需求、深度開發(fā)。2012年,云知聲成立僅三個月后就推出了面向開發(fā)者的免費語音云平臺。這是一個完全逆著來的形式,相比語音界同行,黃偉認為:“2012年,用戶根本沒有習(xí)慣用語音。這說明你自身價值還遠未形成,如果這個時候著急收費,無異于是扼殺行業(yè)。”
可是,估計很少人知道,2011年底辭職后就開始籌備項目的黃偉,帶著十幾人的研發(fā)團隊自負盈虧,到6月份天使輪融資進來之前,半年內(nèi)幾乎花光了積蓄,甚至要靠透支信用卡來發(fā)工資。黃偉第一次感覺到了難。“我不能多想,團隊的每一個人都不能多想,但凡任何一個人有后顧之憂,這事就成不了。”
技術(shù)創(chuàng)業(yè)的特殊就在這,如果沒有產(chǎn)品,何談融資。黃偉聊到一個細節(jié),天使輪融資在團隊幾乎斷糧的關(guān)鍵節(jié)點進來,“我們不是等錢到了再做事,而是盡快抓住時間窗口一直往前走。投資人看什么?他會翻看我這大半年的代碼有沒有增加,我有沒有干。”
一位土博士的產(chǎn)品地圖
說回到云知聲逐漸鋪設(shè)的產(chǎn)品地圖,這群自稱為“土博士”的創(chuàng)業(yè)團隊,產(chǎn)品理念不再是單一依靠
技術(shù)的強勢打法。用黃偉的話來說,語音交互的整個體系包含“語音識別、語義理解、服務(wù)調(diào)用”三大板塊,如果沒有識別單元就不知道用戶說了什么,沒有理解就不知道用戶的意圖,而這兩者只是完成了人跟設(shè)備的一個翻譯。“用戶跟設(shè)備交互的目的是什么?不是為了炫酷,而是我說的話希望得到后面的服務(wù),否則只是一個輸入法。”
從這個角度入手,黃偉從云知聲的主動可控層面給出三個評判維度:中文連續(xù)語音的準確識別率,云知聲做到開放性、全國語量基礎(chǔ)上97%的識別率;識別引擎的迅速,做到同行的3-5倍的速率比;語音開放平臺的穩(wěn)定,第一版自2012年9月份推出以來,穩(wěn)定服務(wù)。
延展出的三大主要業(yè)務(wù)內(nèi)容是:以“云、端、芯”為關(guān)鍵字在移動應(yīng)用、智能硬件等不同領(lǐng)域切入。云知聲開放平臺為開發(fā)者提供語音接口;云知聲UniWear是面向可穿戴設(shè)備的ROM,旨在降低開發(fā)門檻,提供一套完整的軟硬件開發(fā)方案;語音交互芯片意在智能家居平臺,控制家居自動化設(shè)備的入口。
而車載可以看作一個功能非常豐富的智能移動設(shè)備,也是云知聲下一個重點發(fā)力的領(lǐng)域之一。語音、觸屏、按鈕、體感,交互形式多樣且互相配合,而語音作為最自然、最日常的途徑,成為人與載體間的密碼。但語音產(chǎn)品在車內(nèi)的市場表現(xiàn)和受眾認可似乎躊躇不前,語音作為產(chǎn)品接口,與用戶之間隔著一個載體,這也就意味著軟、硬件載體的工藝水準、成本考慮、搭載適配等直接且深度影響著語音交互的效果。
以用戶在車內(nèi)最常用的導(dǎo)航和娛樂功能為例,最新推出的云知聲開放平臺2.0,除了識別、理解、合成等基本能力,還針對如車載這樣的垂直領(lǐng)域做了特別的優(yōu)化方案,方便用戶低成本接入,并提供軟硬結(jié)合的整套解決方案。黃偉覺得語音識別從實驗室階段到了商業(yè)化的臨界點,但依然還需要解決很多問題,比如說抗噪性,噪音的干擾,這些都是需要在學(xué)術(shù)界、工業(yè)界不斷解決的。但語音在車載領(lǐng)域的應(yīng)用前景是勿庸置疑的,相關(guān)產(chǎn)品的出貨量增長也非?臁
不過這應(yīng)用上的困境也讓團隊越來越思考一個問題,僅僅做面向B端的用戶群,無法直達消費者,必然存在語音效用的折衷。為什么不自己做一個面向C端用戶的語音類助手呢?
“2015年我們會開始推廣自有APP,從小點切入大眾化的需求。”黃偉提到一個觀點,以語音輸入做移動搜索引擎,牽涉到太多對后臺資源的調(diào)用、整合,不太適合創(chuàng)業(yè)公司。云知聲要做的,是通過語音對個人設(shè)備、個人內(nèi)容、生活方式等進行助手式管理。
另一個挑戰(zhàn)黃偉的事來自內(nèi)部,純技術(shù)出身,從中科院、科大研究室走出來的團隊,如何調(diào)整節(jié)奏、適應(yīng)商業(yè)化轉(zhuǎn)型的管理、營收需要,成為2015年必須要搞定落地的事兒。
一枝獨秀不成春,“硬件運算能力、數(shù)據(jù)積累處理、技術(shù)的推算衍進,有這三個要素做依托,我相信未來人工設(shè)備的交互一定可以實現(xiàn),不再是簡單的命令控制,不再是冷冰冰的存在。”在提到大環(huán)境下語音交互的未來,黃偉語氣篤定地用了一連串的“一定”。
黃偉的自信還在于,經(jīng)過十幾年的發(fā)展,雖然語音技術(shù)在學(xué)術(shù)層面上仍然是美國領(lǐng)先,但在應(yīng)用層面上中國已經(jīng)不遜于美國。中國人參加幾次語音領(lǐng)域的國際評測,與斯坦福、MIT、劍橋、Nuance、IBM、微軟、谷歌等同臺對壘,已經(jīng)連續(xù)六年三屆蟬聯(lián)第一。
我們追問了一句:“有沒有為什么事情焦慮?”黃偉沒有停頓,“我最近就很焦慮,你想做的事情和你現(xiàn)階段所掌握的資源和能力之間有一個距離。你明明看到機會了,做的卻沒有那么快。這種焦慮感是如果我再快一點會怎么樣?”
可他心知肚明,現(xiàn)階段的云知聲之所以能夠春江水暖,正是因為他們從不冒進地模仿?lián)焓、從不抱殘守缺地走到黑,也從不沒學(xué)會爬先想跑。