導(dǎo)語:聲音識別技術(shù)的發(fā)展已經(jīng)日趨成熟,并且延展出了多個使用場景。特別是伴隨當(dāng)下移動互聯(lián)網(wǎng)和智能手機的普及,它已經(jīng)來到我們的日常生活中了。
科技是推動人類前行、社會進(jìn)步的重要力量。實驗室里不分晝夜的反復(fù)試驗,成就了人類更便捷、更美好的生活。這個欄目的開設(shè),旨在發(fā)現(xiàn)中國科技最前沿的力量,展現(xiàn)這些靜耐科研寂寞的團(tuán)隊以及他們正在做的事情,為這個時代的科研足跡留下真實的印記。
電影《2012》中有一個片段,一群人無論怎么弄都啟動不了一輛汽車,而當(dāng)車的主人說了一句“引擎,啟動”之后,這輛車就發(fā)動起來了。這就是神奇的語音和聲紋識別技術(shù),也就是說,機器可以辨別主人的聲音命令和的身份。除了主人外,任何人說這句話都無法打開系統(tǒng)。
看上去還很科幻對嗎,可眼下,這個情景已經(jīng)真實的出現(xiàn)在我們的生活中了。雖然暫時還未大量地普及在汽車上,但這種聲音識別技術(shù)的發(fā)展已經(jīng)日趨成熟,并且延展出了多個使用場景。特別是伴隨當(dāng)下移動互聯(lián)網(wǎng)和智能手機的普及,它已經(jīng)來到我們的日常生活中了。
比如,當(dāng)我們拿起手機要進(jìn)入銀行APP,不用密碼、無需指紋,只需自己讀一串?dāng)?shù)字,系統(tǒng)就可以通過聲音自動辨認(rèn)你的身份,成功進(jìn)入,而除你之外的任何人念相同的數(shù)字,都不能進(jìn)入你的銀行系統(tǒng)。它的原理,實際上就是根據(jù)我們每個人聲音的獨特性來鑒定說話人的身份?梢哉f,世界上每一個人的聲音特征都是不同的,母子、父子、雙胞胎的聲音可能會很相像,但在計算機看來他們卻是完全不同的。
現(xiàn)在,中國建設(shè)銀行已經(jīng)開始采用這種技術(shù),而它的供應(yīng)方,就是一家叫做“得意音通”的科技公司。
把一件事做到極致
“我們是一家專門研究聲紋識別技術(shù)的公司。我們研發(fā)的技術(shù)只用來做一件事,就是對人的身份進(jìn)行認(rèn)證”,得意音通的創(chuàng)始人兼董事長鄭方向記者介紹,“因為專注于做這一件事,所以我們就要把它做到極致,包括性能、功能和穩(wěn)定性”。作為清華大學(xué)教授和博士生導(dǎo)師,鄭方有著科學(xué)家一貫精益求精的態(tài)度。
由于本科、碩士、博士都在清華求學(xué),鄭方笑稱自己是“三清團(tuán)”,而在清華畢業(yè)留校任教之后,他陸續(xù)擔(dān)任清華語音實驗室、語音技術(shù)中心、語音和語言技術(shù)中心主任等,跟聲音技術(shù)研究打了近三十年的交道。
2002年,得意音通在北京中關(guān)村國際孵化園成立。專業(yè)從事聲紋識別、語音識別與語言理解技術(shù)的研發(fā)和商業(yè)化應(yīng)用,尤其在聲紋識別領(lǐng)域,其集技術(shù)研發(fā)、產(chǎn)品開發(fā)和服務(wù)提供于一身,擁有完全的自主知識產(chǎn)權(quán)。“與指紋識別一樣,聲紋識別也是生物特征識別技術(shù)的一種,但在遠(yuǎn)程身份認(rèn)證中它比指紋更保險,因為指紋可以用指模來造假,但聲紋特征的特殊性,使聲紋造假完全沒有了可能”,鄭方介紹,“因為聲紋是行為特征,我們一方面提取聲道的特征,世界上每個人的聲道特征都是不一樣的,另一方面我們還驗證說話的內(nèi)容,每次驗證說話的內(nèi)容都不同,錄音造假無效。”比如在生活中,我們可以模仿別人說話,模仿別人的語調(diào)和音色,從人耳的聽覺上幾乎可以以假亂真,但這只是表象上的相同,本質(zhì)上騙不了計算機的識別系統(tǒng)。
得意音通研發(fā)的聲紋識別技術(shù),就是基于每個人聲道的長、短、粗、細(xì),以及每個人說話的節(jié)奏、口音、發(fā)音,還有聲音所對應(yīng)的喉管、聲道、鼻腔的形狀與尺寸等特征進(jìn)行本質(zhì)識別,因此就算一個人模仿他人再相像,出現(xiàn)在計算機上的聲紋圖譜也是千差萬別的。
當(dāng)然,人的聲音也并不是沒有變化的,比如因為感冒發(fā)燒引起的鼻塞、嗓子變啞,以及隨著年齡的增長聲音的成人化和自然老化等現(xiàn)象,都會引起人聲音的改變,但據(jù)鄭方介紹,人本身的聲道構(gòu)成、口音、節(jié)奏、發(fā)音還有很多身體特征都是不會改變的,因此這些表象的改變并不會影響計算機的識別。
不過,有一種情況卻可能對聲紋識別構(gòu)成威脅,那就是在你說話的時候別人錄下你的聲音,然后用錄音去登錄你的銀行賬戶,“所以為了防止這種情況,我們發(fā)明了一個叫做聲密保的產(chǎn)品,這是我們公司獨有的專利產(chǎn)品”,鄭方邊介紹邊掏出手機向記者具體展示。“聲密保”就是基于動態(tài)密碼語音的身份確認(rèn)系統(tǒng)及方法,其利用動態(tài)密碼,結(jié)合語音識別和聲紋識別技術(shù),來實現(xiàn)用戶身份的雙重驗證。簡單來說,就是需要念出的數(shù)字每次都會改變,即使是用戶自己,也要把動態(tài)碼念對才可以通過身份認(rèn)證。
在鄭方的手機上,記者看到他第一次登錄手機銀行時,系統(tǒng)需要他念8個數(shù)字,而當(dāng)他退出重新登陸時,系統(tǒng)給出的8個數(shù)字已經(jīng)跟第一次的全然不同,這樣就使錄音失去了作用。另外錄音在播放時,它的聲音頻譜已經(jīng)被破壞,與直接說的聲音已經(jīng)不同,完全可以被系統(tǒng)檢測出來,從而進(jìn)一步阻止他人用錄音拼接的方式進(jìn)入自己的銀行系統(tǒng)。
無限想象的“應(yīng)用場景”
除了銀行、金融系統(tǒng)的身份認(rèn)證外,聲紋識別技術(shù)還有許多其他的應(yīng)用場景,比如對居民社保身份的確認(rèn)。根據(jù)人社部的數(shù)據(jù),2013年有3.5萬人冒領(lǐng)社保1.27億元,其中在很多人已經(jīng)去世的情況下,其家屬還照樣領(lǐng)取社保。“這就是由于沒有監(jiān)控,無法進(jìn)行身份認(rèn)證所帶來的問題。而解決這個問題的辦法,其實也是最能集中體現(xiàn)我們技術(shù)價值的地方,就是遠(yuǎn)程認(rèn)證”,鄭方解釋道,“遠(yuǎn)程就是在異地,見不到面,憑相貌或者指紋認(rèn)證都行不通的時候,聲音認(rèn)證就是最好的方式了,只要事先用系統(tǒng)記錄下對方的聲音,然后在領(lǐng)取社保前讓對方念一串動態(tài)密碼,就能判別是不是被社保的本人在領(lǐng)取資金,從而解決冒領(lǐng)的問題”。
同時,聲紋識別還可以用于考勤,“當(dāng)然這個認(rèn)證可能對員工來說都不會喜歡”,鄭方笑著說,“但它對公司、單位來講,是一個比指紋和打卡都方便、高效和防代考勤的系統(tǒng)”。
現(xiàn)在公司考勤中,比較常用的兩種方式就是指紋和打卡,但這兩種方式都可以作假和讓別人代替,而且一個公司通常就幾個指紋機和打卡機,人多的單位在上下班高峰的時候容易擁堵和排隊,而用聲紋技術(shù)打卡,就無須排隊。據(jù)他介紹,員工在自己的手機上就可以點擊進(jìn)入考勤系統(tǒng)進(jìn)行聲紋認(rèn)證,而員工身處的位置則是有限制的,利用手機的定位功能,只有在公司的區(qū)域內(nèi)才可以登錄這個考勤系統(tǒng),這樣每個人在自己的手機上就可以完成考勤,既避免了排隊,提高了打考勤的效率,又防止了作假。
除此之外,在電子身份證、車聯(lián)網(wǎng)的安全、智能手機的隱私保護(hù)、智能客服等方面,聲紋認(rèn)證也都有著巨大的市場空間,“而這幾點還只是目前能想到的,未來隨著移動互聯(lián)網(wǎng)技術(shù)和應(yīng)用的不斷發(fā)展,聲紋認(rèn)證可以應(yīng)用的范圍和場景會越來越廣泛,所以我們在今年3月份推出了一個‘聲密保云平臺’。這個云平臺主要針對B端企業(yè)客戶,他們既可以享受平臺的存儲和認(rèn)證服務(wù),又可以根據(jù)我們免費提供的開發(fā)工具進(jìn)行任何場景應(yīng)用的二次開發(fā)。我們不收取一分費用,全部免費。因為現(xiàn)在很多人還不了解聲紋識別到底是什么,所以我們現(xiàn)在推廣這個平臺,就是讓更多的企業(yè)了解到這個技術(shù)”,鄭方表示。
在以技術(shù)為核心的創(chuàng)新型公司,強大的研發(fā)團(tuán)隊是必不可少的。由于鄭方在清華任教,得意音通先天就占據(jù)了背靠清華的獨特優(yōu)勢,其研發(fā)部門現(xiàn)有員工近40人,主要負(fù)責(zé)聲紋識別、語音識別、智能客服等技術(shù)相關(guān)產(chǎn)品的研發(fā)與改進(jìn),團(tuán)隊中本科以上學(xué)歷的工程師占89%以上,其中還有幾位博士是鄭方在清華的學(xué)生。2015年7月,在國內(nèi)高校產(chǎn)學(xué)研一體化大力推廣的背景下,清華大學(xué)以知識產(chǎn)權(quán)入股正式成為了得意音通的股東。同年10月,公司還與清華大學(xué)信息技術(shù)研究院語音和語言技術(shù)中心聯(lián)合建立了“清華-得意音通聲紋處理聯(lián)合實驗室(JLVPP)。
而除了“聲密保”外,得意音通共有15項發(fā)明專利技術(shù),在聲紋識別方面,包括:聲紋辨認(rèn)快速算法方面的專利,主要適用于國防、公安、司法等根據(jù)語音從大規(guī)模聲紋庫中檢索嫌疑人的應(yīng)用;聲紋識別的訓(xùn)練和識別方面的基礎(chǔ)算法專利;基于聲紋識別、人臉識別以及同步活體檢測的身份認(rèn)證方法,這也是聲密保的加強版,該專利結(jié)合聲紋識別和人臉識別技術(shù),利用語音和唇語同步檢測來確認(rèn)用戶真實發(fā)音,從而提高遠(yuǎn)程身份認(rèn)證的可靠性,防止假冒;聲密保與指紋相結(jié)合的專利,這也是聲密保的加強版;防錄音攻擊的聲紋識別專利,可以有效防止錄音及錄音拼接攻擊;以及聲紋自學(xué)習(xí)的國際專利,可以應(yīng)對聲紋隨著年齡發(fā)生緩慢變化的情形等等。
按鄭方的話說,“在推出產(chǎn)品前,我們前期做的準(zhǔn)備工作就是構(gòu)筑了一道厚厚的‘專利墻’”。
用科學(xué)的思維做商業(yè)
可見,無論是在民用的商業(yè)市場還是在政府單位的公務(wù)市場,聲紋識別都有著相當(dāng)大的用武之地。那么,該如何打入這些市場呢。技術(shù)出身的鄭方?jīng)]有上過一天的商學(xué)院,但他凡事愛琢磨的性格還是讓他由學(xué)者、科研人員的身份向商人的身份做了成功的轉(zhuǎn)型。
“許多知識理論其實都是相通的,研究技術(shù)如此,研究商業(yè)也是如此,所以我就想能不能把研究技術(shù)時對問題進(jìn)行分析、拆解、推導(dǎo)等思路和方法論也用在商業(yè)推廣上,這樣我就知道每一步該做什么了”,鄭方說。
事實證明,這種方法不但走得通,而且還讓他找到了許多問題的關(guān)鍵點,比如一開始他就貼近了市場需求,并且根據(jù)實際情況不斷的改進(jìn)提升產(chǎn)品。“事實上,科研成果轉(zhuǎn)化成商業(yè)產(chǎn)品最難的地方也就在這里,因而許多實驗室里的研究成果不能有效地轉(zhuǎn)化成量產(chǎn)的產(chǎn)品。往往科研成果是科研成果,商品還是那些商品,從實驗室向市場化邁進(jìn)的過程中出現(xiàn)了斷裂,所以那時候我就跟我的團(tuán)隊說,我們從一開始就要立足于市場,要以解決實際需求的初衷來研發(fā)產(chǎn)品,而不能一味的沉浸在科研本身上”。
本著這樣的思路,鄭方找到了他在金融領(lǐng)域的第一個大客戶,中國建設(shè)銀行。2009年,得意音通的聲紋識別技術(shù)安裝到了建行的95533聲紋身份認(rèn)證系統(tǒng)上,在一段時間的試運營和測試后,成功的實現(xiàn)了客戶的零投訴率,這也讓鄭方信心倍增,決定要把服務(wù)銀行系統(tǒng)作為他市場化推廣的第一步,集中火力把產(chǎn)品進(jìn)行更廣泛的應(yīng)用。
在建行95533聲紋識別服務(wù)的運營期間,公司的“聲密保”技術(shù)還沒有被發(fā)明出來,當(dāng)時系統(tǒng)抓取的只是客戶的聲紋,而并不關(guān)注客戶所講的內(nèi)容,而且需要抓取時間較長,所以那時在建行辦理業(yè)務(wù)的客戶往往需要講至少十秒鐘的話,而且講話的內(nèi)容全需要自己想,這就在產(chǎn)品的體驗上產(chǎn)生了瑕疵,也不能有效防止錄音闖入。
“所以建行當(dāng)時就給我們提意見,十秒鐘時間太長、很多客戶都不知道說點什么好,能不能縮短抓取時間、提高產(chǎn)品的性能。這樣,我們就持續(xù)改進(jìn),直到研發(fā)出了聲密保,建行就滿意了”,鄭方回憶說。
眼下,讓鄭方高興的好消息是:今年5月,建行將在普通客戶中全面地開始應(yīng)用聲紋識別服務(wù);而現(xiàn)階段,他的團(tuán)隊也正在與中國銀聯(lián)洽談合作打造一個開放平臺,屆時所有的銀行系統(tǒng)都可以在這個平臺上使用這個技術(shù),那也就意味著公司在銀行、金融系統(tǒng)的推廣取得了巨大進(jìn)展。
可以說,經(jīng)過了七年的努力和改進(jìn)之后,市場告訴作為商人的鄭方,第一步路走對了。
希望公司做有意義的事
而接下來的第二步,就是如何構(gòu)筑強有力的商業(yè)模式。
通過與建行的合作,得意音通進(jìn)入民用市場已經(jīng)有了良好的基礎(chǔ),接下來,鄭方的思路是,繼續(xù)深耕民用市場,為進(jìn)入政府公務(wù)市場做準(zhǔn)備,“我們的政府客戶涉及國防、公安、司法等機構(gòu),市場空間非常廣闊,但公務(wù)市場這塊的進(jìn)入會比較慢,因為它要受到很多法律規(guī)則的限制,所以眼下我們在民用市場這塊集中發(fā)力,為將來切入公務(wù)市場做技術(shù)儲備”。
而“聲密保云平臺”,就是他實現(xiàn)核心目標(biāo)的重要步驟。
“我們的云平臺現(xiàn)在都是免費面向客戶的,以促使更多的客戶了解、熟悉和掌握聲紋認(rèn)證系統(tǒng)的使用。這樣做的好處是:一方面可以幫助我們擴大宣傳;另一方面,我們將來可以和這些客戶談合作,實現(xiàn)多種形式的雙贏的盈利方式”。
談到這,鄭方信心滿滿,而他自信的源泉,則來自于得意音通在行業(yè)內(nèi)拿的多個第一。2013年,在由工信部主辦的“中國語音產(chǎn)業(yè)年會”上,其“聲密保”語音支付產(chǎn)品榮獲了“2013年中國語音創(chuàng)新產(chǎn)品獎”;2014年,再次憑借“聲密保”榮獲了CTI論壇頒發(fā)的“2014年度編輯推薦獎”。
而鄭方本人,則是CCC(國際中文語言資源聯(lián)盟)理事長、中國中文信息學(xué)會語音信息專業(yè)委員會主任委員,NCMMSC(全國人機語音通訊學(xué)術(shù)會議)常設(shè)機構(gòu)委員會主席等,并先后參與負(fù)責(zé)起草了工信部的《自動聲紋識別(說話人識別)技術(shù)規(guī)范》、公安部的《安防生物特征識別應(yīng)用術(shù)語》和《安防聲紋確認(rèn)應(yīng)用算法技術(shù)要求和測試方法》等行業(yè)標(biāo)準(zhǔn),可以說,是一個絕對的業(yè)內(nèi)大咖。
在去年8月北京汽車集團(tuán)產(chǎn)業(yè)投資有限公司完成對得意音通的A+輪融資后,鄭方眼下并不急于吸納新的融資,他的目標(biāo),是先把產(chǎn)品做精、把服務(wù)和推廣做好,爭取在今年內(nèi)與更多的金融機構(gòu)和社保單位等領(lǐng)域達(dá)成合作,完成他在民用市場的初步布局。
最后,當(dāng)記者問他對未來公司發(fā)展的構(gòu)想時,他笑言自己還沒有想那么長遠(yuǎn),只是盡力把當(dāng)下該做的事情做好,如果有愿望,就是希望公司的產(chǎn)品是對社會是有用、有價值的,“做公司不只是為了賺錢,我們一路走下來,艱難的事情也很多,最終堅持到了現(xiàn)在,就是希望我們的產(chǎn)品能夠為大眾提供安全、方便、可靠的身份認(rèn)證服務(wù),未來公司董事長是不是我都不重要,但我們尋找的,一定是跟我們志同道合、有社會責(zé)任感的合作伙伴,不然我肯定不能把公司交出去撒手不管。”
說到這,褪去商人的身份,鄭方大學(xué)教授、科學(xué)家的性格基因又跳脫出來了……