說話的奇妙之處在于,有時候重要的不是看說了什么,而是要看是怎么說的。擁有四聲和平仄的中文尤為如此。這一點,聽到過客戶尖酸刻薄的挖苦之話的客服接線員想必感觸最深。自動語音系統(tǒng)無法識別這種語氣方面的細微差別,所以各個公司不得不維系大量的人工客服人員。不過英國的初創(chuàng)企業(yè)EI Technologies正在研發(fā)的一種語音識別平臺有望讓機器的理解里取得突破,該平臺可通過音質(zhì)分析來識別情緒,據(jù)說其準(zhǔn)確率已經(jīng)超過了人耳的平均水平。
EI的技術(shù)可以分析人聲的音調(diào),更加注重“聲學(xué)特征”而非言語內(nèi)容—其最初的目的是幫助一款移動應(yīng)用根據(jù)和監(jiān)控用戶的情緒。這款移動應(yīng)用名字叫做Xpression,今年年末會推出封閉內(nèi)測版,主要面向Quantified Self的成員提供。“量化自我”的目的在于找出個人的生活方式是如何影響其幸福的。不過其主要功能是作為這項技術(shù)的試驗臺,找出平臺最可行的業(yè)務(wù)場景。
這種技術(shù)可以改進人機交互體驗,增強自動響應(yīng)的正確率,在呼叫中心、醫(yī)療保健等垂直領(lǐng)域均有應(yīng)用空間。
之所以首先選擇發(fā)布量化自我的應(yīng)用而不是直奔垂直領(lǐng)域,是因為這個技術(shù)關(guān)乎對潛在客戶群的認識能力。發(fā)布量化自我的應(yīng)用有助于消費者了解這項技術(shù)及其能力,也能有助于公司了解技術(shù)有多好,需要做到什么程度。
通過識別并恰當(dāng)響應(yīng)語言內(nèi)容和情緒來增強自然語言處理算法似乎是人工智能系統(tǒng)的下一步發(fā)展方向!躲y翼殺手》里面的復(fù)制人的致命缺陷正是缺乏“移情(empathy)”能力,F(xiàn)在EI的技術(shù)正幫助機器朝著具備“移情”能力邁出一小步—首先學(xué)會感受人類的情緒。不過相對于那個宏大的目標(biāo),目前EI主要關(guān)注于實用性的,近期有可能實現(xiàn)的商業(yè)機會,所以系統(tǒng)只會選擇性地識別部分情緒,僅針對特定的場景。
目前系統(tǒng)可識別5種基本情緒:高興、悲傷、害怕、憤怒及無感情。識別的準(zhǔn)確率約為70-80%左右,這個數(shù)字要高于人類60%的平均水平。而受過訓(xùn)練的心理學(xué)家的判斷準(zhǔn)確率約為70%,從這些數(shù)據(jù)來看,EI的算法準(zhǔn)確率已經(jīng)非常可觀。其未來目標(biāo)是進一步提高到80-90%。
系統(tǒng)首先會找出“關(guān)鍵聲學(xué)特征”,然后將其與一個分類系統(tǒng)進行對照檢錄,從而匹配出5種情緒中的一種。這里面運用了機器學(xué)習(xí)和大量的數(shù)學(xué)。此外,EI還聘請了東英格蘭大學(xué)的語音識別專家Stephen Cox來調(diào)整算法效果。此前該教授曾參與過蘋果和Nuance公司的語音識別系統(tǒng)研發(fā)。
當(dāng)然,要想識別出反感、厭倦等更為復(fù)雜的情緒,EI將面臨更多的挑戰(zhàn)。因為這些情緒涉及的聲音信號更加微妙。不過,從商業(yè)角度來看,集中于那五種基本情緒更有意義。
從事情緒識別研究的公司不止EI一家。以色列的初創(chuàng)企業(yè)Beyond Verbal、MIT的Cogito也是少數(shù)競爭者之一。不過這些競爭對手的目標(biāo)略有不同,其關(guān)注點是識別出某人希望被感知到的方式,而非即刻的“情緒層”。EI與競爭對手的區(qū)別還在于,EI的技術(shù)是作用于客戶端設(shè)備的,而其他的競爭對手則需要云處理技術(shù),這意味著必須連接到網(wǎng)上才能發(fā)揮作用。無需聯(lián)網(wǎng)的特點令EI的技術(shù)可被運用到汽車等對象上。
EI目前從孵化器Wayra London和英國政府的Technology Strategy Board拿到了15萬英鎊的種子期融資,計劃明年2月進行下一輪的融資。