Voicesense公司向其客戶做出了一個(gè)有趣的承諾:提供給該公司某個(gè)人的聲音,該公司就能告訴我們這個(gè)人將會(huì)做什么。該以色列公司可在通話中使用實(shí)時(shí)語音分析來評估某人是否有可能拖欠銀行貸款、是否會(huì)購買更昂貴的產(chǎn)品或是否能成為工作的最佳競選者。
這是眾多試圖挖掘聲音中的私人信息的公司之一。近些年來,尤其隨著家庭助手廣受消費(fèi)者歡迎,如亞馬遜Alexa,研究者和初創(chuàng)企業(yè)都注意到了聲音中蘊(yùn)含著豐富的信息。據(jù)商業(yè)分析公司IdTechEx的一份報(bào)告,語音技術(shù)市場正在不斷增長,預(yù)計(jì)到2019年市值將達(dá)到155億美元。麻省理工學(xué)院麥戈文大腦研究中心一位對心理健康研究聲音頗有興趣的科學(xué)家Satrajit Ghosh表示:聲音在生活中無處不在,幾乎每個(gè)人都會(huì)說話,而很多設(shè)備如手機(jī),Alexa和谷歌家庭等設(shè)備都可捕捉聲音。
聲音不僅無處不在,而且很個(gè)人化,也很難被偽造。在家中人們會(huì)使用Alexa,在醫(yī)院里語音助手的使用也越來越普及,F(xiàn)在很多人都知道Twitter和Instagram上的帖子將會(huì)被監(jiān)控,但很少有人認(rèn)為聲音是另一種形式的數(shù)據(jù),它可告知我們關(guān)于我們自己的信息,也可把我們的信息泄露給他人。這些都引發(fā)了一系列令人興奮的研究,這些研究主要聚焦于聲音信息如何豐富生活,從聲音中獲取的信息是否準(zhǔn)確,又將如何使用這些信息等隱私方面的問題。
語音分析的關(guān)鍵不在于人們說了什么,而在于人們是怎么說的,如語調(diào)、語速、重音以及停頓。語音分析的訣竅是機(jī)器學(xué)習(xí)。通過機(jī)器將倆組被標(biāo)記的樣本信息,如有焦慮癥和無焦慮癥輸入到同一個(gè)算法之中,然后該算法學(xué)習(xí)捕捉到可表明某人是屬于A組或B組的細(xì)微語音信息,之后在新的樣本上可采用同樣的方法來進(jìn)行辨識。
卡內(nèi)基梅隆大學(xué)的一位計(jì)算機(jī)科學(xué)家Louis-Philippe Morency表示結(jié)果有時(shí)候會(huì)與直覺相悖。Morency創(chuàng)建了一項(xiàng)名為SimSensei的項(xiàng)目,該項(xiàng)目可通過語音來探測抑郁癥。Morency團(tuán)隊(duì)表示,在將聲音特征與試圖再次自殺的可能性相關(guān)聯(lián)的早期研究中,他們發(fā)現(xiàn)相比發(fā)出緊張或憤怒的聲音的人,發(fā)出輕柔呼吸聲的人更有可能試圖再次自殺。不過,該項(xiàng)研究仍處于初步階段,而且關(guān)聯(lián)性通常也不那么簡單。通常來說只有算法能識別出來聲音信息所包含的復(fù)雜特征及模式。
Voicesense公司可提供關(guān)于健康行為、工作行為、及娛樂等方面的預(yù)測。
盡管研究還處于初步階段,研究人員已構(gòu)建了可利用語音來幫助識別帕金森癥和創(chuàng)傷后應(yīng)激障礙等疾病的算法。對很多人來說,這項(xiàng)技術(shù)的最大前景在于將語音分析和心理健康相結(jié)合,從而創(chuàng)建出簡單的方式來監(jiān)控疾病并且?guī)椭切┯袕?fù)發(fā)風(fēng)險(xiǎn)的人。
布里格姆婦女醫(yī)院數(shù)字行為健康項(xiàng)目的負(fù)責(zé)人David Ahern表示,精神患者在住院時(shí)會(huì)受到密切的監(jiān)控,但很多精神狀況的變化都發(fā)生在日常生活中,而日常生活會(huì)慢慢地讓人疲勞。在這種情況下,曾被診為抑郁癥的人可能都不會(huì)意識到自己變得再次抑郁了。當(dāng)人們不處于任何健康系統(tǒng)監(jiān)控下,這種情況就會(huì)發(fā)生。如果病情惡化到要去急診室的地步,就可能無法挽回了。從理念方面來說,創(chuàng)造出可監(jiān)測健康行為的口袋傳感器很可能就是一個(gè)早期預(yù)警系統(tǒng),作用將十分強(qiáng)大。
Ahern還是去年12月推出的心理健康監(jiān)控系統(tǒng)Companion Mx臨床試驗(yàn)的首席研究員。該系統(tǒng)目前僅對醫(yī)生和患者開放,其他初創(chuàng)企業(yè)如SondeHealth和Ellipsis Health,也有著創(chuàng)建類似心理健康監(jiān)控系統(tǒng)的目標(biāo);颊呖墒褂肁pp錄下音頻日記,然后程序可分析這些日記以及通話記錄和位置等元數(shù)據(jù),從而確定患者在抑郁情緒、興趣減退、回避和疲勞等四因素上的得分以及追蹤隨時(shí)間變化而變化的數(shù)據(jù)。這些信息受聯(lián)邦隱私法HIPAA保護(hù),但會(huì)告知患者并在面板上呈現(xiàn)給密切關(guān)注患者病情的醫(yī)生。
據(jù)CompanionMx首席執(zhí)行官Sub Datta稱,該公司已對產(chǎn)品進(jìn)行了長達(dá)七年的試驗(yàn),試驗(yàn)患者超過1500名。該產(chǎn)品由另外一家語音分析公司Cogito研發(fā),已獲得DARPA(美國國防高級研究計(jì)劃局)及國家心理健康研究院的資金支持。發(fā)表于《醫(yī)學(xué)互聯(lián)網(wǎng)研究雜志》上的研究結(jié)果表明,該項(xiàng)技術(shù)可預(yù)測抑郁癥和PTSD(創(chuàng)傷后壓力心理障礙癥)的癥狀,不過還需要進(jìn)一步的驗(yàn)證。
Datta還說到,在前期試驗(yàn)中,95%的患者每周至少會(huì)留下一次音頻日記,醫(yī)生每天至少會(huì)查看面板一次。盡管Ahern指出哪一部分最有用(是App本身嗎?是反饋嗎?是面板?還是它們的組合?)上仍有很多問題,但這些數(shù)據(jù)都代表著希望。研究還在繼續(xù)中,其他結(jié)果還尚未公布。CompanionMx還計(jì)劃與衛(wèi)生保健組織合作,并在退役軍人事務(wù)部中尋求機(jī)遇。
與此同時(shí),Voicesense、CallMiner、RankMiner、以及CompanionMx昔日的母公司Cogito等企業(yè)承諾在商業(yè)中使用語音分析。大多數(shù)時(shí)候這意味著提高呼叫中心的客戶服務(wù)參與度,但Voicesense有著更遠(yuǎn)大的夢想。Voicesense公司CEOYoavDegani表示現(xiàn)在該公司已能生成完整的個(gè)性檔案,但他的計(jì)劃遠(yuǎn)不止安撫不滿的客戶。該公司對很多業(yè)務(wù)都頗感興趣,如貸款違約預(yù)測、保險(xiǎn)索賠預(yù)測、客戶投資風(fēng)格揭示、內(nèi)部人力資源候選人評估以及員工離職評估。Degani還表示公司可提供關(guān)于健康行為、工作行為、娛樂等方面的預(yù)測,雖然不會(huì)百分百準(zhǔn)確,但大部分時(shí)候都是準(zhǔn)確無誤的。
在Degani分享的一個(gè)案例研究中,Voicesense與一家大型歐洲銀行合作對其技術(shù)進(jìn)行了測試。銀行向Voicesense提供了幾千名債務(wù)人的語音樣本(銀行已知道誰拖欠了貸款,誰沒有拖欠)。Voicesense在這些樣本中運(yùn)算其算法,并把錄音分為低風(fēng)險(xiǎn)、中風(fēng)險(xiǎn)和高風(fēng)險(xiǎn)三類。在此項(xiàng)分析中,預(yù)測為低風(fēng)險(xiǎn)組中僅有6%違約,而預(yù)測為高風(fēng)險(xiǎn)組中有27%違約。在另一項(xiàng)考察臨時(shí)員工離職可能性的評估研究中,算法歸為低風(fēng)險(xiǎn)類中僅有13%離職,而高風(fēng)險(xiǎn)組有高達(dá)39%的員工離職。
當(dāng)算法算錯(cuò)會(huì)發(fā)生什么?
麻省理工科學(xué)家Ghosh表示這些都是合理的應(yīng)用,于他而言沒有什么是危險(xiǎn)的。但與任何預(yù)測性技術(shù)一樣,如果分析做的不好,就很容易過度概括。一般來說,除非看到有證據(jù)表明某件事在很多人身上以及這一類人群上得到了驗(yàn)證,否則很難將某人的說法認(rèn)為是理所當(dāng)然。除非采樣足夠多,否則聲音的特征會(huì)有相當(dāng)大的差異,這也是為什么該公司不會(huì)做出強(qiáng)烈聲明的原因。
CEODegani還表示Voicesense的語音處理算法每秒可測量200多個(gè)參數(shù),而且在很多不同語言上包括像普通話這樣的聲調(diào)語言都能測量準(zhǔn)確。目前該公司的項(xiàng)目還處于試點(diǎn)階段,但該公司與很多大型銀行及投資者都保持著聯(lián)系。他還提到,每個(gè)人都被這項(xiàng)技術(shù)所吸引。
客戶服務(wù)僅是一方面,德萊克斯大學(xué)的一位犯罪學(xué)教授Robert D’Ovidio表示Voicesense設(shè)想的一些應(yīng)用可能具有歧視性。想象一下打電話給抵押貸款公司,貸款公司通過語音判斷你患心臟病的風(fēng)險(xiǎn)極高,然后由于你可能長時(shí)間不待在公司,你就會(huì)被歸類為高風(fēng)險(xiǎn)人群。
D’Ovidio教授還補(bǔ)充說到,應(yīng)建立消費(fèi)者保護(hù)法來防止這些信息被收集。他希望隨著人類的進(jìn)步,我們能意識到無論什么形式,比如電子表格中輸入的一行數(shù)字或是捕捉到的聲紋,這僅僅只是數(shù)據(jù)。但我們至少應(yīng)該要求當(dāng)信息如語音被使用時(shí)應(yīng)告知我們。此外,他希望看到在保護(hù)消費(fèi)者的規(guī)章制度上能有所進(jìn)展。
華盛頓大學(xué)法學(xué)院教授RyanCalo指出像這樣的消費(fèi)者保護(hù)措施是存在的。美國有些州如伊利諾伊州已有相關(guān)法律來保證生物識別如語音識別的安全。Calo還補(bǔ)充到,無論技術(shù)是被用于語音分析還是簡歷篩選,與種族或性別等敏感類相關(guān)的偏見問題是其特有的問題。但當(dāng)機(jī)器學(xué)習(xí)技術(shù)被用于面部或語音識別時(shí),人們內(nèi)心深處會(huì)感到不安,部分原因是由于這些特征都太個(gè)人化。盡管反歧視法真的存在,但當(dāng)使用信息及歧視(社會(huì)還未能充分解決的概念)都能接受時(shí),語音分析的很多方面會(huì)遇到更多問題。