該技術可廣泛應用于呼叫中心及IoT設備交互等應用中,通過快速安全的驗證用戶的身份,強化操作的安全性和便利性。
【開發(fā)背景】
聲紋識別是生物認證領域的一個重要分支。由于具有可遠程操作的獨特優(yōu)勢,在金融業(yè)電話銀行業(yè)務、智能家居、刑偵安防等領域中,基于聲紋的身份認證方式已經逐漸被認可,并成為防欺詐的一個重要手段。在呼叫中心業(yè)務中,顧客常常需要輸入密碼或通過回答一系列的問題來驗證其身份。這種問詢式身份驗證過程平均需要60秒以上的時間,既影響了客服的工作效率,又給顧客帶來厭煩情緒。因此,開發(fā)一種安全有效的遠程身份驗證方式,將大幅提升呼叫中心的運營效率,降低其運營成本。
【課題】
傳統(tǒng)的聲紋識別技術,依靠統(tǒng)計學和信號處理技術從語音中提取與說話人特質相關的特征,以此實現(xiàn)身份認證。然而,該技術往往需要較長的語音才能鑒定說話人的身份,例如30秒時長。在金融業(yè)呼叫中心及IoT設備交互等應用中,需要快速驗證用戶的身份,傳統(tǒng)的聲紋識別技術顯然不能滿足這種需求。此外,傳統(tǒng)的認證方式不能防止利用他人的錄音來假冒身份的欺詐行為。
【開發(fā)的方法】
(1)采用深度學習技術有效降低語音時長
傳統(tǒng)的聲紋識別技術通常將語音分割成小片段(一般為20ms左右,稱為一幀),然后,利用上千個高斯模型,從每一個語音片段中甄別出與說話人相關的特征。由于高斯模型數(shù)目多、維度高,因此,只有當語音數(shù)據(jù)足夠多時,這種統(tǒng)計方法才能獲得有效的說話人特征。如圖1所示,深度學習技術能同時處理多幀語音片段,從中學習與說話人特有的特征。由于處理的語音長度增加,因此,其包含了更多的與發(fā)音方式相關的特征,例如語調變化、停頓、音頻等。所以,這種上下文技術能大大降低身份認證所需要的語音長度。
(2)融合說話人特征與語音內容
本技術中,我們采用兩個深度學習模型,分別提取和說話人本身相關的特征以及語音內容進行身份驗證,從而實現(xiàn)了“語音密碼”功能,即:只有說話人本人正確說出預先設定的內容時,其身份才能被接受,如圖2所示。采用固定的語音密碼,一方面能防止利用他人的錄音來假冒身份的欺詐行為,此外,還能幫助提取更有效的說話人特征。例如:某人的語音密碼中包含了音節(jié)[a],而此人對音節(jié)[a]的發(fā)音模式與他人不同,那么,這個特定的模式就被說話人模型所學習,成為區(qū)分此人的一個重要特征。即使他人知道了語音密碼,由于音節(jié)[a]的發(fā)音模式不同,其身份也不能被接受。
【效果】
由于充分利用了上下文信息,我們的技術只需要2-3秒的語音片段就可以甄別出說話人的身份。雖然語音長度變短了,但是,我們的技術依然可以達到較高的識別精度。在一個由200人組成的數(shù)據(jù)集上,身份認證的錯誤率可低至2.2%左右。
【將來】
FRDC今后會將本技術應用于金融保險等行業(yè)的呼叫中心,向客戶提供高效安全的身份認證解決方案。此外,F(xiàn)RDC還將繼續(xù)推進和擴大聲紋認證在監(jiān)獄親情電話管理中的應用。