Yobe想解決的,是語音領(lǐng)域目前的一個困境,語音助手可以識別出用戶在講什么,準(zhǔn)確度也不錯,但假設(shè)有人和用戶同時說話,其識別率就會大大降低,這被稱為“雞尾酒會問題”。就像在一場宴會上,背景過于嘈雜,語音識別就難以正常工作。
為此,Yobe建立了一個聲音驅(qū)動系統(tǒng),可以在嘈雜環(huán)境中,利用AI識別用戶的生物特征,進(jìn)而判斷并分離特定的聲音,自動提高這一特定聲音的音量,幫助語音識別引擎更好地工作。
2017年6月,Yobe公布了一段非常簡短的技術(shù)介紹視頻
在應(yīng)用上,Yobe計劃將技術(shù)授權(quán)給芯片或智能硬件制造商,第一步的推廣會從聲控設(shè)備開始。CEO Ken Sutton認(rèn)為,特定聲音識別技術(shù)的應(yīng)用場景很廣,可以用于會議轉(zhuǎn)錄,幫助司法或鑒定,制造更好的助聽器,以及完善聲紋識別技術(shù)。
Sutton表示,目前技術(shù)研發(fā)已經(jīng)完成,下一步將簡化產(chǎn)品并投入市場。新產(chǎn)品會在一個月內(nèi)上線,將開發(fā)布會進(jìn)行現(xiàn)場演示。
與Yobe想解決的問題類似,今年4月,Google曾在博客上發(fā)文稱,正試圖復(fù)制“人類大腦專注于某個聲源,同時可過濾掉其他聲音”的能力。Google的技術(shù)主要集中在視頻處理上,讓用戶在一段視頻中選擇一個人臉,利用視覺組件觀察這個人的嘴,從而創(chuàng)建出其個人語音軌跡。當(dāng)然,谷歌的技術(shù)難度在于分離數(shù)段聲音,而Yobe主要完成的,更類似于AI降噪。
錘子的堅果3就聲稱利用了“AI通話智能降噪技術(shù)”,其供應(yīng)商大象聲科是基于計算機聽覺場景分析,通過深度學(xué)習(xí)技術(shù),來實現(xiàn)和噪音環(huán)境下語音增強。大象聲科表示,這項技術(shù)是世界第一款芯片級單音軌實時語音提取方案,已經(jīng)開始在手機通訊行業(yè)實現(xiàn)商用。
作為一項利用了AI的產(chǎn)品,計算資源占用和性能之間的平衡或許是Yobe最需要做好的。而以單一輔助技術(shù)作為出發(fā)點,在開拓市場之后,Yobe是給自己尋找一個好買家,還是以此為切入點進(jìn)入更廣的語音領(lǐng)域,也是我們接下來會關(guān)注的。