不心动挑战美女视频,柳岩被啪的视频

　　由CTI論壇(m.yh9t5.com)主辦的2021中國呼叫中心及企業(yè)通信大會(huì)[http://m.yh9t5.com/expo/2021/ccec2021spring/index.html]于4月15日在北京遼寧大廈成功召開。本次會(huì)議以“5G時(shí)代共筑企業(yè)通信云生態(tài)”為主題。深圳黃鸝智能科技有限公司CEO 劉志應(yīng)邀出席此次會(huì)議并發(fā)表題為《智能化背景下語音前端技術(shù)的新挑戰(zhàn)》的主題演講。隨著5G、人工智能和物聯(lián)網(wǎng)的發(fā)展，疊加疫情對人類生產(chǎn)生活方式的影響，聲音通信和交互的重要性不斷凸顯。但復(fù)雜噪聲環(huán)境會(huì)大大降低聲音通信的質(zhì)量和體驗(yàn)，同時(shí)會(huì)導(dǎo)致語音識(shí)別的準(zhǔn)確率嚴(yán)重下降。因此，聲音采集的是否清晰，是聲音通信和語音交互的關(guān)鍵點(diǎn)同時(shí)也是技術(shù)難點(diǎn)。如何應(yīng)對這一挑戰(zhàn)？黃鸝智能總經(jīng)理劉志先生將分享他的觀點(diǎn)。

圖：深圳黃鸝智能科技有限公司CEO 劉志
▲演講PPT下載，pdf格式

　　(以下為演講實(shí)錄，略有刪減)

　　劉志：大家下午好！感謝CTI論壇提供這樣一個(gè)機(jī)會(huì)給大家講講我們在做的事情，以及為什么要做這件事，我的演講題目是“智能化背景下語音前端技術(shù)的新挑戰(zhàn)”，這個(gè)題目大家看著可能會(huì)比較疑惑，希望隨著我的演講和大家一起來探討和交流這個(gè)課題。

　　說到語音識(shí)別相信大家都不陌生，現(xiàn)場做個(gè)調(diào)查，家里有語音識(shí)別設(shè)備的希望舉一下手，基本上都舉手了，覺得好用的請舉手，這就少了很多啊。我本人2000年就開始做語音識(shí)別，是國內(nèi)比較早做語音識(shí)別的一批，07年我們轉(zhuǎn)到其他的方向了，當(dāng)時(shí)發(fā)現(xiàn)語音識(shí)別領(lǐng)域坑太多了，但今天我還在做和語音相關(guān)的方向，還有很多和我一起的人在看好這個(gè)行業(yè)，在不斷的投入，為什么？因?yàn)槁曇粽娴奶匾�！心理學(xué)研究表明，聲音傳遞的信息和視覺傳遞的信息是可比的，很大程度上它們二者是交融在一起的，在人類感知世界當(dāng)中，單純由聲音傳遞的信息占了25%，而和圖像加在一起相結(jié)合的又有40%，可以說聲音傳遞的信息是感知世界獲取信息非常重要的手段，但是今天聲音的價(jià)值遠(yuǎn)遠(yuǎn)沒有發(fā)揮出來。

　　今天，在呼叫中心和企業(yè)辦公領(lǐng)域，智能語音技術(shù)對企業(yè)開始帶來很多新的價(jià)值，它可以幫助消除繁重的電話量、幫助企業(yè)保持品牌輸出一致性，一旦員工在打電話的時(shí)候沒有傳遞出品牌所需要的信息，可以及時(shí)提醒他，還可以幫助企業(yè)管理合規(guī)性問題，幫助企業(yè)有效利用數(shù)據(jù)資產(chǎn)，以前很多企業(yè)掌握了大量的聲音數(shù)據(jù)，但是卻不知道如何應(yīng)用，客戶在這些聲音當(dāng)中到底表達(dá)了什么、他們想傳遞什么信息、想獲得什么等等，過往的信息無法用，今天語音分析都可以幫助企業(yè)創(chuàng)造這些價(jià)值。而語音分析對于客戶價(jià)值更大，它可以幫助客戶更好的解決問題，任何一個(gè)人都不是萬能的，我們能夠記住的問題是有限的，企業(yè)厚厚的FAQ一個(gè)人都想背下來是不可能的，但是AI可以做得更好；語音分析還可以創(chuàng)造價(jià)值，從用戶聲音信息當(dāng)中傳遞了用戶面臨的問題，通過虛擬客服可以發(fā)掘這些問題背后的價(jià)值，最終對于客戶來說語音分析可以幫助提升體驗(yàn)，客戶最終看重的是我被服務(wù)的感受好不好、體驗(yàn)好不好、是不是解決問題了，今天我們很多服務(wù)系統(tǒng)會(huì)讓用戶選擇：十分滿意請按1、不滿意請按2，但通過語音分析，我們可以在整個(gè)服務(wù)過程中就自然的得出結(jié)論，用戶是否真的滿意。

　　這些都是我們認(rèn)為語音智能可以帶來的價(jià)值，我們也堅(jiān)信未來這些都是可以做到的，但是今天的實(shí)際場景中會(huì)是怎么樣呢？

　　我們播放一些噪聲場景中錄制的真實(shí)語音，有多少人可以聽出里面說了什么呢？這段錄音中分別有四段噪聲，第一段是白噪聲，第二段是工廠噪聲、第三段是多人說話場景噪聲、第四段是音樂噪聲。在這樣的噪聲場景中，語音識(shí)別的準(zhǔn)確率會(huì)怎樣，可以請大家看看。這是一個(gè)語音識(shí)別系統(tǒng)對上面語音識(shí)別后的結(jié)果，我們說的是“現(xiàn)在是白噪聲，現(xiàn)在是工廠噪聲，現(xiàn)在是babble噪聲、黃鸝智能，用聲音智能改善人類生活與工作品質(zhì)”，但識(shí)別的結(jié)果就如圖所示了，可以看到，有噪聲之后語音識(shí)別的準(zhǔn)確率直線下降。

　　這個(gè)場景雖然是一個(gè)模擬的場景，但是實(shí)際上我們?nèi)粘９ぷ骱蜕钪羞@樣的場景無時(shí)無處不在。我跑過很多高峰期的職場，實(shí)際觀察了人們工作的環(huán)境，發(fā)現(xiàn)大家坐在一起都在給客戶通話，這種多人說話場景，大家相互干擾的情況很普遍；在公交車、地鐵上、路過廣場大街的時(shí)候，這些場景其實(shí)在身邊每天都存在著。我們想從這樣的聲音中把想要的內(nèi)容提取出來，是不是面臨著很大的困難？這就需要聲音前端處理的技術(shù)。什么是聲音前端處理技術(shù)，我們說平時(shí)我們接觸到的聲音價(jià)值發(fā)揮大部分是后端的部分，比如語音識(shí)別、聲紋識(shí)別、通過聲音識(shí)別情感，聲音通信也可以看做聲音的后端應(yīng)用，但是很少會(huì)關(guān)注前端的部分，前端通俗來說就是降噪，但實(shí)際上遠(yuǎn)遠(yuǎn)不止降噪，因?yàn)槌私翟脒€要做信息的增強(qiáng)；而噪聲種類非常多，包括廣義上的回聲、混響都可以看成是噪聲，對于前端的工作而言，最核心的就是兩點(diǎn)，一是把不想要的噪聲清除掉，二是保留原來聲音當(dāng)中的有用信息，保證有用的聲音盡可能不失真，這是兩個(gè)最核心的目的。

　　噪聲背景下怎么樣把有用的聲音提取出來，這是前端所要處理的最核心的功能。那么復(fù)雜噪聲場景怎么把聲音提取出來，面臨著怎樣的挑戰(zhàn)？首先第一個(gè)挑戰(zhàn)，也是做聲音前端處理工作中我感受到的最大的挑戰(zhàn)，就是要解決強(qiáng)降噪和低失真之間的矛盾。一方面要把噪聲降下來、要強(qiáng)降噪，很多噪聲場景，性噪比達(dá)到了負(fù)的分貝，噪聲能量和我說話的聲音能量是相當(dāng)?shù)�、甚至更高，這種情況下如何降噪，但更重要的是，降噪的同時(shí)也要保證聲音的低失真，因?yàn)榻翟肴菀讓δ繕?biāo)信號(hào)造成影響，很多噪聲降得非常好、但是失真也很嚴(yán)重，這樣在通信和人機(jī)交互場景是遠(yuǎn)遠(yuǎn)不行的，這是前端處理的第一個(gè)挑戰(zhàn)，在我看來也是最大的一個(gè)挑戰(zhàn)。

　　第二個(gè)挑戰(zhàn)是噪聲的種類帶來的挑戰(zhàn)，處理噪聲的很多方法對于某一種或某幾種類型的噪聲是管用的，但是對于其他的噪聲就束手無策了。尤其困難的是人聲干擾的問題，因?yàn)楹驼f話人聲音是同樣的頻段如何消除人聲，這是第二個(gè)挑戰(zhàn)，在各種場景下都要適用的話，要求提升了不止一個(gè)量級(jí)。

　　第三個(gè)挑戰(zhàn)，處理速度與通信交互實(shí)時(shí)性的矛盾。今天很多新的方法出現(xiàn)，但是效果比較好的同時(shí)也面臨著處理速度的挑戰(zhàn)，用聲音來傳遞聲音傳遞價(jià)值都有實(shí)時(shí)性要求，說完一句話之后過五分鐘機(jī)器才有反應(yīng)，這是實(shí)際應(yīng)用無法接受的。

　　接下來我播放一下今天主流的前端技術(shù)對剛才同樣場景的處理結(jié)果（播放音頻），這是處理后的效果：第一確實(shí)降噪了，各種噪聲都有一定程度上能量的降低；第二不同噪聲也有不同的效果，前面兩種噪聲降得比較好，后面兩種噪聲殘留比較多一些；第三是強(qiáng)噪聲的地方聲音有失真。這是人的感受，那么看看機(jī)器的感受（也就是機(jī)器的識(shí)別結(jié)果），我們看到，前兩種噪聲環(huán)境處理后識(shí)別準(zhǔn)確率提升了，但是對于后面兩種噪聲，前端處理還產(chǎn)生了反作用，識(shí)別出來的內(nèi)容已經(jīng)和原來說話的含義完全無關(guān)了。

　　這是今天聲音前端處理中非常常見的情況，也就是說，降噪的同時(shí)引入了失真，會(huì)導(dǎo)致機(jī)器的識(shí)別甚至比不降噪效果更差，還是達(dá)不到我們想要的結(jié)果。

　　那么黃鸝智能的解決方案是什么？我們瞄準(zhǔn)最核心的點(diǎn)是在強(qiáng)降噪的同時(shí)保證聲音低失真。我在做語音識(shí)別的時(shí)候就身受噪聲的困擾，我們在實(shí)驗(yàn)室環(huán)境做得非常好，拿到實(shí)際應(yīng)用場景中識(shí)別率就慘不忍睹，從那時(shí)候開始我們團(tuán)隊(duì)一直在研究怎么樣能夠把降噪和聲音保真這兩件事同時(shí)處理好。我們自己總結(jié)出了一套行之有效的方法，發(fā)現(xiàn)傳統(tǒng)的信號(hào)處理的方法更多模擬人耳的特性，深度學(xué)習(xí)更多的模擬大腦的特性，實(shí)際上它們各自有優(yōu)勢、也各自有缺點(diǎn)，需要有一套方法把二者整合在一起，這也是我們一直以來研究的方向。

　　把里面關(guān)鍵環(huán)節(jié)打通后，我們確實(shí)發(fā)現(xiàn)得到了不一樣的結(jié)果，幾個(gè)核心特點(diǎn)：

　　一是高降噪的同時(shí)保證低失真。

　　二是高可靠的同時(shí)保證低延時(shí)。

　　三是高性能同時(shí)保證是可以普及的方案。

　　這是我們的技術(shù)和其他技術(shù)測試對比的結(jié)果，我們關(guān)注的是兩個(gè)關(guān)鍵指標(biāo)：一是降噪能力、二是失真程度。降噪用什么來衡量呢？用ANR指標(biāo)衡量（環(huán)境噪聲抑制指標(biāo)衡量），低失真衡量用“MOS分”衡量。我們的技術(shù)可以做到降噪達(dá)到40分貝的同時(shí)，保證不同噪聲環(huán)境下聲音的質(zhì)量分能夠保持在4分左右，5分是滿分，MOS分在4到5分是優(yōu)秀。這個(gè)數(shù)字大家可能沒什么真實(shí)的感受，我們來聽一下我們技術(shù)采集的聲音效果（播放聲音）。這個(gè)聲音有幾個(gè)特點(diǎn)，第一是噪聲降得很干凈、第二失真雖然有，但是失真足夠低，讓人聽得很清楚，那機(jī)器能不能聽清楚呢？。我們看到僅有的錯(cuò)誤在于把babble識(shí)別成了babu，所有其他部分的識(shí)別都是準(zhǔn)確的。

　　所以說真正想要把聲音前端處理這個(gè)點(diǎn)做好，我們就必須同時(shí)關(guān)注噪聲降低以及聲音的保真這兩點(diǎn)，因?yàn)楝F(xiàn)在更多的應(yīng)用不僅是人與人間的通信，也更多的在關(guān)注人機(jī)交互，而只有把　　這兩點(diǎn)同時(shí)做好，才能同時(shí)保障人與人之間的通信是清晰傳達(dá)的，對于機(jī)器而言也可以保證更好的識(shí)別。

　　我們做了更多數(shù)據(jù)集上的測試，從圖中可以看到，今天典型的語音識(shí)別系統(tǒng)，安靜環(huán)境下識(shí)別率在90%以上，但性噪比在0分貝的時(shí)候，如果不做降噪處理的話，語音識(shí)別率就下降到70%左右，而使用了我們的技術(shù)進(jìn)行聲音采集后，在0分貝的情況下識(shí)別準(zhǔn)確率可以回到90%的水準(zhǔn)上。這樣可以有效提升噪聲環(huán)境下語音識(shí)別的識(shí)別率，同時(shí)保證客戶只聽到提供服務(wù)人員清晰的聲音，提升客戶的體驗(yàn)。

　　今天用語音識(shí)別設(shè)備的人很多，但滿意的有多少？我自己是語音領(lǐng)域深度的用戶，我家里面的智能音箱有七八個(gè)，但我的孩子都說這不是人工智能，這可能是人工智障（笑）！但我作為一個(gè)智能語音行業(yè)的從業(yè)者，知道語音智能系統(tǒng)中的難點(diǎn)，其中的每一點(diǎn)進(jìn)步都需要大量的科研人員在各種不同場景下做各種各樣的測試，從而取得一點(diǎn)一點(diǎn)的進(jìn)步，今天我們也能夠看到語音行業(yè)從業(yè)者這么多年依然在堅(jiān)持不懈的努力，因?yàn)槲覀儓?jiān)信聲音的價(jià)值。今天我們的技術(shù)也不是所有的噪聲場景都可以很好的解決，但是我們正在一個(gè)一個(gè)場景下取得突破和進(jìn)步。

　　這就是我們，黃鸝智能！2019年8月份剛剛成立公司，很不幸就趕上了疫情，去年4月份才推出首款產(chǎn)品，但去年一年時(shí)間里，我們已經(jīng)讓很多不同行業(yè)的客戶認(rèn)識(shí)了我們、也認(rèn)可了我們！去年我們推出了幾款有線耳機(jī)產(chǎn)品，今年我們會(huì)推出藍(lán)牙耳機(jī)，未來我們將繼續(xù)拓展拾音降噪的應(yīng)用場景，也希望今后論壇當(dāng)中可以不斷和大家分享我們的進(jìn)展和新的收獲。

　　我們企業(yè)的小伙伴們都堅(jiān)信聲音智能是能夠有效的改善人類生活和工作品質(zhì)的，它真的是一項(xiàng)非常有前景、非常有價(jià)值的技術(shù)，也是非常好的發(fā)展方向，需要更多的人來投入、有更多人提意見、有更多人對這樣一項(xiàng)技術(shù)敢于嘗試。我們的愿望是和行業(yè)里面所有合作伙伴一起，讓聲音的智能化場景越來越落地、越來越多的被應(yīng)用起來，因?yàn)橹挥袘?yīng)用才能發(fā)現(xiàn)問題、只有應(yīng)用才能解決問題。

　　我們永不止步因?yàn)樵胍魺o處不在！謝謝大家！

欧美,精品,综合,亚洲,好吊妞视频免新费观看,免费观看三级吃奶,一级a片女人自慰免费看

黃鸝智能劉志：智能化背景下語音前端技術(shù)的新挑戰(zhàn)

評論排行

推薦閱讀

專題

大家都在看

CTI論壇會(huì)員企業(yè)