欧美,精品,综合,亚洲,好吊妞视频免新费观看,免费观看三级吃奶,一级a片女人自慰免费看

您當(dāng)前的位置是:  首頁 > 新聞 > 國(guó)際 >
 首頁 > 新聞 > 國(guó)際 >

微軟語音識(shí)別技術(shù)再突破!識(shí)別能力超越專業(yè)聽打記錄員

2017-08-23 11:25:05   作者:   來源:iThome   評(píng)論:0  點(diǎn)擊:


微軟語音識(shí)別技術(shù)再突破!識(shí)別能力超越專業(yè)聽打記錄員
  繼去年微軟宣布,自行開發(fā)的語音識(shí)別技術(shù)可以達(dá)到與人類相當(dāng)?shù)乃疁?zhǔn)后,近日又宣布,該語音識(shí)別技術(shù)的準(zhǔn)確度,已經(jīng)正式超越人類,并發(fā)布了詳細(xì)的技術(shù)報(bào)告。
  微軟語音和對(duì)話研究團(tuán)隊(duì)在去年10月宣布,運(yùn)用業(yè)界常用的電話錄音測(cè)試集Switchboard,微軟語音識(shí)別技術(shù)錯(cuò)誤率為5.9%,辨識(shí)能力可以達(dá)到人類的水準(zhǔn),近日則宣布,該語音識(shí)別技術(shù)的錯(cuò)誤率已經(jīng)降至5.1%,正式超越專業(yè)的聽打記錄人員。
  語音識(shí)別準(zhǔn)確度超越人類,是微軟過去25年,一直想要達(dá)成的目標(biāo),微軟所采用的電話對(duì)話錄音測(cè)試集Switchboard,是語音研究社群采用了超過20年的測(cè)試語音識(shí)別系統(tǒng)標(biāo)準(zhǔn),開發(fā)語音識(shí)別系統(tǒng)的過程,城程式需要自動(dòng)記錄不同人講不同議題的對(duì)話,像是體育或是政治等。
  與去年發(fā)布的正確率相比,微軟用一系列的工具來改善類神經(jīng)網(wǎng)路聲學(xué)和語言模型,將此系統(tǒng)的錯(cuò)誤率講低,像是,增加了一項(xiàng)結(jié)合卷積式網(wǎng)路和雙向的長(zhǎng)短期記憶演算法的CNN-BLSTM,雙向的長(zhǎng)短期記憶演算法是一種時(shí)間遞歸神經(jīng)網(wǎng)絡(luò)(RNN),來改善聲學(xué)模型。
  此外,微軟還透過聲音的辨識(shí)單元Senone、Frame,以及單詞,結(jié)合多個(gè)聲學(xué)模型的預(yù)測(cè),作為語音識(shí)別的方法,并利用過去歷史對(duì)話紀(jì)錄,增強(qiáng)語音識(shí)別的語言模型,來預(yù)測(cè)對(duì)話接下來會(huì)講的字詞,如此一來,可以模型更能夠有效地判斷對(duì)話的主題和內(nèi)容。
  這項(xiàng)語音識(shí)別是仰賴微軟自家的深度學(xué)習(xí)框架CNTK2.1版,并利用微軟的云端計(jì)算的基礎(chǔ)架構(gòu),特別是Azure GPUs,大幅地提升訓(xùn)練模型的效率,也能快速地測(cè)試新設(shè)計(jì)的演算法。
  微軟表示,雖然系統(tǒng)辨識(shí)Switchboard的錯(cuò)誤率已經(jīng)達(dá)到只有5.1%,是一個(gè)非常大的突破,不過,未來還有許多可以繼續(xù)鉆研的問題,像是如何讓機(jī)器像人一樣,在吵雜的環(huán)境下,辨識(shí)出有腔調(diào)的語音、不同風(fēng)格的說話方式和語言。
  微軟希望可以這項(xiàng)研究結(jié)果應(yīng)用在微軟自家的產(chǎn)品和服務(wù)上,像是語音個(gè)人助理Cortana和認(rèn)知服務(wù)等。未來,不只讓機(jī)器記錄語音內(nèi)容,還要能理解對(duì)話的意思和意圖,從語音識(shí)別到理解語意,是微軟接下來主要發(fā)展的語音科技目標(biāo)。
【免責(zé)聲明】本文僅代表作者本人觀點(diǎn),與CTI論壇無關(guān)。CTI論壇對(duì)文中陳述、觀點(diǎn)判斷保持中立,不對(duì)所包含內(nèi)容的準(zhǔn)確性、可靠性或完整性提供任何明示或暗示的保證。請(qǐng)讀者僅作參考,并請(qǐng)自行承擔(dān)全部責(zé)任。

專題