(圖片來源互聯(lián)網)
“輸入法從97%到98%準確率的識別效果,提升的只是一個點,這背后發(fā)生了什么?”訊飛輸入法之父翟吉博表示,識別準確率的提升有三個難點,一是使用場景多樣化,二是用戶習慣,三是中國漢字和文化的特殊性。針對這些難點,訊飛做了很多的努力,比如針對多樣化的場景,科大訊飛分別推出了長文本輸入、耳語輸入。針對用戶習慣和個性化,推出了個性化的訓練模型,中英文混合輸入,針對23種方言也推出了懂你懂鄉(xiāng)音等。
翟吉博表示,語音輸入更精準的方法離不開數(shù)據和算法。訊飛輸入法從人腦神經科學入手對人類記憶進行仿生,實現(xiàn)大量無監(jiān)督的數(shù)據去輔助有人工標注的數(shù)據。受圖像領域CNN應用的啟發(fā),科大訊飛獨家研發(fā)了深度全序列卷積神經網絡(Deep Fully Convolutional Neural Network,DFCNN)語音識別框架,使用大量的卷積層直接將語譜圖作為輸入,相比傳統(tǒng)語音特征作為輸入,有效降低信息損失,非常出色地表達語音的長時相關性。同時,借鑒了圖像識別中效果最好的網絡配置,每個卷積層使用3×3的小卷積核訓練更深的CNN模型,輸出單元直接與最終的識別結果(比如音節(jié)或漢字),從而使識別準確率顯著提升。
本次見面會的另一個重要環(huán)節(jié)是啟動“方言發(fā)音人招募”公益行動。經濟、文化活動的全球化以及區(qū)域經濟的迅速發(fā)展,導致主流語言或通用語言更加強勢,同時也使得弱勢語言的交際功能不斷衰弱,甚至瀕臨消亡。目前世界上的語言有6000~10000種,據語言學家預測,大部分語言將于本世紀末消失。因此,瀕危語言保護(以下簡稱為“語保”)已經成為了一項極重要而迫切的工作。
科大訊飛多語種高級研究員祖漪清在現(xiàn)場講述了方言勢微的現(xiàn)狀,她強調,利用人工智能技術進行瀕危語言、方言系統(tǒng)研究,是實現(xiàn)對一個語言的完整“復制”的重要方式。因此,本次媒體見面會上,科大訊飛正式啟動了“AI方言發(fā)音人招募”公益行動。