語音識別,就是讓機器通過分析和理解過程把語音信號轉變?yōu)橄鄳奈谋净蛎畹募舛思夹g。語音識別是一門交叉學科,所涉及的領域包括:信號處理、模式識別、概率論和信息論、發(fā)聲機理和聽覺機理、人工智能等等。語音識別技術與語音合成技術一同成為實現(xiàn)人機語音通信,建立有聽和講能力的語音系統(tǒng)所必需的兩項關鍵技術。
捷通華聲ASR核心引擎是針對特定語言的識別軟件模塊,該軟件模塊是整個ASR軟件的核心模塊。核心模塊接收其他模塊的設置,并根據(jù)設置內容對語音數(shù)據(jù)進行識別,并將識別結果列表返回給調用模塊。返回的識別結果列表,包含一組識別結果--識別信心值對,以供調用模塊使用。
捷通華聲ASR語音識別技術具有以下特點:
- 支持語種:廣泛支持中英文識別;
- 識別率:高針對漢語普通話,連續(xù)語音識別率可以達到90%以上,支持語音打斷功能與端點檢測功能;
- 識別速度:采用實時識別方式,實現(xiàn)語音數(shù)據(jù)的傳輸和識別的同步,實時率可達0.5以下。
- 可定制:定制模型的識別率可達到95%以上
- 詞表長度:大詞表長度可達到百萬以上(可根據(jù)需要擴展);
- 音頻格式:用于進行語音識別的輸入語音格式為:16K*8Bit A-Law、16K*8 Bit u-Law、16K*16 Bit PCM;
- 識別方式:支持詞表識別、語法識別和自由說識別。
- 語法功能:可以在加載多個語法文件的情況下,同時激活多個語法文件,讀取單個詞條,從多個語法文件中得出單個詞條的識別結果。
- 支持云端識別和本地端識別。