近 年 來(lái) , 由 于 電 腦 在 軟 件 上 的 長(zhǎng) 足 進(jìn) 步 , 類 似 電 視 影 集 霹 靂 游 俠 中 李 麥 克 與 霹 靂 車 伙 計(jì) 之 間 能 夠 使 用 人 類 語(yǔ) 言 和 電 腦 溝 通 的 情 節(jié) 已 不 再 是 夢(mèng) 想 , 語(yǔ) 音 辨 識(shí) 科 技 這 一 兩 年 來(lái) 已 慢 慢 從 實(shí) 驗(yàn) 室 里 的 研 究 走 入 到 我 們 的 生 活 之 中 。 聲 碩 科 技 通 過(guò) 臺(tái) 灣 大 學(xué) 李 琳 山 教 授 在 中 文 語(yǔ) 音 辨 識(shí) 方 面 研 究 成 果 , 專 注 于 語(yǔ) 音 辨 識(shí) 技 術(shù) 的 商 品 化 , 目 前 是 華 人 地 區(qū) 唯 一 掌 握 中 文 語(yǔ) 音 辨 識(shí) 核 心 并 推 出 產(chǎn) 品 的 公 司 。
什 么 是 語(yǔ) 音 辨 識(shí)
語(yǔ) 音 辯 識(shí) 最 基 本 的 定 義 , 就 是 “ 電 腦 能 聽(tīng) 懂 人 類 說(shuō) 話 的 語(yǔ) 句 或 命 令 , 而 做 出 相
對(duì) 應(yīng) 的 工 作 ” 。 也 就 是 說(shuō) , 如 果 電 腦 配 置 有 “ 語(yǔ) 音 辨 識(shí) ” 的 程 序 組 , 那 么 當(dāng) 你
的 聲 音 通 過(guò) 一 個(gè) 轉(zhuǎn) 換 裝 置 輸 入 電 腦 內(nèi) 部 、 并 以 數(shù) 位 方 式 儲(chǔ) 存 后 , 語(yǔ) 音 辨 識(shí) 程 序
便 開(kāi) 始 以 你 輸 入 的 聲 音 樣 本 與 事 先 儲(chǔ) 存 好 的 聲 音 樣 本 進(jìn) 行 對(duì) 比 工 作 。 聲 音 對(duì) 比
工 作 完 成 之 后 , 電 腦 就 會(huì) 輸 入 一 個(gè) 它 認(rèn) 為 最 “ 象 ” 的 聲 音 樣 本 序 號(hào) , 就 可 以 知
道 你 剛 才 念 的 聲 音 是 什 么 意 義 , 進(jìn) 而 執(zhí) 行 此 命 令 。 說(shuō) 起 來(lái) 簡(jiǎn) 單 , 但 要 真 正 建 立
辨 識(shí) 率 高 的 語(yǔ) 音 辨 識(shí) 程 序 組 , 卻 是 非 常 困 難 而 專 業(yè) 的 , 世 界 各 地 的 學(xué) 者 們 也 還
在 努 力 研 究 最 好 的 方 式 。 例 如 , “ 聲 音 樣 本 ” 要 如 何 建 立 呢 ? 簡(jiǎn) 單 來(lái) 說(shuō) , 如 果
要 辨 識(shí) 10 個(gè) 字 , 那 就 是 先 把 這 10 個(gè) 字 的 聲 音 念 入 電 腦 中 , 存 成 10 個(gè) 參 考 樣 本
, 辨 識(shí) 時(shí) , 只 要 把 本 次 所 念 的 聲 音 ( 測(cè) 試 樣 本 ) 與 事 先 存 好 的 10 個(gè) 參 考 樣 本 一
一 對(duì) 比 , 找 出 與 測(cè) 試 樣 本 最 象 的 樣 本 , 即 可 把 測(cè) 試 樣 本 辨 識(shí) 出 來(lái) ; 問(wèn) 題 是 , 每
個(gè) 使 用 者 念 入 電 腦 的 語(yǔ) 音 長(zhǎng) 度 、 音 調(diào) 、 頻 率 都 不 一 樣 ; 甚 至 同 一 個(gè) 人 , 盡 管 每
次 都 念 相 同 的 聲 音 , 但 波 形 卻 也 不 盡 相 同 , 如 果 在 一 個(gè) 有 雜 音 的 環(huán) 境 中 , 那 情
況 就 更 糟 了 。 因 此 , 專 家 學(xué) 者 們 研 究 出 許 多 破 解 這 個(gè) 問(wèn) 題 的 方 法 , 如 傅 立 葉 轉(zhuǎn)
換 、 倒 頻 譜 參 數(shù) 等 , 使 目 前 的 語(yǔ) 音 辨 識(shí) 系 統(tǒng) 已 達(dá) 到 一 個(gè) 可 接 受 的 程 度 , 并 且 辨
識(shí) 度 愈 來(lái) 愈 高 。
語(yǔ) 音 辨 識(shí) 技 術(shù) 的 應(yīng) 用 層 面
電 腦 軟 件 是 目 前 最 被 視 廣 為 應(yīng) 用 的 方 向 。 例 如 : 語(yǔ) 音 命 令 、 語(yǔ) 音 輸 入 , 對(duì) 話 系 統(tǒng) 、 查 詢 系 統(tǒng) 、 教 學(xué) 軟 件 、 游 戲 軟 件 等 。
消 費(fèi) 性 電 子 產(chǎn) 品
-- 例 如 : 電 子 記 事 本 、 聲 控 玩 具 、 語(yǔ) 音 拔 號(hào) 功 能 的 手 機(jī) 等 。
工 業(yè) 產(chǎn) 品
-- 例 如 : 車 用 移 動(dòng) 電 話 、 車 用 導(dǎo) 航 系 統(tǒng) 等 。
電 話 系 統(tǒng) -- 例 如 : 語(yǔ) 音 辨 識(shí) 總 機(jī) 服 務(wù) 、 語(yǔ) 音 拔 號(hào) 、 語(yǔ) 音 訂 票 訂 位 等 。
SpeechDirect SDK
聲 碩 科 技 在 1999 年 初 開(kāi) 發(fā) 了 "SpeechDirect SDK" 語(yǔ) 音 辨 識(shí) 應(yīng) 用 軟 件 開(kāi) 發(fā) 工 具
, 利 用 這 套 開(kāi) 發(fā) 工 具 , 電 腦 軟 件 開(kāi) 發(fā) 廠 商 可 以 開(kāi) 發(fā) 出 各 式 各 樣 的 語(yǔ) 音 相 關(guān) 應(yīng) 用
軟 件 。 “ SpeechDirect SDK ” 語(yǔ) 音 辨 識(shí) 應(yīng) 用 軟 件 開(kāi) 發(fā) 工 具 可 以 提 供 電 腦 軟 件 廠
商 一 個(gè) 簡(jiǎn) 單 易 用 的 語(yǔ) 音 辨 識(shí) 程 序 界 面 , 開(kāi) 發(fā) 關(guān) 于 語(yǔ) 音 控 制 、 自 然 語(yǔ) 音 資 料 庫(kù) 搜
尋 、 及 中 文 連 續(xù) 語(yǔ) 音 輸 入 等 等 的 應(yīng) 用 。 其 內(nèi) 含 的 中 文 語(yǔ) 音 辨 識(shí) 引 擎 可 以 支 援 單
詞 辨 識(shí) ( ISR,Isolated Speech Recognition ) 、 關(guān) 健 詞 辨 識(shí) ( KWS,Keyword-Spotting
) 、 甚 至 連 續(xù) 語(yǔ) 音 辨 識(shí) ( CSR,Continuous speech recognition ) 。 此 外 還 支
援 電 腦 合 成 語(yǔ) 音 的 功 能 ( TTS , Text-To-Speech ) 可 將 文 字 轉(zhuǎn) 為 語(yǔ) 音 , 使 電 腦
不 僅 能 夠 聽(tīng) 得 懂 人 說(shuō) 的 話 而 已 , 更 可 以 用 人 的 語(yǔ) 言 與 人 類 溝 通 。 聲 碩 科 技 的 語(yǔ)
音 辨 識(shí) 引 擎 在 語(yǔ) 音 控 制 方 面 ( 包 括 單 詞 辨 識(shí) 及 關(guān) 鍵 詞 辨 識(shí) ) , 不 需 要 口 音 訓(xùn) 練
即 可 使 用 , 可 避 免 因 口 音 訓(xùn) 練 而 帶 給 使 用 者 的 不 便 。
“SpeechDirect” 語(yǔ) 音 引 擎 主 要 包 含 下 列 功 能 :
語(yǔ) 音 命 令 控 制 ( Voice Command & Control ) 功 能 。
關(guān) 鍵 詞 辨 識(shí) ( Keyword-Spotting ) 功 能 。
文 字 轉(zhuǎn) 語(yǔ) 音 ( Text-To-Speech,TTS ) 功 能 。
連 續(xù) 語(yǔ) 音 辨 識(shí) ( Continuous Speech Recognition,CSR ) 功 能 。
在 語(yǔ) 音 辨 識(shí) 率 方 面 , 使 用 語(yǔ) 音 命 令 功 能 的 辨 識(shí) 率 大 概 在 90%--95% 之 間 , 下 表 顯 示 語(yǔ) 音 命 令 的 個(gè) 數(shù) 與 辨 識(shí) 率 之 間 的 關(guān) 系 。
|
|
|
|
|
|
|
|
|
|
|
|
“SpeechDirect” 語(yǔ) 音 辨 識(shí) 引 擎 的 特 色 有 :
支 援 單 詞 語(yǔ) 音 辨 識(shí) ( ISR,Isolatod Speech Recognition ) 和 關(guān) 鍵 詞 辨 識(shí) ( KWS,Key word-Spotting ) 功 能 。 這 兩 種 模 式 可 用 來(lái) 發(fā) 展 語(yǔ) 音 命 令 和 語(yǔ) 音 查 詢 等 應(yīng) 用 。
支 援 連 續(xù) 語(yǔ) 音 辨 識(shí) ( CSR,Continuous Speech Recognition ) 功 能 。 此 模 式 可 用 來(lái) 發(fā) 展 語(yǔ) 音 聽(tīng) 寫(xiě) 輸 入 ( voice dictation ) 方 面 的 應(yīng) 用 。
支 援 文 字 轉(zhuǎn) 語(yǔ) 音 ( TTS,Text-To-Speech ) 功 能 。 利 用 此 功 能 可 用 語(yǔ) 音 來(lái) 告 知 使 用 者 相 關(guān) 訊 息 以 發(fā) 展 更 互 動(dòng) 性 的 軟 件 。
支 援 使 用 特 定 說(shuō) 話 者 的 聲 音 模 型 和 資 源 設(shè) 定 值 , 所 以 語(yǔ) 音 引 擎 可 以 根 據(jù) 個(gè) 別 說(shuō) 話 者 的 聲 音 差 異 來(lái) 調(diào) 整 辨 識(shí) 參 數(shù) 設(shè) 定 。
無(wú) 語(yǔ) 音 資 料 記 憶 體 大 小 限 制 , 使 用 者 可 持 續(xù) 作 語(yǔ) 音 辨 識(shí) 而 不 用 擔(dān) 心 語(yǔ) 音 資 料 過(guò) 多 造 成 記 憶 體 爆 滿 。
使 用 者 可 動(dòng) 態(tài) 地 在 程 序 中 改 變 所 使 用 的 語(yǔ) 音 模 型 及 詞 庫(kù) 而 達(dá) 到 最 大 的 方 便 性 與 彈 性 。
使 用 者 可 在 程 序 中 動(dòng) 態(tài) 地 增 加 或 刪 除 詞 匯 , 進(jìn) 而 定 義 新 詞 或 自 己 專 屬 的 詞 匯 。
使 用 callback 的 方 式 來(lái) 通 知 應(yīng) 用 程 式 辨 識(shí) 結(jié) 果 以 使 辨 識(shí) 更 有 效 率 。
在 同 一 應(yīng) 用 程 序 中 可 使 用 好 幾 個(gè) 辨 識(shí) 引 擎 物 件 , 例 如 有 多 條 電 話 線 的 情 況 之 下 , 可 對(duì) 多 個(gè) 來(lái) 源 的 聲 音 同 時(shí) 進(jìn) 行 辨 識(shí) 。
采 用 不 同 的 執(zhí) 行 緒 ( thread ) 來(lái) 執(zhí) 行 不 同 的 工 作 以 增 進(jìn) 辨 識(shí) 的 效 率 。
使 用 C ++ 物 件 模 型 程 序 界 面 ( C ++ object model programming interface ) 的 設(shè) 計(jì) 方 式 , 以 物 件 導(dǎo) 向 程 序 設(shè) 計(jì) ( object-oriented programming ) 的 方 式 使 程 序 發(fā) 展 及 維 護(hù) 更 為 容 易 。
使 用 者 可 以 根 據(jù) 其 應(yīng) 用 程 序 的 需 求 來(lái) 調(diào) 整 辨 識(shí) 引 擎 的 參 數(shù) 以 調(diào) 整 辨 識(shí) 引 擎 的 效 能 及 準(zhǔn) 確 率 。
支 援 語(yǔ) 音 播 放 及 存 檔 的 功 能 。
支 援 單 詞 語(yǔ) 音 辨 識(shí) ( ISR,Isolatod Speech Recognition ) 和 關(guān) 鍵 詞 辨 識(shí) ( KWS,Key word-Spotting ) 功 能 。 這 兩 種 模 式 可 用 來(lái) 發(fā) 展 語(yǔ) 音 命 令 和 語(yǔ) 音 查 詢 等 應(yīng) 用 。
支 援 連 續(xù) 語(yǔ) 音 辨 識(shí) ( CSR,Continuous Speech Recognition ) 功 能 。 此 模 式 可 用 來(lái) 發(fā) 展 語(yǔ) 音 聽(tīng) 寫(xiě) 輸 入 ( voice dictation ) 方 面 的 應(yīng) 用 。
支 援 文 字 轉(zhuǎn) 語(yǔ) 音 ( TTS,Text-To-Speech ) 功 能 。 利 用 此 功 能 可 用 語(yǔ) 音 來(lái) 告 知 使 用 者 相 關(guān) 訊 息 以 發(fā) 展 更 互 動(dòng) 性 的 軟 件 。
支 援 使 用 特 定 說(shuō) 話 者 的 聲 音 模 型 和 資 源 設(shè) 定 值 , 所 以 語(yǔ) 音 引 擎 可 以 根 據(jù) 個(gè) 別 說(shuō) 話 者 的 聲 音 差 異 來(lái) 調(diào) 整 辨 識(shí) 參 數(shù) 設(shè) 定 。
無(wú) 語(yǔ) 音 資 料 記 憶 體 大 小 限 制 , 使 用 者 可 持 續(xù) 作 語(yǔ) 音 辨 識(shí) 而 不 用 擔(dān) 心 語(yǔ) 音 資 料 過(guò) 多 造 成 記 憶 體 爆 滿 。
使 用 者 可 動(dòng) 態(tài) 地 在 程 序 中 改 變 所 使 用 的 語(yǔ) 音 模 型 及 詞 庫(kù) 而 達(dá) 到 最 大 的 方 便 性 與 彈 性 。
使 用 者 可 在 程 序 中 動(dòng) 態(tài) 地 增 加 或 刪 除 詞 匯 , 進(jìn) 而 定 義 新 詞 或 自 己 專 屬 的 詞 匯 。
使 用 callback 的 方 式 來(lái) 通 知 應(yīng) 用 程 式 辨 識(shí) 結(jié) 果 以 使 辨 識(shí) 更 有 效 率 。
在 同 一 應(yīng) 用 程 序 中 可 使 用 好 幾 個(gè) 辨 識(shí) 引 擎 物 件 , 例 如 有 多 條 電 話 線 的 情 況 之 下 , 可 對(duì) 多 個(gè) 來(lái) 源 的 聲 音 同 時(shí) 進(jìn) 行 辨 識(shí) 。
采 用 不 同 的 執(zhí) 行 線 程 ( thread ) 來(lái) 執(zhí) 行 不 同 的 工 作 以 增 進(jìn) 辨 識(shí) 的 效 率 。
使 用 C ++ 物 件 模 型 程 序 界 面 ( C ++ object model programming interface ) 的 設(shè) 計(jì) 方 式 , 以 物 件 導(dǎo) 向 程 序 設(shè) 計(jì) ( object-oriented programming ) 的 方 式 使 程 序 發(fā) 展 及 維 護(hù) 更 為 容 易 。
使 用 者 可 以 根 據(jù) 其 應(yīng) 用 程 序 的 需 求 來(lái) 調(diào) 整 辨 識(shí) 引 擎 的 參 數(shù) 以 調(diào) 整 辨 識(shí) 引 擎 的 效 能 及 準(zhǔn) 確 率 。
支 援 語(yǔ) 音 播 放 及 存 檔 的 功 能 。
下 圖 為 語(yǔ) 音 識(shí) 別 引 擎 的 系 統(tǒng) 結(jié) 構(gòu) :
聲 碩 科 技 的 “ SpeechDirect ” 語(yǔ) 音 辨 識(shí) 應(yīng) 用 軟 件 發(fā) 展 工 具 ( SDK ) 為 一 個(gè) 包 含 最 先 進(jìn) 中 文 語(yǔ) 音 辨 識(shí) 引 擎 的 應(yīng) 用 軟 件 發(fā) 展 工 具 , 其 目 的 是 幫 助 在 微 軟 視 窗 作 業(yè) 系 統(tǒng) 發(fā) 展 應(yīng) 用 軟 件 的 廠 商 , 能 快 速 而 簡(jiǎn) 易 地 將 語(yǔ) 音 辨 識(shí) 功 能 加 進(jìn) 他 們 的 軟 件 中 。 “ SpeechDirect SDK ” 提 供 一 個(gè) 簡(jiǎn) 單 易 用 的 語(yǔ) 音 應(yīng) 用 程 序 界 面 ( speech API, Application Programming Interface ) 給 使 用 者 作 語(yǔ) 音 辨 識(shí) 上 的 應(yīng) 用 , 同 時(shí) 又 不 失 使 用 上 的 彈 性 和 擴(kuò) 充 性 , “ SpeechDirect SDK ” 的 內(nèi) 容 除 了 聲 碩 科 技 的 中 文 語(yǔ) 音 辨 識(shí) 引 擎 外 , 還 包 括 使 用 說(shuō) 明 文 件 、 范 例 程 序 、 相 關(guān) 工 具 及 語(yǔ) 音 資 料 庫(kù) 、 教 育 訓(xùn) 練 和 技 術(shù) 咨 詢 支 援 等 等 。
下 列 為 建 議 的 系 統(tǒng) 需 求 :
操 作 系 統(tǒng) Microsoft Windows95,Window98 或 WindowsNT 。
CPU : Pentium III 處 理 器
內(nèi) 存 32 MB 以 上 。
與 Windows 相 容 的 16 位 聲 卡 及 喇 叭 。
品 質(zhì) 良 好 的 麥 克 風(fēng) 。
聲 碩 科 技 將 持 續(xù) 提 升 語(yǔ) 音 辨 識(shí) 的 正 確 率 , 并 朝 電 話 語(yǔ) 音 辨 識(shí) 及 語(yǔ) 音 集 成 的 方 向 發(fā) 展 , 此 外 , 也 會(huì) 開(kāi) 發(fā) 支 援 微 軟 語(yǔ) 音 程 序 界 面 ( SAPI ) 的 語(yǔ) 音 辨 識(shí) 引 擎 , 使 語(yǔ) 音 程 序 界 面 標(biāo) 準(zhǔn) 化 。
主要語(yǔ)音引擎及開(kāi)發(fā)工具 2002-01-30 |
聲揚(yáng)語(yǔ)音識(shí)別系列開(kāi)發(fā)工具 2002-01-30 |
ASR:“說(shuō)得出做得到” 2002-01-30 |
IBM ViaVoice語(yǔ)音軟件開(kāi)發(fā)工具 2002-01-30 |
語(yǔ)音識(shí)別的應(yīng)用前景 2002-01-30 |