---- 計 算 機 語 音 合 成 系 統(tǒng) 又 稱 文 語 轉(zhuǎn) 換 系 統(tǒng)(TTS 系 統(tǒng)), 它 的 主 要 功 能 是 將 計 算 機 中 任 意 出 現(xiàn) 的 文 字 轉(zhuǎn) 換 成 自 然 流 暢 的 語 音 輸 出。 一 般 認 為, 語 音 合 成 系 統(tǒng) 包 括 三 個 主 要 的 組 成 部 分: 文 本 分 析 模 塊、 韻 律 生 成 模 塊 和 聲 學 模 塊。
----(1) 將 輸 入 的 文 本 規(guī) 范 化。 在 這 個 過 程 中, 要 查 找 拼 寫 錯 誤, 并 將 文 本 中 出 現(xiàn) 的 一 些 不 規(guī) 范 或 無 法 發(fā) 音 的 字 符 過 濾 掉。
----(2) 分 析 文 本 中 詞 或 短 語 的 邊 界, 確 定 文 字 的 讀 音, 同 時 分 析 文 本 中 出 現(xiàn) 的 數(shù) 字、 姓 氏、 特 殊 字 符、 專 有 詞 語 以 及 各 種 多 音 字 的 讀 音 方 式。
----(3) 根 據(jù) 文 本 的 結(jié) 構(gòu)、 組 成 和 不 同 位 置 上 出 現(xiàn) 的 標 點 符 號, 確 定 發(fā) 音 時 語 氣 的 變 換 以 及 不 同 音 的 輕 重 方 式。
----最 終, 文 本 分 析 模 塊 將 輸 入 的 文 字 轉(zhuǎn) 換 成 計 算 機 能 夠 處 理 的 內(nèi) 部 參 數(shù), 便 于 后 續(xù) 模 塊 進 一 步 處 理 并 生 成 相 應 的 信 息。
----傳 統(tǒng) 的 文 本 分 析 主 要 是 基 于 規(guī) 則(Rule based) 的 實 現(xiàn) 方 法。 其 主 要 思 路 是 盡 可 能 地 將 文 字 中 的 分 詞 規(guī) 范、 發(fā) 音 方 式 羅 列 起 來, 并 總 結(jié) 出 規(guī) 則, 依 靠 這 些 規(guī) 則 進 行 文 本 處 理, 以 獲 得 需 要 的 參 數(shù)。 具 有 代 表 性 的 方 法 有: 最 大 匹 配 法、 反 向 最 大 匹 配 法、 逐 詞 遍 歷 法、 最 佳 匹 配 法、 二 次 掃 描 法 等。 這 些 方 法 的 優(yōu) 點 在 于 結(jié) 構(gòu) 較 為 簡 單、 直 觀, 易 于 實 現(xiàn); 缺 點 是 需 要 大 量 的 時 間 去 總 結(jié) 規(guī) 則, 且 模 塊 性 能 的 好 壞 嚴 重 依 賴 于 設(shè) 計 人 員 的 經(jīng) 驗 以 及 他 們 的 背 景 知 識。 由 于 這 些 方 法 能 取 得 較 好 的 分 析 效 果, 因 此, 直 到 目 前, 它 們 依 然 被 廣 泛 使 用。
----但 是 近 幾 年 來, 隨 著 計 算 機 領(lǐng) 域 中 數(shù) 據(jù) 挖 掘 技 術(shù) 的 發(fā) 展, 許 多 統(tǒng) 計 學 方 法 以 及 人 工 神 經(jīng) 網(wǎng) 絡(luò) 技 術(shù) 在 計 算 機 數(shù) 據(jù) 處 理 領(lǐng) 域 中 獲 得 了 成 功 的 應 用, 計 算 機 從 大 量 數(shù) 據(jù) 中 自 動 提 取 規(guī) 律 已 完 全 可 能 并 正 在 實 現(xiàn)。 在 此 背 景 下, 出 現(xiàn) 了 基 于 數(shù) 據(jù) 驅(qū) 動(Data driven) 的 文 本 分 析 方 法, 具 有 代 表 性 的 有: 二 元 文 法 法(Di Grammar Method)、 三 元 文 法 法(Tri Grammar Method)、 隱 馬 爾 可 夫 模 型 法(HMM Method) 和 神 經(jīng) 網(wǎng) 絡(luò) 法(Neural Network Method) 等。 一 些 比 較 著 名 的 系 統(tǒng), 如IBM 的 語 音 產(chǎn) 品 就 采 用 了 隱 馬 爾 可 夫 模 型 法。 這 類 方 法 的 特 點 是, 設(shè) 計 人 員 根 據(jù) 統(tǒng) 計 學 或 人 工 神 經(jīng) 網(wǎng) 絡(luò) 方 面 的 知 識, 設(shè) 計 出 一 種 可 訓 練 的 模 型, 并 用 大 量 已 經(jīng) 存 在 的 數(shù) 據(jù) 去 訓 練, 將 訓 練 得 到 的 模 型 用 于 文 本 分 析, 而 系 統(tǒng) 設(shè) 計 人 員 并 不 需 要 太 強 的 語 言 學 背 景 知 識。 對 于 工 程 技 術(shù) 人 員 來 說, 這 類 方 法 無 疑 減 輕 了 他 們 研 究 語 言 學 的 負 擔。 目 前, 這 類 方 法 在 文 本 分 析 精 度 上, 已 達 到 或 部 分 超 過 了 基 于 規(guī) 則 系 統(tǒng) 的 分 析 結(jié) 果, 且 容 易 實 現(xiàn) 多 語 種 的 混 合, 因 而 越 來 越 廣 泛 地 被 接 受 并 使 用。 這 類 方 法 的 缺 點 在 于, 盡 管 系 統(tǒng) 容 易 獲 得 文 本 信 息 的 共 同 特 征, 但 忽 略 了 一 些 個 性, 而 往 往 這 些 個 別 因 素 對 最 終 的 發(fā) 音 方 式 影 響 很 大。 因 此, 有 些 系 統(tǒng) 采 取 了 兩 類 方 法 相 結(jié) 合 的 方 式。
----文 本 分 析 的 結(jié) 果 只 是 告 訴 了 計 算 機 發(fā) 什 么 音, 以 及 以 什 么 方 式 發(fā) 音, 這 種 發(fā) 音 方 式 還 只 是 抽 象 的。 而 要 發(fā) 音 的 聲 調(diào) 是 二 聲 還 是 三 聲, 是 重 讀 還 是 輕 讀, 到 哪 里 停 頓, 等 等, 這 些 最 終 系 統(tǒng) 用 來 進 行 聲 信 號 合 成 的 具 體 韻 律 參 數(shù) 還 要 依 靠 韻 律 生 成 模 塊。 與 文 本 分 析 的 實 現(xiàn) 方 法 相 類 似, 韻 律 的 生 成 方 法 也 分 為 基 于 規(guī) 則 和 數(shù) 據(jù) 驅(qū) 動 兩 種 方 法。
----早 期 的 韻 律 生 成 方 法 均 采 用 基 于 規(guī) 則 的 方 法。 這 種 方 法 要 求 研 究 人 員 有 大 量 的 音 韻 學 背 景 知 識, 需 要 對 在 各 種 特 定 的 情 況 下, 如 聲 音 在 句 子 中 的 不 同 位 置、 不 同 聲 調(diào) 及 句 子 的 不 同 語 氣 甚 至 是 不 同 的 詞 性 下, 對 基 頻、 時 長 和 音 強 等 各 個 聲 學 參 數(shù) 變 化 的 詳 細 情 況 加 以 總 結(jié)、 歸 納。 由 于 各 個 語 種 的 韻 律 特 征 不 同, 因 此, 針 對 不 同 的 語 種, 必 須 找 出 與 該 語 種 相 關(guān) 聯(lián) 的 韻 律 特 征。 目 前, 基 于 規(guī) 則 的 方 法 仍 然 被 認 作 是 行 之 有 效 的 方 法, 大 部 分 漢 語 語 音 合 成 系 統(tǒng) 依 然 采 用 這 種 方 法。 雖 然 經(jīng) 過 研 究 者 的 努 力, 這 種 方 法 能 達 到 較 好 的 韻 律 生 成 效 果, 但 它 也 受 到 很 多 限 制。 如 前 所 述, 基 于 規(guī) 則 的 方 法 要 求 系 統(tǒng) 設(shè) 計 人 員 花 費 大 量 的 時 間 和 精 力 去 研 究 不 同 語 種 普 遍 存 在 的 韻 律 特 征, 而 這 是 一 個 非 常 耗 時 的 工 作, 且 由 于 規(guī) 則 的 復 雜 性, 其 生 成 語 音 的 自 然 度 也 受 到 較 多 的 限 制, 也 就 限 制 了 它 的 一 些 性 能。 另 外, 基 于 規(guī) 則 的 系 統(tǒng) 方 法 往 往 只 追 求 發(fā) 音 的 自 然, 而 掩 蓋 了 人 的 個 性。 如 讓 系 統(tǒng) 模 擬 某 一 特 定 人 的 發(fā) 音, 就 顯 得 無 力, 除 非 是 針 對 專 人 設(shè) 計 的 一 些 專 用 模 型。
----目 前, 通 過 神 經(jīng) 網(wǎng) 絡(luò) 或 統(tǒng) 計 驅(qū) 動 的 方 法 進 行 韻 律 生 成 已 獲 得 成 功 的 應 用。Siemens 和Motorola 公 司 均 采 用 或 試 驗 了 此 技 術(shù)。 在 國 內(nèi), 清 華 大 學 計 算 機 系 在 這 方 面 也 進 行 了 大 量 的 研 究, 其 研 究 成 果 已 接 近 實 用 階 段。 其 實 現(xiàn) 步 驟 是: 首 先 設(shè) 計 或 收 集 一 個 包 含 大 量 語 音 和 文 本 信 息 的 數(shù) 據(jù), 然 后 建 立 一 個 訓 練 模 型, 并 用 從 數(shù) 據(jù) 庫 中 提 取 出 的 韻 律 參 數(shù) 對 模 型 進 行 訓 練, 通 過 訓 練 而 得 到 最 終 的 韻 律 模 型。 這 種 模 型 的 優(yōu) 點 在 于: 在 保 持 甚 至 增 強 了 系 統(tǒng) 的 韻 律 生 成 能 力 的 同 時, 極 大 地 改 善 了 整 個 語 音 合 成 系 統(tǒng) 的 靈 活 性, 便 于 模 擬 某 一 特 定 人 的 韻 律 特 征, 且 為 在 同 一 個 語 音 合 成 系 統(tǒng) 中 整 合 多 語 種 創(chuàng) 造 了 條 件。 事 實 上, 有 關(guān) 研 究 人 員 正 在 嘗 試 使 用 這 一 方 法 將 漢 語 和 其 他 西 方 語 言 整 合 到 一 套 系 統(tǒng) 上。
----圖1 和 圖2 分 別 反 映 了 基 于 規(guī) 則 和 基 于 數(shù) 據(jù) 驅(qū) 動 韻 律 模 型 的 建 立 與 工 作 過 程。
----系 統(tǒng) 產(chǎn) 生 的 合 成 語 音 是 通 過 一 個 聲 學 模 塊 來 具 體 實 現(xiàn) 的。 早 期 語 音 合 成 系 統(tǒng) 的 聲 學 模 型 多 是 通 過 模 擬 人 的 口 腔 的 聲 道 特 性 來 產(chǎn) 生 的。 其 中 比 較 著 名 的 有Klatt 的 共 振 峰(Formant) 合 成 系 統(tǒng), 后 來 又 產(chǎn) 生 了 基 于LPC、LSP 和LMA 等 聲 學 參 數(shù) 的 合 成 系 統(tǒng), 這 些 都 可 以 歸 結(jié) 為 參 數(shù) 合 成 系 統(tǒng)。 使 用 這 些 方 法 建 立 聲 學 模 型 的 過 程 是: 首 先 錄 制 聲 音, 這 些 聲 音 涵 蓋 了 人 發(fā) 音 過 程 中 所 有 可 能 出 現(xiàn) 的 讀 音; 然 后, 提 取 出 這 些 聲 音 的 聲 學 參 數(shù), 并 整 合 成 一 個 完 整 的 音 庫。 在 發(fā) 音 過 程 中, 首 先 根 據(jù) 發(fā) 音 需 要 從 音 庫 中 選 擇 合 適 的 聲 學 參 數(shù), 然 后 根 據(jù) 從 韻 律 模 型 中 得 到 的 韻 律 參 數(shù), 通 過 合 成 算 法 產(chǎn) 生 語 音。 參 數(shù) 合 成 方 法 的 優(yōu) 點 是 其 音 庫 一 般 較 小, 并 且 整 個 系 統(tǒng) 能 適 應 的 韻 律 特 征 的 范 圍 較 寬, 但 其 合 成 語 音 的 音 質(zhì) 卻 往 往 受 到 一 定 的 限 制。
----近10 年 來, 采 用 波 形 拼 接(PSOLA) 合 成 語 音 的 方 法 越 來 越 被 廣 泛 應 用。 這 種 方 法 的 核 心 思 想 是 直 接 對 存 儲 于 音 庫 的 語 音 運 用PSOLA 算 法 進 行 拼 接, 從 而 整 合 成 完 整 的 語 音。 有 別 于 傳 統(tǒng) 概 念 中 只 是 將 不 同 的 語 音 單 元 進 行 簡 單 拼 接, 該 系 統(tǒng) 首 先 要 在 大 量 語 音 庫 中, 選 擇 最 合 適 的 語 音 單 元 用 于 拼 接, 并 且 在 選 音 過 程 中 往 往 采 用 多 種 復 雜 的 技 術(shù), 包 括 多 項 統(tǒng) 計 學 上 的 技 術(shù) 或 神 經(jīng) 網(wǎng) 絡(luò) 技 術(shù), 最 后 在 拼 接 時, 使 用PSOLA 算 法, 對 其 合 成 語 音 的 韻 律 特 征 進 行 修 改, 而 使 合 成 的 語 音 達 到 了 很 高 的 音 質(zhì)。 如 日 本ATR 推 出 的 多 語 種 語 音 合 成 系 統(tǒng), 就 采 用 了 統(tǒng) 計 學 上 的 隱 馬 爾 可 夫 模 型 來 進 行 選 音。 其 他 的 一 些 主 要 語 音 產(chǎn) 品, 如Siemens 的Papageno 系 統(tǒng), 也 采 用 了 類 似 或 相 關(guān) 的 技 術(shù)。
----但 基 于 波 形 拼 接 方 法 的 系 統(tǒng) 仍 存 在 一 些 問 題, 即 它 的 音 庫 往 往 非 常 龐 大, 需 要 占 據(jù) 較 大 的 存 儲 空 間。 這 對 將 系 統(tǒng) 推 廣 到 掌 上 型 電 腦 或 一 些 小 的 終 端 設(shè) 備 上 非 常 不 利。 另 外, 在 拼 接 時, 兩 個 相 鄰 的 聲 音 單 元 之 間 譜 的 不 連 續(xù), 也 容 易 造 成 合 成 音 質(zhì) 的 下 降。 目 前, 解 決 這 些 問 題 較 好 的 途 徑 是 將 其 與 參 數(shù) 合 成 方 法 相 結(jié) 合。 在 此 基 礎(chǔ) 上 又 誕 生 了 一 些 新 的 模 型, 如 基 音 同 步 的Sinusoidal 模 型 等, 這 些 對 進 一 步 改 善 系 統(tǒng) 的 性 能 提 供 了 幫 助。 但 目 前 這 些 工 作 還 基 本 處 于 研 究 或 實 驗 室 階 段。
----計 算 機 語 音 合 成 技 術(shù) 經(jīng) 過 近10 年 的 飛 速 發(fā) 展, 從 傳 統(tǒng) 的 規(guī) 則 合 成 技 術(shù) 發(fā) 展 到 現(xiàn) 在 的 基 于 大 語 料 和 數(shù) 據(jù) 驅(qū) 動 的 技 術(shù)。 系 統(tǒng) 也 從 單 一 語 種 發(fā) 展 到 多 語 種, 而 且 越 來 越 靈 活。 進 一 步 提 高 合 成 語 音 的 自 然 程 度, 依 然 是 研 究 工 作 者 的 主 要 目 標 之 一。 目 前, 其 他 計 算 機 領(lǐng) 域 的 研 究 發(fā) 展, 如 數(shù) 據(jù) 挖 掘 技 術(shù)、 自 然 語 言 理 解 技 術(shù)、 信 號 處 理 技 術(shù) 等, 正 不 斷 地 向 語 音 合 成 領(lǐng) 域 加 速 滲 透, 并 極 大 地 推 動 著 語 音 合 成 系 統(tǒng) 朝 著 像 人 一 樣 自 然 流 暢 地 說 話、 學 習 并 自 動 模 擬 的 方 向 發(fā) 展。
語音合成——燦爛的前景 巨大的商機 2002-01-30 |
語音合成技術(shù)及國內(nèi)外發(fā)展現(xiàn)狀 2002-01-30 |
Evoice有聲電子郵件系統(tǒng) 2002-01-30 |
語音合成技術(shù)應用實例 2002-01-30 |
語音合成技術(shù)的原理 2002-01-30 |