首頁>>>技術(shù)>>>語音應(yīng)用>>>語音合成(TTS)  語音合成產(chǎn)品


語音合成系統(tǒng)的關(guān)鍵技術(shù)

清華大學(xué)計(jì)算機(jī)系智能技術(shù)與系統(tǒng)國家重點(diǎn)實(shí)驗(yàn)室

陶建華 蔡蓮紅

---- 計(jì) 算 機(jī) 語 音 合 成 系 統(tǒng) 又 稱 文 語 轉(zhuǎn) 換 系 統(tǒng)(TTS 系 統(tǒng)), 它 的 主 要 功 能 是 將 計(jì) 算 機(jī) 中 任 意 出 現(xiàn) 的 文 字 轉(zhuǎn) 換 成 自 然 流 暢 的 語 音 輸 出。 一 般 認(rèn) 為, 語 音 合 成 系 統(tǒng) 包 括 三 個 主 要 的 組 成 部 分: 文 本 分 析 模 塊、 韻 律 生 成 模 塊 和 聲 學(xué) 模 塊。

文 本 分 析

----語 音 合 成 系 統(tǒng) 首 先 處 理 的 是 文 字, 也 就 是 它 要 說 的 內(nèi) 容。 文 本 分 析 的 主 要 功 能 是 使 計(jì) 算 機(jī) 能 從 這 些 文 本 中 認(rèn) 識 文 字, 進(jìn) 而 知 道 要 發(fā) 什 么 音、 怎 么 發(fā) 音, 并 將 發(fā) 音 的 方 式 告 訴 計(jì) 算 機(jī)。 另 外, 還 要 讓 計(jì) 算 機(jī) 知 道, 在 文 本 中, 哪 些 是 詞, 哪 些 是 短 語 或 句 子, 發(fā) 音 時(shí) 應(yīng) 該 到 哪 里 停 頓 及 停 頓 多 長 時(shí) 間 等。 其 工 作 過 程 可 以 分 為 三 個 主 要 步 驟:

----(1) 將 輸 入 的 文 本 規(guī) 范 化。 在 這 個 過 程 中, 要 查 找 拼 寫 錯 誤, 并 將 文 本 中 出 現(xiàn) 的 一 些 不 規(guī) 范 或 無 法 發(fā) 音 的 字 符 過 濾 掉。

----(2) 分 析 文 本 中 詞 或 短 語 的 邊 界, 確 定 文 字 的 讀 音, 同 時(shí) 分 析 文 本 中 出 現(xiàn) 的 數(shù) 字、 姓 氏、 特 殊 字 符、 專 有 詞 語 以 及 各 種 多 音 字 的 讀 音 方 式。

----(3) 根 據(jù) 文 本 的 結(jié) 構(gòu)、 組 成 和 不 同 位 置 上 出 現(xiàn) 的 標(biāo) 點(diǎn) 符 號, 確 定 發(fā) 音 時(shí) 語 氣 的 變 換 以 及 不 同 音 的 輕 重 方 式。

----最 終, 文 本 分 析 模 塊 將 輸 入 的 文 字 轉(zhuǎn) 換 成 計(jì) 算 機(jī) 能 夠 處 理 的 內(nèi) 部 參 數(shù), 便 于 后 續(xù) 模 塊 進(jìn) 一 步 處 理 并 生 成 相 應(yīng) 的 信 息。

----傳 統(tǒng) 的 文 本 分 析 主 要 是 基 于 規(guī) 則(Rule  based) 的 實(shí) 現(xiàn) 方 法。 其 主 要 思 路 是 盡 可 能 地 將 文 字 中 的 分 詞 規(guī) 范、 發(fā) 音 方 式 羅 列 起 來, 并 總 結(jié) 出 規(guī) 則, 依 靠 這 些 規(guī) 則 進(jìn) 行 文 本 處 理, 以 獲 得 需 要 的 參 數(shù)。 具 有 代 表 性 的 方 法 有: 最 大 匹 配 法、 反 向 最 大 匹 配 法、 逐 詞 遍 歷 法、 最 佳 匹 配 法、 二 次 掃 描 法 等。 這 些 方 法 的 優(yōu) 點(diǎn) 在 于 結(jié) 構(gòu) 較 為 簡 單、 直 觀, 易 于 實(shí) 現(xiàn); 缺 點(diǎn) 是 需 要 大 量 的 時(shí) 間 去 總 結(jié) 規(guī) 則, 且 模 塊 性 能 的 好 壞 嚴(yán) 重 依 賴 于 設(shè) 計(jì) 人 員 的 經(jīng) 驗(yàn) 以 及 他 們 的 背 景 知 識。 由 于 這 些 方 法 能 取 得 較 好 的 分 析 效 果, 因 此, 直 到 目 前, 它 們 依 然 被 廣 泛 使 用。

----但 是 近 幾 年 來, 隨 著 計(jì) 算 機(jī) 領(lǐng) 域 中 數(shù) 據(jù) 挖 掘 技 術(shù) 的 發(fā) 展, 許 多 統(tǒng) 計(jì) 學(xué) 方 法 以 及 人 工 神 經(jīng) 網(wǎng) 絡(luò) 技 術(shù) 在 計(jì) 算 機(jī) 數(shù) 據(jù) 處 理 領(lǐng) 域 中 獲 得 了 成 功 的 應(yīng) 用, 計(jì) 算 機(jī) 從 大 量 數(shù) 據(jù) 中 自 動 提 取 規(guī) 律 已 完 全 可 能 并 正 在 實(shí) 現(xiàn)。 在 此 背 景 下, 出 現(xiàn) 了 基 于 數(shù) 據(jù) 驅(qū) 動(Data driven) 的 文 本 分 析 方 法, 具 有 代 表 性 的 有: 二 元 文 法 法(Di Grammar Method)、 三 元 文 法 法(Tri Grammar Method)、 隱 馬 爾 可 夫 模 型 法(HMM Method) 和 神 經(jīng) 網(wǎng) 絡(luò) 法(Neural Network Method) 等。 一 些 比 較 著 名 的 系 統(tǒng), 如IBM 的 語 音 產(chǎn) 品 就 采 用 了 隱 馬 爾 可 夫 模 型 法。 這 類 方 法 的 特 點(diǎn) 是, 設(shè) 計(jì) 人 員 根 據(jù) 統(tǒng) 計(jì) 學(xué) 或 人 工 神 經(jīng) 網(wǎng) 絡(luò) 方 面 的 知 識, 設(shè) 計(jì) 出 一 種 可 訓(xùn) 練 的 模 型, 并 用 大 量 已 經(jīng) 存 在 的 數(shù) 據(jù) 去 訓(xùn) 練, 將 訓(xùn) 練 得 到 的 模 型 用 于 文 本 分 析, 而 系 統(tǒng) 設(shè) 計(jì) 人 員 并 不 需 要 太 強(qiáng) 的 語 言 學(xué) 背 景 知 識。 對 于 工 程 技 術(shù) 人 員 來 說, 這 類 方 法 無 疑 減 輕 了 他 們 研 究 語 言 學(xué) 的 負(fù) 擔(dān)。 目 前, 這 類 方 法 在 文 本 分 析 精 度 上, 已 達(dá) 到 或 部 分 超 過 了 基 于 規(guī) 則 系 統(tǒng) 的 分 析 結(jié) 果, 且 容 易 實(shí) 現(xiàn) 多 語 種 的 混 合, 因 而 越 來 越 廣 泛 地 被 接 受 并 使 用。 這 類 方 法 的 缺 點(diǎn) 在 于, 盡 管 系 統(tǒng) 容 易 獲 得 文 本 信 息 的 共 同 特 征, 但 忽 略 了 一 些 個 性, 而 往 往 這 些 個 別 因 素 對 最 終 的 發(fā) 音 方 式 影 響 很 大。 因 此, 有 些 系 統(tǒng) 采 取 了 兩 類 方 法 相 結(jié) 合 的 方 式。

韻 律 生 成

----任 何 人 說 話 都 有 韻 律 特 征, 比 如 在 漢 語 中, 音 節(jié) 有 不 同 的 聲 調(diào)、 語 氣 和 停 頓 方 式, 發(fā) 音 長 短 也 各 不 相 同, 這 些 都 屬 于 韻 律 特 征。 韻 律 參 數(shù) 則 包 括 了 能 影 響 這 些 特 征 的 聲 學(xué) 參 數(shù), 如 基 頻、 時(shí) 長、 音 強(qiáng) 等。

----文 本 分 析 的 結(jié) 果 只 是 告 訴 了 計(jì) 算 機(jī) 發(fā) 什 么 音, 以 及 以 什 么 方 式 發(fā) 音, 這 種 發(fā) 音 方 式 還 只 是 抽 象 的。 而 要 發(fā) 音 的 聲 調(diào) 是 二 聲 還 是 三 聲, 是 重 讀 還 是 輕 讀, 到 哪 里 停 頓, 等 等, 這 些 最 終 系 統(tǒng) 用 來 進(jìn) 行 聲 信 號 合 成 的 具 體 韻 律 參 數(shù) 還 要 依 靠 韻 律 生 成 模 塊。 與 文 本 分 析 的 實(shí) 現(xiàn) 方 法 相 類 似, 韻 律 的 生 成 方 法 也 分 為 基 于 規(guī) 則 和 數(shù) 據(jù) 驅(qū) 動 兩 種 方 法。

----早 期 的 韻 律 生 成 方 法 均 采 用 基 于 規(guī) 則 的 方 法。 這 種 方 法 要 求 研 究 人 員 有 大 量 的 音 韻 學(xué) 背 景 知 識, 需 要 對 在 各 種 特 定 的 情 況 下, 如 聲 音 在 句 子 中 的 不 同 位 置、 不 同 聲 調(diào) 及 句 子 的 不 同 語 氣 甚 至 是 不 同 的 詞 性 下, 對 基 頻、 時(shí) 長 和 音 強(qiáng) 等 各 個 聲 學(xué) 參 數(shù) 變 化 的 詳 細(xì) 情 況 加 以 總 結(jié)、 歸 納。 由 于 各 個 語 種 的 韻 律 特 征 不 同, 因 此, 針 對 不 同 的 語 種, 必 須 找 出 與 該 語 種 相 關(guān) 聯(lián) 的 韻 律 特 征。 目 前, 基 于 規(guī) 則 的 方 法 仍 然 被 認(rèn) 作 是 行 之 有 效 的 方 法, 大 部 分 漢 語 語 音 合 成 系 統(tǒng) 依 然 采 用 這 種 方 法。 雖 然 經(jīng) 過 研 究 者 的 努 力, 這 種 方 法 能 達(dá) 到 較 好 的 韻 律 生 成 效 果, 但 它 也 受 到 很 多 限 制。 如 前 所 述, 基 于 規(guī) 則 的 方 法 要 求 系 統(tǒng) 設(shè) 計(jì) 人 員 花 費(fèi) 大 量 的 時(shí) 間 和 精 力 去 研 究 不 同 語 種 普 遍 存 在 的 韻 律 特 征, 而 這 是 一 個 非 常 耗 時(shí) 的 工 作, 且 由 于 規(guī) 則 的 復(fù) 雜 性, 其 生 成 語 音 的 自 然 度 也 受 到 較 多 的 限 制, 也 就 限 制 了 它 的 一 些 性 能。 另 外, 基 于 規(guī) 則 的 系 統(tǒng) 方 法 往 往 只 追 求 發(fā) 音 的 自 然, 而 掩 蓋 了 人 的 個 性。 如 讓 系 統(tǒng) 模 擬 某 一 特 定 人 的 發(fā) 音, 就 顯 得 無 力, 除 非 是 針 對 專 人 設(shè) 計(jì) 的 一 些 專 用 模 型。

----目 前, 通 過 神 經(jīng) 網(wǎng) 絡(luò) 或 統(tǒng) 計(jì) 驅(qū) 動 的 方 法 進(jìn) 行 韻 律 生 成 已 獲 得 成 功 的 應(yīng) 用。Siemens 和Motorola 公 司 均 采 用 或 試 驗(yàn) 了 此 技 術(shù)。 在 國 內(nèi), 清 華 大 學(xué) 計(jì) 算 機(jī) 系 在 這 方 面 也 進(jìn) 行 了 大 量 的 研 究, 其 研 究 成 果 已 接 近 實(shí) 用 階 段。 其 實(shí) 現(xiàn) 步 驟 是: 首 先 設(shè) 計(jì) 或 收 集 一 個 包 含 大 量 語 音 和 文 本 信 息 的 數(shù) 據(jù), 然 后 建 立 一 個 訓(xùn) 練 模 型, 并 用 從 數(shù) 據(jù) 庫 中 提 取 出 的 韻 律 參 數(shù) 對 模 型 進(jìn) 行 訓(xùn) 練, 通 過 訓(xùn) 練 而 得 到 最 終 的 韻 律 模 型。 這 種 模 型 的 優(yōu) 點(diǎn) 在 于: 在 保 持 甚 至 增 強(qiáng) 了 系 統(tǒng) 的 韻 律 生 成 能 力 的 同 時(shí), 極 大 地 改 善 了 整 個 語 音 合 成 系 統(tǒng) 的 靈 活 性, 便 于 模 擬 某 一 特 定 人 的 韻 律 特 征, 且 為 在 同 一 個 語 音 合 成 系 統(tǒng) 中 整 合 多 語 種 創(chuàng) 造 了 條 件。 事 實(shí) 上, 有 關(guān) 研 究 人 員 正 在 嘗 試 使 用 這 一 方 法 將 漢 語 和 其 他 西 方 語 言 整 合 到 一 套 系 統(tǒng) 上。

----圖1 和 圖2 分 別 反 映 了 基 于 規(guī) 則 和 基 于 數(shù) 據(jù) 驅(qū) 動 韻 律 模 型 的 建 立 與 工 作 過 程。

語 音 生 成

----系 統(tǒng) 知 道 了 要 說 什 么 并 掌 握 了 韻 律 控 制 參 數(shù) 后, 它 是 如 何 使 計(jì) 算 機(jī) 發(fā) 聲 的 呢 ?

----系 統(tǒng) 產(chǎn) 生 的 合 成 語 音 是 通 過 一 個 聲 學(xué) 模 塊 來 具 體 實(shí) 現(xiàn) 的。 早 期 語 音 合 成 系 統(tǒng) 的 聲 學(xué) 模 型 多 是 通 過 模 擬 人 的 口 腔 的 聲 道 特 性 來 產(chǎn) 生 的。 其 中 比 較 著 名 的 有Klatt 的 共 振 峰(Formant) 合 成 系 統(tǒng), 后 來 又 產(chǎn) 生 了 基 于LPC、LSP 和LMA 等 聲 學(xué) 參 數(shù) 的 合 成 系 統(tǒng), 這 些 都 可 以 歸 結(jié) 為 參 數(shù) 合 成 系 統(tǒng)。 使 用 這 些 方 法 建 立 聲 學(xué) 模 型 的 過 程 是: 首 先 錄 制 聲 音, 這 些 聲 音 涵 蓋 了 人 發(fā) 音 過 程 中 所 有 可 能 出 現(xiàn) 的 讀 音; 然 后, 提 取 出 這 些 聲 音 的 聲 學(xué) 參 數(shù), 并 整 合 成 一 個 完 整 的 音 庫。 在 發(fā) 音 過 程 中, 首 先 根 據(jù) 發(fā) 音 需 要 從 音 庫 中 選 擇 合 適 的 聲 學(xué) 參 數(shù), 然 后 根 據(jù) 從 韻 律 模 型 中 得 到 的 韻 律 參 數(shù), 通 過 合 成 算 法 產(chǎn) 生 語 音。 參 數(shù) 合 成 方 法 的 優(yōu) 點(diǎn) 是 其 音 庫 一 般 較 小, 并 且 整 個 系 統(tǒng) 能 適 應(yīng) 的 韻 律 特 征 的 范 圍 較 寬, 但 其 合 成 語 音 的 音 質(zhì) 卻 往 往 受 到 一 定 的 限 制。

----近10 年 來, 采 用 波 形 拼 接(PSOLA) 合 成 語 音 的 方 法 越 來 越 被 廣 泛 應(yīng) 用。 這 種 方 法 的 核 心 思 想 是 直 接 對 存 儲 于 音 庫 的 語 音 運(yùn) 用PSOLA 算 法 進(jìn) 行 拼 接, 從 而 整 合 成 完 整 的 語 音。 有 別 于 傳 統(tǒng) 概 念 中 只 是 將 不 同 的 語 音 單 元 進(jìn) 行 簡 單 拼 接, 該 系 統(tǒng) 首 先 要 在 大 量 語 音 庫 中, 選 擇 最 合 適 的 語 音 單 元 用 于 拼 接, 并 且 在 選 音 過 程 中 往 往 采 用 多 種 復(fù) 雜 的 技 術(shù), 包 括 多 項(xiàng) 統(tǒng) 計(jì) 學(xué) 上 的 技 術(shù) 或 神 經(jīng) 網(wǎng) 絡(luò) 技 術(shù), 最 后 在 拼 接 時(shí), 使 用PSOLA 算 法, 對 其 合 成 語 音 的 韻 律 特 征 進(jìn) 行 修 改, 而 使 合 成 的 語 音 達(dá) 到 了 很 高 的 音 質(zhì)。 如 日 本ATR 推 出 的 多 語 種 語 音 合 成 系 統(tǒng), 就 采 用 了 統(tǒng) 計(jì) 學(xué) 上 的 隱 馬 爾 可 夫 模 型 來 進(jìn) 行 選 音。 其 他 的 一 些 主 要 語 音 產(chǎn) 品, 如Siemens 的Papageno 系 統(tǒng), 也 采 用 了 類 似 或 相 關(guān) 的 技 術(shù)。

----但 基 于 波 形 拼 接 方 法 的 系 統(tǒng) 仍 存 在 一 些 問 題, 即 它 的 音 庫 往 往 非 常 龐 大, 需 要 占 據(jù) 較 大 的 存 儲 空 間。 這 對 將 系 統(tǒng) 推 廣 到 掌 上 型 電 腦 或 一 些 小 的 終 端 設(shè) 備 上 非 常 不 利。 另 外, 在 拼 接 時(shí), 兩 個 相 鄰 的 聲 音 單 元 之 間 譜 的 不 連 續(xù), 也 容 易 造 成 合 成 音 質(zhì) 的 下 降。 目 前, 解 決 這 些 問 題 較 好 的 途 徑 是 將 其 與 參 數(shù) 合 成 方 法 相 結(jié) 合。 在 此 基 礎(chǔ) 上 又 誕 生 了 一 些 新 的 模 型, 如 基 音 同 步 的Sinusoidal 模 型 等, 這 些 對 進(jìn) 一 步 改 善 系 統(tǒng) 的 性 能 提 供 了 幫 助。 但 目 前 這 些 工 作 還 基 本 處 于 研 究 或 實(shí) 驗(yàn) 室 階 段。

----計(jì) 算 機(jī) 語 音 合 成 技 術(shù) 經(jīng) 過 近10 年 的 飛 速 發(fā) 展, 從 傳 統(tǒng) 的 規(guī) 則 合 成 技 術(shù) 發(fā) 展 到 現(xiàn) 在 的 基 于 大 語 料 和 數(shù) 據(jù) 驅(qū) 動 的 技 術(shù)。 系 統(tǒng) 也 從 單 一 語 種 發(fā) 展 到 多 語 種, 而 且 越 來 越 靈 活。 進(jìn) 一 步 提 高 合 成 語 音 的 自 然 程 度, 依 然 是 研 究 工 作 者 的 主 要 目 標(biāo) 之 一。 目 前, 其 他 計(jì) 算 機(jī) 領(lǐng) 域 的 研 究 發(fā) 展, 如 數(shù) 據(jù) 挖 掘 技 術(shù)、 自 然 語 言 理 解 技 術(shù)、 信 號 處 理 技 術(shù) 等, 正 不 斷 地 向 語 音 合 成 領(lǐng) 域 加 速 滲 透, 并 極 大 地 推 動 著 語 音 合 成 系 統(tǒng) 朝 著 像 人 一 樣 自 然 流 暢 地 說 話、 學(xué) 習(xí) 并 自 動 模 擬 的 方 向 發(fā) 展。

 



相關(guān)鏈接:
語音合成——燦爛的前景 巨大的商機(jī) 2002-01-30
語音合成技術(shù)及國內(nèi)外發(fā)展現(xiàn)狀 2002-01-30
Evoice有聲電子郵件系統(tǒng) 2002-01-30
語音合成技術(shù)應(yīng)用實(shí)例 2002-01-30
語音合成技術(shù)的原理 2002-01-30

分類信息:     技術(shù)_語音合成_文摘