欧美,精品,综合,亚洲,好吊妞视频免新费观看,免费观看三级吃奶,一级a片女人自慰免费看

您當(dāng)前的位置是:  首頁(yè) > 資訊 > 文章精選 >
 首頁(yè) > 資訊 > 文章精選 >

多語(yǔ)言語(yǔ)音合成和跨語(yǔ)言語(yǔ)音克隆

2019-07-17 09:49:15   作者:   來(lái)源:語(yǔ)音雜談微信公眾號(hào)   評(píng)論:0  點(diǎn)擊:


  場(chǎng)景描述:語(yǔ)音合成解決的主要問(wèn)題就是如何將文字信息轉(zhuǎn)化為可聽(tīng)的聲音信息,涉及語(yǔ)言和語(yǔ)音兩部分。TTS技術(shù)(又稱文語(yǔ)轉(zhuǎn)換技術(shù))隸屬于語(yǔ)音合成,它是將計(jì)算機(jī)自己產(chǎn)生的、或外部輸入的文字信息轉(zhuǎn)變?yōu)榭梢月?tīng)得懂的、流利的漢語(yǔ)口語(yǔ)輸出的技術(shù)。
  關(guān)鍵詞:多語(yǔ)言語(yǔ)音合成和跨語(yǔ)言語(yǔ)音克隆
  我們知道目前端到端神經(jīng)TTS模型已經(jīng)可以實(shí)現(xiàn)對(duì)說(shuō)話者身份和未標(biāo)記的語(yǔ)音屬性(如韻律)的控制。當(dāng)使用language-dependent輸入表示或模型組件時(shí),特別是當(dāng)每種語(yǔ)言的訓(xùn)練數(shù)據(jù)量不平衡時(shí),擴(kuò)展這些模型以支持多種不相關(guān)的語(yǔ)言并非易事。例如,在漢語(yǔ)和英語(yǔ)等語(yǔ)言之間的文本表示沒(méi)有重疊。此外,收集雙語(yǔ)者的錄音也很昂貴。因此,最常見(jiàn)的情況是訓(xùn)練集中的每個(gè)說(shuō)話者只說(shuō)一種語(yǔ)言,所以說(shuō)話者的身份與語(yǔ)言是完全相關(guān)的。這使得在不同語(yǔ)言之間語(yǔ)音轉(zhuǎn)換變得困難。此外,對(duì)于外來(lái)詞或共享詞的語(yǔ)言,如西班牙語(yǔ)(ES)和英語(yǔ)(EN)中的專有名詞,同一文本的發(fā)音可能不同。當(dāng)經(jīng)過(guò)簡(jiǎn)單訓(xùn)練的模型有時(shí)為特定的說(shuō)話者生成重音時(shí),這就更加難以捉摸。
  針對(duì)以上問(wèn)題,最近學(xué)者們提出了一種基于Tacotron(中文語(yǔ)音合成)的多人多種語(yǔ)言文本到語(yǔ)音(TTS)的合成算法。
  這種算法能夠在多種語(yǔ)言中生成高質(zhì)量的語(yǔ)音。此外,模型是能夠跨語(yǔ)言傳遞聲音。模型結(jié)構(gòu)采用基于注意力機(jī)制的序列到序列模型,根據(jù)輸入文本序列生成倒譜梅頻(log-mel,來(lái)自MFCC梅爾頻率倒譜系數(shù))圖幀序列。
  該模型是通過(guò)使用音位輸入表示來(lái)設(shè)計(jì)的,以激勵(lì)跨語(yǔ)言的模型容量共享。它還包含了一個(gè)對(duì)抗性的損失,以幫助理清它的說(shuō)話者表示。通過(guò)對(duì)每種語(yǔ)言的多名使用者進(jìn)行訓(xùn)練,加入自動(dòng)編碼輸入,并在訓(xùn)練期間來(lái)幫助穩(wěn)定注意力,從而進(jìn)一步擴(kuò)大了訓(xùn)練規(guī)模。
  經(jīng)過(guò)計(jì)算,實(shí)現(xiàn)了語(yǔ)音克隆和重音控制效果的可視化。嵌入向量集群聚在一起(左下角和右下角),這意味著當(dāng)說(shuō)話者的原始語(yǔ)言與嵌入的語(yǔ)言匹配時(shí),無(wú)論文本語(yǔ)言是什么,都會(huì)有很高的相似性。然而,使用文本中的語(yǔ)言ID(正方形),修改說(shuō)話者的口音使其能夠流利地說(shuō)話,與母語(yǔ)和口音(圓形)相比,會(huì)損害相似性。
  該模型對(duì)三種語(yǔ)言的高質(zhì)量語(yǔ)音合成和語(yǔ)音訓(xùn)練的跨語(yǔ)言傳輸具有重要的應(yīng)用潛力。例如,不需要任何雙語(yǔ)或并行語(yǔ)言的訓(xùn)練,它就能夠使用英語(yǔ)使用者的聲音合成流利的西班牙語(yǔ)。此外,該模型在學(xué)習(xí)說(shuō)外語(yǔ)的同時(shí)還會(huì)適量調(diào)節(jié)口音,并對(duì)代碼切換有基本的支持。
  在未來(lái)的工作中,學(xué)者們還將計(jì)劃研究擴(kuò)大利用大量低質(zhì)量培訓(xùn)數(shù)據(jù)的方法,并支持更多的使用者和語(yǔ)言。
  論文鏈接:https://arxiv.org/pdf/1907.04448.pdf
 
【免責(zé)聲明】本文僅代表作者本人觀點(diǎn),與CTI論壇無(wú)關(guān)。CTI論壇對(duì)文中陳述、觀點(diǎn)判斷保持中立,不對(duì)所包含內(nèi)容的準(zhǔn)確性、可靠性或完整性提供任何明示或暗示的保證。請(qǐng)讀者僅作參考,并請(qǐng)自行承擔(dān)全部責(zé)任。

相關(guān)閱讀:

專題

CTI論壇會(huì)員企業(yè)