為了賦予合成聲音更豐富的情感表現力和個性化,打造AI語音極致體驗,近期,標貝科技再一次進行語音合成技術“升級改造”,于3月25日完成TTS3.0版本的驗收,正式上線標貝科技官方網站。
01 全新技術升級,讓AI聲音更富表現力
1、發(fā)音效果顯著提升
標貝科技升級的TTS3.0技術采用全新的非自回歸聲學模型,在發(fā)音效果上有了顯著提升,對不同角色和情感表達的判斷更加準確,輸出的音質穩(wěn)定、清晰、順暢,音色富有表現力;聲碼器則采用GAN結構,可以高效且真實的還原波形,增加了合成聲音的真實質感。
2、多音字、停頓更加準確
此外,標貝科技TTS3.0在發(fā)音細節(jié)上也進行了優(yōu)化。例如,基于Mask-basedModel神經網絡多音字模型,對所有多音字進行統一建模,提升了語音合成時多音字發(fā)音的準確率;在韻律方面,采用多任務的神經網絡模型,利用韻律間的層次關系,在同一個模型結構下,對多個韻律等級進行建模,對合成語音在高低音和停頓的處理更加自然和流暢。
3、模型兼容
標貝科技本次TTS3.0使用了全新的聲學模型和聲碼器,同時,保持了對TTS2.0舊模型的全部兼容,最大程度地保證系統服務的無縫升級,減少老客戶升級帶來的開發(fā)成本。
02 更多音色加持,助力語音場景快速落地
此前,基于海量語音數據的優(yōu)勢,在TTS1.0、TTS2.0技術基礎上,標貝科技已經推出男聲、女聲、老人、童聲等多音色,中文、英文、中英混讀、小語種、方言等多語種的解決方案,并支持用戶個性化的需求定制,可以滿足大部分客戶在車載、有聲閱讀、智能客服、新聞媒體、影視解說等多領域應用需求,并已與國內外百余家企業(yè)客戶建立合作,服務項目累計超過500項。
本次TTS3.0技術升級,標貝科技經過多次大規(guī)模產品體驗評測后,再次擴充音庫量及場景化方案。在官方網站正式上線了9大音色,包括童聲、青年男女生,深度覆蓋有聲閱讀、語音交互、智能客服等領域更多場景需求。
圖:標貝科技新音色列表
與TTS1.0、TTS2.0相同,本次TTS3.0同樣支持SDK、流式/非流式API、MRCP協議等對接形式,接口同步/異步調用,且整體合成速度較之前提升了1.6倍,全效助力各開發(fā)者快速落地聲音場景應用。
03 豐富情感表達,助推有聲閱讀創(chuàng)作
近些年,我國有聲書市場發(fā)展迅速,各大音頻平臺,閱讀應用、視頻網站甚至是傳統出版行業(yè)也都嘗試進入有聲書市場。據相關資料顯示,2020年中國有聲書市場規(guī)模已達到了95.6億元,同比增長50.3%。5G時代的到來,有聲閱讀必將引起更大規(guī)模的爆發(fā)。
標貝科技TTS3.0結合最新的語音技術、海量的文本和聲學數據以及大規(guī)模計算能力,讓機器的聲音情感表現力更加真實自然,充分滿足當下有聲閱讀場景的需求。
比如有聲小說中,最難表達的人物情緒和對話,TTS3.0技術做到很多細節(jié)的處理,讓合成的聲音突出對話重音及語氣,讓人物情感表達更加細膩,猶如真人“配音”,使聽眾更直接明白小說情節(jié),進一步享受聽覺“盛宴”。
【試聽體驗】
貝童
文本來源:睡前故事《螞蟻士兵》
文本來源:睡前故事《螞蟻士兵》
貝茹
文本來源:約翰·伯恩《穿條紋睡衣的男孩》
文本來源:約翰·伯恩《穿條紋睡衣的男孩》
貝明
標貝科技作為一家聚焦智能語音交互和AI數據服務的企業(yè),經過五年的發(fā)展,現已推出了AI數字虛擬人、智能客服、智慧媒體等一站式解決方案;在產品方面,推出標貝悅讀、恐龍貝克兩大C端產品,已經實現從原有的單點語音技術服務升級至語音、圖像、虛擬形象等多技術模塊融合的行業(yè)解決方案。
標貝科技TTS3.0技術升級,迎合了語音合成發(fā)展的新趨勢,將智能語音應用提速增效,實現用戶極致體驗新突破。未來,標貝科技將繼續(xù)深耕智能語音技術研究與發(fā)展,為更多語音合成應用場景提供服務。