語音合成芯片情況介紹和產(chǎn)品設(shè)想

2003/05/06

   我們這里討論的語音合成(Speech Synthesis)是指將壓縮編碼后的語音文件解碼還原成原聲的技術(shù),至于更高級的如TTS技術(shù)等,不在此次討論范圍。

  目前主要的語音壓縮編碼技術(shù)有ADPCM、LPC、CELP、MELP、SACM等等。

  目前在消費性電子產(chǎn)品中應(yīng)用最廣泛的語音合成芯片是Sensory的SC6xx系列,包含601、604、605、614、691等型號,此產(chǎn)品線是從TI收購來的。TI對應(yīng)的型號是MSP50C601/604/605/614、MSP53C691。其中691其實是一種掩膜后的614,掩膜程序是一個包含了解碼算法子程序及其調(diào)用接口,因此用戶可以不用關(guān)心解碼算法的細節(jié),用任意的MCU來調(diào)用它。因為其易用性,SC691相對用量最大。

  因為用的是TI的DSP技術(shù),所以SC6xx從性能上來說,比同類其它芯片要好很多,支持LPC、CELP、MELP等多種格式,最低編碼速率達到1Kbps。

  在MSP50C6xx之前,TI還推出過MSP50C3x系列芯片,該系列芯片只支持LPC算法,但從音質(zhì)上來說還是非常好的。我們現(xiàn)在正在以自有品牌推廣的JT-10芯片其實就是MSP50C30的改進版。

  相對來說,臺灣產(chǎn)的芯片價格便宜一些,功能也不錯,但不知道是不是因為知識產(chǎn)權(quán)的問題,臺灣芯片基本上都不采用LPC、CELP、MELP算法。比如Sonix SNC745就采用自己的算法,而Sunplus SPDS107采用SACM算法,所以在相同碼率時,音質(zhì)就要差一些。一般臺灣芯片最低碼率可以做到2.4K左右。

  附表是主要語音合成芯片的特性比較。

  表中所列芯片都是長時間(超過10分鐘)、大容量的芯片,主要應(yīng)用領(lǐng)域是早教機、外語學習機、語音電子書、旅游介紹產(chǎn)品等等。單以早教機而言,據(jù)行內(nèi)人士估計,今年出貨量(含出口)將達到100萬以上,而且在飛速增長之中,成為第二個"復讀機"行業(yè),也不是不可能的事。所以,我們覺得國內(nèi)的IC公司,瞄準這個行業(yè),應(yīng)該是大有可為的。
下面是我推薦的三個芯片規(guī)格,供參考。

  1、SC-614的兼容芯片。外接存儲器用于存放客戶應(yīng)用程序、語音數(shù)據(jù),而片內(nèi)則保留部分固化ROM,內(nèi)容包括:(1)LPC、CELP、MELP解碼例程,供客戶應(yīng)用程序調(diào)用,降低編程復雜度;(2)In-System-Program程序,用于從串口接收應(yīng)用程序代碼和語音數(shù)據(jù)并寫入片外存儲器(如果片外存儲器是Flash的話)。

  此芯片特點是成本適中(比全掩膜方式成本高),客戶靈活度大,但缺點是SC-6xx指令系統(tǒng)復雜,匯編語言編程不易。

  2、SC-691全兼容芯片,或者和第一種合在一起,成為三模式芯片。模式一:下載模式;模式二:主控模式,運行片外存儲器中的程序;模式三:從模式,也就是標準SC-691的應(yīng)用模式,需要外加MCU

  此芯片運行于主控模式時,成本適中,客戶靈活度大。如果客戶需要快速開發(fā),則可以運行于從模式,雖然系統(tǒng)成本要高一些。

3、做一顆SOC,片上集成高速MCS51核 + SC-691內(nèi)核。MCS51核要盡可能標準,以充分利用現(xiàn)有的開發(fā)平臺(C51平臺及仿真器)。

  此規(guī)格成本要高于主控模式,但要低于MCU+SC691模式。最大的好處在于開發(fā)容易。
當然如果能用自己的高速8051實現(xiàn)LPC、CELP、MELP的算法,那就最好,能做到成本最低、應(yīng)用速度最快。

  所有的規(guī)格都要注意:
(1)Melody音樂合成功能(所謂的多少多少和弦)必不可少。
(2)ISP功能很有用。
(3)小量時外部存儲器到大量時的內(nèi)部掩膜ROM方案的平滑過渡能力很重要。

廠商 芯片系列

Sensory SC-6xx

Sonix SNC745

Sunplus SPDS107A

JT-10

內(nèi)核

16 bit MCU+DSP

16 bit MCU+DSP

8bit MCU+16bit DSP

8bit MCU+16bit DSP

處理能力

12Mips@12.32MHz

9Mips@18MHz

 

12Mips@16Mhz

RAM

640*16bit

2K*16bit

128*8bit

922*8bit

PROGRAM ROM

32Kx 17bit

32K*16bit

31K*8bit

32K*16bit

DATA ROM

Upto 288KBt

960KB

990KB

Upto 16MB

DAC/PWM

DAC/PDM

DAC/PWM

PWM

PWM

DAC/PWM精度

10bit

10bit

10bit

 

喇叭驅(qū)動

直接

直接

直接

直接

壓縮格式

CX,MX,ADPCM

自有格式

SACM

LPC

DataRate

1.0kbps~11.2kbps

2kbps/12kbps /24kbps

2.4kbps~

1.2kbps~

Speech Channels

?

2

3

2

Melody Channels

14

4

 

最大回放時間

2220S(內(nèi)部ROM)

外接ROM最大可達18小時

3840S

1650S

外接ROM最大16小時

I/O

16 24 32 64

16

23

32

定時器

217bit定時器

38bit定時器

212bit定時器

 

中斷

15

9

7

 

RTC

軟件RTC

軟件RTC

軟件RTC

 

Watch Dog

Yes

Yes

No

 

時鐘源

32.768KHz晶振/

內(nèi)部RC振蕩

16MHz晶振/RC振蕩

20MHz晶振/

內(nèi)部RC振蕩

16MHz晶振

工作頻率

64KHz~12.32MHz

16MHz

MCU<5M DSP=20M

16MHz晶振

供電電壓

3V~5.2V

3.6~5.1V

2.4~3.6V

2.4V~3.6V

2.7V~5.5V

休眠電流

<10uA

2.0uA

RTC Stop:2uA

RTC with Rosc:3uA

RTC with Xtal:100uA

100uA

開發(fā)工具

匯編 C語言

匯編,Easy Format

?

匯編

其它

1bit比較器

(可用作電壓監(jiān)測)

     

參考價格

15

112

11.50

12


深圳捷通供稿 CTI論壇編輯



相關(guān)鏈接:
捷通82語音識別模塊產(chǎn)品說明書 2003-06-09
數(shù)字可視復讀機方案 2003-04-09
語音識別控制電話機方案 2003-04-04
智能早教機方案 2003-04-03
也談?wù)Z音識別技術(shù)在玩具領(lǐng)域的低成本應(yīng)用 2003-01-06

分類信息:     文摘   技術(shù)_語音合成_文摘