首頁(yè) >> 新聞

 

語(yǔ)音編碼技術(shù)的應(yīng)用與發(fā)展

隱匿 2001/08/01

語(yǔ)音數(shù)字化的技術(shù)基本可以分為兩大類:第一類方法是在盡可能遵循波形的前提下,將模擬波形進(jìn)行數(shù)字化編碼;第二類方法是對(duì)模擬波形進(jìn)行一定處理,但僅對(duì)語(yǔ)音和收聽(tīng)過(guò)程中能時(shí)候到的語(yǔ)音進(jìn)行編碼。其中語(yǔ)音編碼的三種最常用的技術(shù)是脈沖編碼調(diào)制(PCM)、差分PCM(DPCM)和增量調(diào)制(DM)。通常,公共交換電話網(wǎng)中的數(shù)字電話都采用這三種技術(shù)。第二類語(yǔ)音數(shù)字化方法主要與用于窄帶傳輸系統(tǒng)或有限容量的數(shù)字設(shè)備的語(yǔ)音編碼器有關(guān)。采用該數(shù)字化技術(shù)的設(shè)備一般被稱為聲碼器,聲碼器技術(shù)現(xiàn)在開(kāi)始展開(kāi)應(yīng)用,特別是用于幀中繼和IP上的語(yǔ)音。

除壓縮編碼技術(shù)外,人們還應(yīng)用許多其它節(jié)省帶寬的技術(shù)來(lái)減少語(yǔ)音所占帶寬,優(yōu)化網(wǎng)絡(luò)資源。ATM和幀中繼網(wǎng)中的靜音抑制技術(shù)可將連接中的靜音數(shù)據(jù)消除,但并不影響其它信息數(shù)據(jù)的發(fā)送。語(yǔ)音活動(dòng)檢測(cè)(SAD)技術(shù)可以用來(lái)動(dòng)態(tài)的跟蹤噪音電平,并為這個(gè)噪音電平設(shè)置一個(gè)享用的語(yǔ)音檢測(cè)閥值,這樣就使得語(yǔ)音/靜音檢測(cè)器可以動(dòng)態(tài)匹配用戶的背景噪聲環(huán)境,并將靜音抑制的可聽(tīng)度降到最小。為了置換掉網(wǎng)絡(luò)中的音頻信號(hào),這些信號(hào)不再穿過(guò)網(wǎng)絡(luò),舒適的背景聲音在網(wǎng)絡(luò)的任一端被集成到信道中,以確保話路兩端的語(yǔ)音質(zhì)量和自然聲音的連接。

語(yǔ)音編碼技術(shù)的類別

語(yǔ)音編碼方法歸納起來(lái)可以分成三大類:波形編碼、信源編碼、混合編碼。

1.波形編碼

波形編碼比較簡(jiǎn)單,編碼前采樣定理對(duì)模擬語(yǔ)音信號(hào)進(jìn)行量化,然后進(jìn)行幅度量化,再進(jìn)行二進(jìn)制編碼。解碼器作數(shù)/模變換后再由低通濾波器恢復(fù)出現(xiàn)原始的模擬語(yǔ)音波形,這就是最簡(jiǎn)單的脈沖編碼調(diào)制(PCM),也稱為線性PCM?梢酝ㄟ^(guò)非線性量化,前后樣值的差分、自適應(yīng)預(yù)測(cè)等方法實(shí)現(xiàn)數(shù)據(jù)壓縮。波形編碼的目標(biāo)是讓解碼器恢復(fù)出的模擬信號(hào)在波形上盡量與編碼前原始波形相一致,也即失真要最小。波形編碼的方法簡(jiǎn)單,數(shù)碼率較高,在64kbit/s至32kbit/s之間音質(zhì)優(yōu)良,當(dāng)數(shù)碼率低于32kbit/s的時(shí)候音質(zhì)明顯降低,16 kbit/s時(shí)音質(zhì)非常差。

2.信源編碼

信源編碼又稱為聲碼器,是根據(jù)人的發(fā)生機(jī)理,在編碼端對(duì)語(yǔ)音信號(hào)進(jìn)行分析,分解成有聲音和無(wú)聲音兩部分。聲碼器每隔一定時(shí)間分析一次語(yǔ)音,傳送一次分析的的道德有/無(wú)聲和濾波參數(shù)。在解碼端根據(jù)接收的參數(shù)再合成聲音。聲碼器編碼后的碼率可以做得很低,如1.2kbit/s、2.4kbit/s,但是也有其缺點(diǎn)。首先是合成語(yǔ)音質(zhì)量較差,往往清晰度可以而自然度沒(méi)有,難于辨認(rèn)說(shuō)話人是誰(shuí),其次是復(fù)雜度比較高。

3.混合編碼

混合編碼是將波形編碼和聲碼器的原理結(jié)合起來(lái),數(shù)碼率約在4kbit/s—16kbit/s之間,音質(zhì)比較好,最近有個(gè)別算法所取得的音質(zhì)可與波形編碼相當(dāng),復(fù)雜程度介乎與波形編碼器和聲碼器之間。

上述的三大語(yǔ)音編碼方案還可以分成許多不同的編碼方案。

語(yǔ)音編碼屬性可以分為四類,分別是比特速率,時(shí)延、復(fù)雜性和質(zhì)量。比特律是語(yǔ)音編碼很重要的一方面。比特速率的范圍可以是從保密的電話通信的2.4kbit/s到64kbit/s的G.711PCM編碼和G.722寬帶(7KHz)語(yǔ)音編碼器。

脈沖幅度調(diào)制

數(shù)字化模擬波形的第一步建立一套用于輸入信號(hào)波形抽樣的離散時(shí)間集。一般的數(shù)字化技術(shù)是基于使用周期性,規(guī)律間隔抽樣時(shí)間的。如果抽樣發(fā)生足夠頻繁,原始波形就能夠從抽樣序列中完全恢復(fù),使用低通濾波器在抽樣值之間插入波形值或進(jìn)行平滑。

脈沖編碼調(diào)制

上文中講述了脈沖幅度調(diào)制,使用離散抽樣的時(shí)間以模擬抽樣幅度來(lái)從不斷變化的模擬信號(hào)中提取信息。脈沖編碼調(diào)制是對(duì)PAM的擴(kuò)展,這里每一個(gè)模擬抽樣制備量化為代表某個(gè)數(shù)字編碼的離散值。因此,PA M系統(tǒng)通過(guò)在信源端加上模擬-數(shù)字信號(hào)轉(zhuǎn)換器就能夠轉(zhuǎn)化成為PCM系統(tǒng)。典型的量化過(guò)程是其中量化間隔中心的單個(gè)離散值表示。在這種方式中,量化過(guò)程對(duì)信號(hào)抽樣值引入了一定程度的誤差或失真。這種誤差,就是所謂的量化噪聲,可以通過(guò)建立大量小量化間隔來(lái)最小化。當(dāng)然,隨著量化數(shù)目的增加,需要唯一識(shí)別量化間隔的比特?cái)?shù)也增加了。

差分脈沖編碼

差分脈沖編碼是專門(mén)設(shè)計(jì)充分利用在典型語(yǔ)音波形中抽樣與抽樣之間冗余的。因?yàn)槌闃娱g差異的范圍遠(yuǎn)小于單個(gè)抽樣的范圍,因此只需要更少的比特用于編碼抽樣間差異。抽樣速率通常是與可比較的PCM系統(tǒng)一樣的。因此在編碼器中的帶限濾波器和解碼器中的平滑濾波器基本上與那些用在傳統(tǒng)PCM系統(tǒng)中的濾波器是一樣的。對(duì)DPCM編碼器產(chǎn)生不同抽樣的簡(jiǎn)單方法就是將前一個(gè)輸入抽樣直接存儲(chǔ)在抽樣保持電路中并使用模擬減法器來(lái)測(cè)試抽樣變化。信號(hào)的變化于是被量化并被編碼去傳輸。若采用DPCM結(jié)構(gòu),則更為復(fù)雜,當(dāng)然,因?yàn)橐粋(gè)輸入是由被編碼的抽樣間差異進(jìn)行積分的反饋環(huán)路來(lái)重建的。實(shí)質(zhì)上,反饋的信號(hào)是對(duì)輸入信號(hào)的估計(jì),該輸入信號(hào)是通過(guò)對(duì)被編碼的抽樣間差異進(jìn)行積分來(lái)獲得的。因此用于在解碼器中重建波形的反饋信號(hào)也是以同樣的方式獲得的。

增量調(diào)制

增量調(diào)制(DM)是又一種在語(yǔ)音波形中專門(mén)利用抽樣與抽樣之間冗余的數(shù)字化技術(shù)。實(shí)際上。DM能被認(rèn)為是DPCM的一個(gè)特殊情況,差信號(hào)的每抽樣僅使用1比特。唯一的1比特僅指出差異抽樣的極性,因此指示出了信號(hào)從上個(gè)抽樣開(kāi)始時(shí)增加還是減少。對(duì)輸入波形的大致近似在反饋通路中進(jìn)行構(gòu)建的,當(dāng)差異為正的時(shí)侯通過(guò)上升一個(gè)量化階,或當(dāng)差異為負(fù)的時(shí)候,下降一個(gè)量化階來(lái)進(jìn)行。用這種方法,輸入信號(hào)被按照上升或下降的序列以類似樓梯的方式來(lái)編碼。反饋信號(hào)會(huì)向一個(gè)方向上升直到近似信號(hào)超過(guò)了輸入信號(hào),同時(shí)反饋會(huì)向反方向進(jìn)行直到輸入信號(hào)超過(guò)了近似信號(hào)。因此,當(dāng)跟蹤輸入信號(hào)時(shí),DM輸出在輸入波形附近來(lái)回跳動(dòng),運(yùn)行通過(guò)平滑濾波器來(lái)精確的重建輸入信號(hào)。

實(shí)現(xiàn)IP電話應(yīng)用的關(guān)鍵技術(shù)

從最初的PC到PC的話音通信開(kāi)始,IP電話已經(jīng)逐步走向成熟。目前的IP電話業(yè)務(wù)主要借助于網(wǎng)關(guān)來(lái)實(shí)現(xiàn)。從技術(shù)的角度看,IP電話信息經(jīng)過(guò)網(wǎng)關(guān)變成打包后的數(shù)據(jù),通過(guò)IP網(wǎng)絡(luò)輿到被叫一方的IP接入端,對(duì)端的網(wǎng)關(guān)接收到話音數(shù)據(jù)包后,進(jìn)行處理后將數(shù)據(jù)還原成模擬信號(hào),再送給電話聽(tīng)往筒或傳真機(jī)。IP電話是計(jì)算機(jī)通信和電話通信相結(jié)合的產(chǎn)物,它涉及許多技術(shù)領(lǐng)域,其中最重要的包括以下幾項(xiàng)技術(shù)。

語(yǔ)音壓縮編碼技術(shù)。1995年,國(guó)妹電聯(lián)批準(zhǔn)了一個(gè)被稱為G.729的新的話音壓縮標(biāo)準(zhǔn)。該標(biāo)采用的算法,可以僅用8KBPS的帶寬傳輸話音,話音質(zhì)量與32KBPSADPCM(差分脈沖編碼市制)相同。ADPCM在全球的公共電話網(wǎng)絡(luò)中被用于提供長(zhǎng)話級(jí)話音。此后,這一壓縮話音標(biāo)準(zhǔn)又得到了進(jìn)一步的優(yōu)化改進(jìn)。

話音優(yōu)先級(jí)技術(shù)。話音通信是一種對(duì)實(shí)時(shí)性要求高的業(yè)務(wù)。目前,由于因特網(wǎng)是一個(gè)廣域公用網(wǎng),因此網(wǎng)上的各種實(shí)時(shí)或非實(shí)時(shí)應(yīng)用都在占用帶寬。為了能保證提供高度音質(zhì)的IP電話通信,在廣域網(wǎng)寬不足的IP網(wǎng)絡(luò)上,一般需要話音優(yōu)先技術(shù)。目前,很多IP網(wǎng)絡(luò)的路由器都把話音包的優(yōu)先級(jí)作為最高,這樣,路由器一旦發(fā)現(xiàn)話音包,就會(huì)將它們插入到IP包隊(duì)列的最前面優(yōu)先發(fā)送。這樣,網(wǎng)絡(luò)的昝與抖動(dòng)情況對(duì)話音通信的影響均將得到改善。另一種提高話音處理優(yōu)先處理優(yōu)先級(jí)的技術(shù)是資源預(yù)留協(xié)議(RSVP),它專門(mén)為話音通信預(yù)留帶寬。只要有話音呼叫請(qǐng)求,網(wǎng)絡(luò)就根據(jù)規(guī)則為話音通信預(yù)留出設(shè)定帶寬,直到通話結(jié)束,帶寬才釋放。

靜音抑制技術(shù)。一般說(shuō)來(lái),人們?cè)谶M(jìn)行電話交談時(shí),很多情況下處于靜音狀態(tài),例如,一方在講話時(shí),另一方在聽(tīng),而且講話過(guò)程中有大量顯著的停頓。有關(guān)調(diào)查結(jié)果表明,在一路全雙工電話交談中,只有40%左右的信號(hào)是有效的。靜音抑制技術(shù)會(huì)檢測(cè)通話過(guò)程或傳真過(guò)程中的安靜時(shí)段,并在這些安靜時(shí)段停止發(fā)送語(yǔ)音包。這樣,大量的網(wǎng)絡(luò)帶寬節(jié)省下來(lái)用于其他話音或數(shù)據(jù)通信。

清除回聲的技術(shù);芈暿窃谟脩艚粨Q機(jī)或局用交換機(jī)一端,有少量未能被充分轉(zhuǎn)換而且沿原路返回而形成的。如果呼叫方離交換機(jī)不遠(yuǎn),回聲返回很快,人耳聽(tīng)不出來(lái),這種情況無(wú)關(guān)緊要。但要當(dāng)回聲返回時(shí)超過(guò)地10毫秒時(shí),人耳就可聽(tīng)到明顯的回聲了。為了防止回聲了。為了防止回聲,一般需要回聲消除技術(shù),在處理器中有特殊的軟件代碼監(jiān)聽(tīng)回聲信號(hào),并將它從聽(tīng)話人的語(yǔ)音信號(hào)中清除。對(duì)于IP電話設(shè)備,回聲消除技術(shù)是十分重要的,因?yàn)橐话鉏P網(wǎng)絡(luò)的時(shí)延很容易就達(dá)到50毫秒。

處理話音抖動(dòng)的技術(shù)。IP網(wǎng)絡(luò)的一個(gè)特征就是網(wǎng)絡(luò)延時(shí)與網(wǎng)絡(luò)抖動(dòng),這可能導(dǎo)致IP電話音質(zhì)下降。網(wǎng)絡(luò)延時(shí)是指一個(gè)IP包在網(wǎng)絡(luò)上傳輸平均所需的時(shí)間網(wǎng)絡(luò)抖動(dòng)是指IP包傳輸時(shí)間的長(zhǎng)短時(shí)間的長(zhǎng)短變化。當(dāng)?shù)母鞣N因素造成的話音延時(shí)超過(guò)200毫秒時(shí),通話雙方一般就傾向于采用半雙工的通話方式。

一方說(shuō)完后另一方再說(shuō)。另一方面,如果網(wǎng)絡(luò)抖動(dòng)較嚴(yán)重,那么有的話音包因遲到被丟棄,會(huì)產(chǎn)生話音的斷續(xù)及部分失真,嚴(yán)重影響音質(zhì)。為了防止這種抖動(dòng),很多公司采用了抖動(dòng)緩沖技術(shù),即在接收設(shè)定一個(gè)緩沖池中取出,解壓,播放給受話者。這種緩沖技術(shù)可以在一定限度內(nèi)有效地處理話音抖動(dòng),并提高音質(zhì)。

小結(jié)

在IP、FR和ATM上傳遞語(yǔ)音時(shí)選擇適當(dāng)?shù)恼Z(yǔ)音編碼技術(shù),充分利用資源并最大限度的利用語(yǔ)音編碼方案自身的技術(shù)特點(diǎn)是很重要的。語(yǔ)音壓縮一般用來(lái)描述速率小于64kbit/s語(yǔ)音的數(shù)字化。一般情況下,啟動(dòng)時(shí)PCM的速率為64kbit/s,壓縮后速率變小。在理想狀態(tài)下,語(yǔ)音質(zhì)量不會(huì)受到影響,但實(shí)際上還是會(huì)有一些影響,只不過(guò)用戶不易察覺(jué)而已。沒(méi)種語(yǔ)音壓縮技術(shù)都具備各自的特點(diǎn)。目前的語(yǔ)音壓縮標(biāo)準(zhǔn),將語(yǔ)音業(yè)務(wù)在網(wǎng)絡(luò)中所占帶寬可以減少到80%,這樣就為其它業(yè)務(wù)(如數(shù)據(jù)業(yè)務(wù))在網(wǎng)上的傳輸提供了必要的帶寬。動(dòng)態(tài)壓縮則比前者更進(jìn)一步,它允許網(wǎng)絡(luò)管理者對(duì)網(wǎng)絡(luò)進(jìn)行管理,并在業(yè)務(wù)增加時(shí)以每個(gè)連接提供合適的語(yǔ)音質(zhì)量。

寬帶資源的有限性和對(duì)寬帶需求的增加,使得語(yǔ)音壓縮技術(shù)成為分組網(wǎng)絡(luò)實(shí)現(xiàn)語(yǔ)音業(yè)務(wù)的嚴(yán)峻挑戰(zhàn)。將單一的網(wǎng)絡(luò)合并成為一個(gè)整體結(jié)構(gòu),可以減少通信成本,提高效率,有利于網(wǎng)絡(luò)資源的管理。其中關(guān)鍵環(huán)節(jié)就是如何將這些進(jìn)行最有效的管理和應(yīng)用,從而滿足用戶的各種要求。

摘自計(jì)算機(jī)世界網(wǎng)