首頁 >> 新聞

IP電話語音質(zhì)量的評(píng)價(jià)與分析

袁琦 2002/12/31

一、 引言

  IP電話是近幾年內(nèi)發(fā)展起來的一種新的IP網(wǎng)絡(luò)業(yè)務(wù),它是在基于IP協(xié)議的包(分組)傳輸網(wǎng)絡(luò)上所進(jìn)行的電話通信業(yè)務(wù)。IP電話作為信息技術(shù)進(jìn)步帶來的一項(xiàng)新型電話業(yè)務(wù),已在全世界范圍內(nèi)得到廣泛使用,并對(duì)傳統(tǒng)電話業(yè)務(wù)形成越來越大的威脅。

  目前IP電話的語音質(zhì)量已成為IP電話業(yè)務(wù)進(jìn)一步發(fā)展的主要障礙,也是IP電話技術(shù)需要解決的重大難題之一。本文主要對(duì)IP電話的語音質(zhì)量進(jìn)行評(píng)價(jià)和分析,并簡(jiǎn)單介紹IP電話語音質(zhì)量的測(cè)試方法! 

二、IP電話語音質(zhì)量的評(píng)價(jià)

  目前對(duì)IP電話業(yè)務(wù)語音質(zhì)量評(píng)分的評(píng)價(jià)主要有三種模型:MOS模型、PSQM模型和E模型。

1. MOS模型

  ITU-T建議P.830描述了一種對(duì)語音的主觀評(píng)定方法-MOS(Mean Opinion Score)方法。根據(jù)P.830建議的要求,特定的發(fā)話者與聽話者在特定的環(huán)境下,通過收集測(cè)試者在各種不同情景下的主觀感受,根據(jù)P.830的分析法則得出該語音的品質(zhì)。P.830對(duì)測(cè)試的要求非常嚴(yán)格,所有的操作都要嚴(yán)格地服從操作流程,對(duì)錄音系統(tǒng)、語音采樣、語音輸入級(jí)別、聽者級(jí)別、不同發(fā)話者(8男、8女、8兒童)、多發(fā)話者(多人同時(shí)講話)、差錯(cuò)處理、不同語音編碼方式的兼容性、過失、環(huán)境噪音、音樂等等,都作出了詳細(xì)嚴(yán)格的規(guī)定。測(cè)試者的主觀感受結(jié)果也被分為很多不同的范疇,如聽者感受的網(wǎng)絡(luò)質(zhì)量結(jié)果、質(zhì)量降級(jí)結(jié)果、比較結(jié)果等。

2. PSQM模型

  MOS方法是一種模糊的評(píng)估方法,其測(cè)試結(jié)果很難對(duì)VoIP系統(tǒng)的改進(jìn)和不同VoIP設(shè)備之間性能的比較作出有實(shí)際意義的判別。因此,有人提出借用ITU-T 在P.861 中建議的 PSQM (Perceptual Speech Quality Measurement)方法,用來作為客觀質(zhì)量度量的評(píng)估。

  PSQM的客觀性是指模仿現(xiàn)實(shí)生活中主觀聲音的感知。PSQM仿真實(shí)驗(yàn)中主觀判斷話音編碼器的質(zhì)量,通過把編碼后的信號(hào)和源信號(hào)進(jìn)行比較,PSQM仍以MOS的5個(gè)級(jí)別作為評(píng)估結(jié)果。PSQM方法并未擺脫原始的人類主觀評(píng)估,只是作了進(jìn)一步的說明。

  圖1為ITU-T P.861定義的PSQM算法的評(píng)價(jià)模型。首先選取符合條件的基準(zhǔn)信號(hào)源,可以是真實(shí)的聲音,也可以是規(guī)定的人工語音。把基準(zhǔn)信號(hào)源和經(jīng)過網(wǎng)絡(luò)的干擾后信號(hào)輸入到知覺模型,這個(gè)知覺模型實(shí)際上是對(duì)信號(hào)進(jìn)行時(shí)間-頻率映射,以及頻率和強(qiáng)度偏差處理。從知覺模型輸出得到的信號(hào)內(nèi)部表現(xiàn)通過差別模型進(jìn)行處理,為了獲得主觀和客觀之間的較高關(guān)聯(lián)性,再輸入到認(rèn)識(shí)模型,最后得到質(zhì)量評(píng)分。從這個(gè)評(píng)價(jià)模型可以看出使用者對(duì)語音清晰度的評(píng)價(jià)主要取決于使用者的認(rèn)識(shí)模型,而使用者的認(rèn)識(shí)模型又是受其知覺模型影響。

3. E模型

  E模型最早是由歐洲的ETSI標(biāo)準(zhǔn)組織提出,后來又由ITU-T標(biāo)準(zhǔn)化形成G.107建議。E模型的思想是將話音信號(hào)傳輸過程中若干因素對(duì)話質(zhì)的負(fù)面影響綜合為參數(shù)R,用以評(píng)估該話音呼叫的主觀質(zhì)量。R的值越大,表明話音質(zhì)量越好。E模型的R參數(shù)由下式確定:

  R = Ro-Is-Id-Ie+A

  其中參數(shù)Ro表示噪音帶來的影響,如背景噪音和電流噪音的干擾。參數(shù)Is表示與語音信號(hào)同時(shí)產(chǎn)生的質(zhì)量影響因素,如由量化、連接噪聲和側(cè)音過強(qiáng)帶來的干擾。參數(shù)Id表示由于時(shí)延造成的質(zhì)量影響,包括由于通話回聲和交互性喪失帶來的干擾。Ie包括由于使用特殊設(shè)備引入的質(zhì)量損失,如低比特率編解碼器的影響和分組丟失的影響。G.729A的Ie為10,G.723.1在5.3kbit/s和6.3kbit/s碼流速率下的Ie分別為19和15。參數(shù)A為預(yù)期值,用以補(bǔ)償由于用戶采用某些帶來便捷接入的設(shè)備而導(dǎo)致的話音質(zhì)量的影響。對(duì)于傳統(tǒng)電話,A取值為0;而GSM移動(dòng)電話的A值為10。

  根據(jù)E模型確定可接受話音質(zhì)量對(duì)應(yīng)的R值。編解碼器類型、通信模式和傳輸協(xié)議的不同,會(huì)使上式中的各個(gè)分量有不同的取值,從而得到不同的R值。

三、 影響IP電話語音質(zhì)量的關(guān)鍵因素分析

影響VoIP業(yè)務(wù)語音質(zhì)量評(píng)分的主要因素有:

- 同時(shí)通過網(wǎng)關(guān)的數(shù)據(jù)流量

- 采樣和糾錯(cuò)技術(shù)

- 語音的延時(shí)

- IP包在網(wǎng)絡(luò)上的丟失

- 語音數(shù)據(jù)包抖動(dòng)

- 傳統(tǒng)問題:話音輸入輸出設(shè)備質(zhì)量、電平、噪聲、回?fù)p和ECHO PATH 延遲(產(chǎn)生于GSM/PSTN段);

1、 網(wǎng)關(guān)的語音處理技術(shù)

(1)語音的編碼與壓縮

  VoIP業(yè)務(wù)的關(guān)鍵技術(shù)之一就是語音的編碼及壓縮技術(shù),采取的編解碼算法和壓縮技術(shù)直接影響到VoIP業(yè)務(wù)的語音質(zhì)量。語音的編碼及壓縮過程在網(wǎng)關(guān)中完成,這個(gè)過程需要先進(jìn)行數(shù)字編碼,轉(zhuǎn)換為PCM碼,然后經(jīng)過專門的DSP芯片進(jìn)行數(shù)據(jù)壓縮,最后再形成IP包數(shù)據(jù)的形式,以適合IP網(wǎng)絡(luò)上的傳輸帶寬。

  根據(jù)語音信號(hào)的不同特征,語音編碼通?梢苑譃閮纱箢悾翰ㄐ位幋a和參數(shù)基編碼。話音編碼按比特速率的劃分為:高速編碼,中速編碼和低速編碼。

  波形基編碼是通過抽樣和量化過程,并利用統(tǒng)計(jì)特性和聽覺特性對(duì)語音信息進(jìn)行壓縮編碼,最早也是最著名的波形基編碼就是PCM,波形基編碼包含三個(gè)過程:抽樣、量化和編碼;波形基編碼不適應(yīng)于低速話音編碼,一般屬于中高速編碼。

  參數(shù)基編碼是將語音信號(hào)用某種模型表示,僅僅對(duì)表示語音特征的參數(shù)進(jìn)行編碼。參數(shù)基編碼一般屬于中低速編碼。

  ITU-T在G系列建議中對(duì)語音編碼技術(shù)進(jìn)行了標(biāo)準(zhǔn)化,已經(jīng)公布了一系列語音編碼協(xié)議,采用波形基編碼的方式主要有G.711、G.721、G.722、G.723、G.726、G.727,采用參數(shù)基編碼方式的主要有G.728、G.729、G.729A、G.723.1。這些協(xié)議采用不同的算法,具有不同的速率。較高速率的編碼協(xié)議對(duì)話音質(zhì)量較易保證,但占用網(wǎng)絡(luò)資源較大;較低速率的編碼協(xié)議對(duì)話音質(zhì)量較難保證,但占用網(wǎng)絡(luò)資源小。這些語音壓縮方式的比較如表3所示。

  編碼壓縮方法由ITU-T統(tǒng)一制定并標(biāo)準(zhǔn)化,它的壓縮能力由DSP的處理能力決定,即復(fù)雜度。復(fù)雜度決定了編解碼器硬件的成本和功耗,也影響到編解碼器的實(shí)時(shí)性。復(fù)雜度的衡量指標(biāo)是定點(diǎn)DSP實(shí)現(xiàn)編解碼所需的處理器能力,以百萬指令/秒(MIPS)為單位。

  編碼壓縮僅負(fù)責(zé)對(duì)實(shí)際傳輸?shù)腎P包數(shù)據(jù)進(jìn)行壓縮,它不負(fù)責(zé)對(duì)IP頭壓縮。一般,IP/UDP頭(包括地址信息和控制信息)要耗去7kbit/s左右的帶寬。

  在實(shí)際選擇壓縮算法時(shí),要綜合考慮各種因素。例如,高比特率可以保證良好的話音品質(zhì),但要占用大量的存儲(chǔ)空間,耗費(fèi)更多的系統(tǒng)資源;而過低的比特率又會(huì)影響話音的品質(zhì)和增加延遲。所以,在較低比特率的前提下,保持較好的話音質(zhì)量,是選擇壓縮算法的原則。

  從互通性角度考慮,IP電話網(wǎng)關(guān)對(duì)其它編碼協(xié)議亦應(yīng)全部支持或部分支持。特別是對(duì)于G.729/ G.729A,由于其編碼速率亦較低。而且其編碼時(shí)延較G.723.1小,因此建議IP電話網(wǎng)中給予支持。

  為保證一定的通話質(zhì)量,網(wǎng)關(guān)必須設(shè)有輸入緩沖,以盡可能地消除時(shí)延抖動(dòng)對(duì)通話質(zhì)量的影響。另外,網(wǎng)關(guān)應(yīng)該具有語音編碼的動(dòng)態(tài)轉(zhuǎn)換功能,即網(wǎng)關(guān)設(shè)備能夠自動(dòng)地在較高速率的語音編碼和較低速率的語音編碼之間的轉(zhuǎn)換。當(dāng)網(wǎng)絡(luò)擁塞時(shí)可以由高碼速轉(zhuǎn)換到低碼速,當(dāng)網(wǎng)絡(luò)條件較好時(shí),可以由低碼速轉(zhuǎn)換到高碼速以提高語音質(zhì)量。語音編碼的動(dòng)態(tài)轉(zhuǎn)換是網(wǎng)關(guān)設(shè)備在IP電話QoS管理方面的一個(gè)重要功能。

(2)DTMF檢測(cè)

  DTMF信號(hào)傳輸在語音網(wǎng)絡(luò)中極為重要,因?yàn)榫W(wǎng)絡(luò)不僅傳輸被叫方的撥叫號(hào)碼,而且用來激活基本電路特性。信號(hào)質(zhì)量的衰減會(huì)影響到DTMF信號(hào)的識(shí)別。DTMF信號(hào)的失真又會(huì)影響話音服務(wù)的質(zhì)量。

  DTMF信號(hào)由電話鍵盤使用相同幅度的兩個(gè)不同的高頻和低頻來產(chǎn)生。網(wǎng)關(guān)需轉(zhuǎn)換電話中常用的DTMF信號(hào),應(yīng)能檢測(cè)DTMF信號(hào),并將其轉(zhuǎn)換為H.245消息中的"用戶輸入指示"信息單元予以傳送,可取值0~9、*和#,反之,應(yīng)能生成DTMF信號(hào)。

  網(wǎng)關(guān)中的低比特率編解碼器適用于語音信號(hào)而不是正弦信號(hào),它們會(huì)改變信號(hào)的頻率和幅度,所以難以傳輸DTMF信號(hào),并很難高保真地恢復(fù)它們。

(3) 靜音抑制

  靜音抑制,又稱語音活動(dòng)偵測(cè)(VAD)。靜音抑制的目的是從聲音信號(hào)流里識(shí)別和消除長時(shí)間的靜音期,以達(dá)到在不降低業(yè)務(wù)質(zhì)量的情況下節(jié)省話路資源的作用,它是IP電話應(yīng)用的重要組成部分。靜音抑制可以節(jié)省寶貴的帶寬資源,可以有利于減少用戶感覺到的端到端的時(shí)延。

  用戶打電話時(shí),并不是總在占用通話信道。根據(jù)傳統(tǒng)電話業(yè)務(wù)的統(tǒng)計(jì),一方用戶實(shí)際占用通話信道的時(shí)間不會(huì)超過整個(gè)通話時(shí)間的40%。這主要包括以下幾個(gè)方面的原因:一是正在聽對(duì)方說話;二是由于思考,稍事休息等原因引起的一段話之間的停頓;三是說話中間的停頓,如猶豫,呼吸,口吃等。第一種情況下停頓間隙長而出現(xiàn)頻率低;第三種情況停頓間隙短而出現(xiàn)頻率高;第二種情況界于一、三種情況之間。語音源的這種特性叫做開關(guān)特性,有時(shí)也叫話音/靜默特性。

  在用戶沒有講話時(shí),就沒有語音分組的發(fā)送,從而可以進(jìn)一步降低語音比特率。當(dāng)用戶的語音信號(hào)能量低于一定門限值時(shí)就認(rèn)為是靜默狀態(tài),也不發(fā)送語音分組。當(dāng)檢測(cè)到突發(fā)的活動(dòng)聲音時(shí)才生成語音信號(hào),并加以傳輸。運(yùn)用這種技術(shù)能夠獲得大于50%的帶寬。

  在進(jìn)行靜音檢測(cè)時(shí)有兩個(gè)問題需要注意:一是背景噪聲問題,即如何在較大的背景噪聲中檢測(cè)靜音;二是前后沿剪切問題。所謂前后沿剪切就是還原語音時(shí),由于從實(shí)際講話開始到檢測(cè)到語音之間有一定的判斷門限和時(shí)延,有時(shí)語音波形的開始和結(jié)束部分會(huì)作為靜音被丟掉,還原的語音會(huì)出現(xiàn)變化,因此需要在突發(fā)語音分組前面或后面增加一個(gè)語音分組進(jìn)行平滑以解決這一問題。

  在實(shí)際使用中,如果出現(xiàn)長時(shí)間的靜默,會(huì)使用戶感到很不自然。因此實(shí)際上接收端常常會(huì)在靜音期間發(fā)送一些分組,從而生成使用戶感覺舒服一些的背景噪聲,即所謂的舒適噪聲。

(4) 回聲處理

  回聲是信號(hào)通過網(wǎng)絡(luò)時(shí)的反射。本地?fù)P聲器輸出的模擬語音信號(hào)可能又被話筒接收,當(dāng)信號(hào)被傳回到源端時(shí),就會(huì)產(chǎn)生不必要的回聲。在傳統(tǒng)固話網(wǎng)中,從4線交換到2線本地環(huán)路時(shí)的阻抗會(huì)導(dǎo)致回聲,或者是由麥克風(fēng)和揚(yáng)聲器或耳機(jī)之間的耦合效果不好也會(huì)導(dǎo)致回聲。在IP網(wǎng)中,呼叫必須經(jīng)過多個(gè)路由器和網(wǎng)關(guān),其相當(dāng)長的延遲又會(huì)造成回聲問題的進(jìn)一步惡化。典型的延遲是16ms-20ms的回聲叫做側(cè)音,它有利于談話者聽到自己的聲音。但是延遲超過了25ms,聽到的聲音就會(huì)被扭曲,甚至中斷談話;芈暱梢杂没芈曄骷右钥刂。在VoIP網(wǎng)絡(luò)中,把回聲消除器放在了低比特編碼器中,并且運(yùn)行于每個(gè)DSP之上;芈曄鞯脑O(shè)計(jì)受到等待接收反射回來的話音的整個(gè)時(shí)間大小的限制。

2、 承載的IP網(wǎng)絡(luò)

  承載的IP網(wǎng)絡(luò)基于TCP/IP協(xié)議進(jìn)行數(shù)據(jù)包的分組交換,是面向無連接網(wǎng)絡(luò),其傳輸特性無法得到保證。每個(gè)分組包含源和目的IP地址,分組包既沒有標(biāo)記為屬于某一個(gè)特定的流或者一個(gè)連接,也沒有以任何方式進(jìn)行編號(hào)。每個(gè)IPv4節(jié)點(diǎn)盡其最大的努力,對(duì)每個(gè)分組獨(dú)立進(jìn)行路由轉(zhuǎn)發(fā),并在網(wǎng)絡(luò)中獨(dú)立傳遞,達(dá)到同一目的地分組的路由不一定相同,到達(dá)時(shí)間也是不固定且非實(shí)時(shí)的,最后在目的節(jié)點(diǎn)緩沖區(qū)重新組成數(shù)據(jù)。因此數(shù)據(jù)包傳送所需時(shí)延無法保證,途中的丟包更無法控制,并造成IP包傳輸?shù)臅r(shí)延抖動(dòng)。

  承載的IP網(wǎng)絡(luò)的上述機(jī)制能夠較好地支持非實(shí)時(shí)的數(shù)據(jù)業(yè)務(wù),但對(duì)實(shí)時(shí)業(yè)務(wù)支持不夠。盡管IP協(xié)議中有業(yè)務(wù)類別的區(qū)別,用戶依此表示為網(wǎng)絡(luò)的時(shí)延,帶寬以及安全性等特征參數(shù),從而來獲取希望的QoS,但在實(shí)際的IP網(wǎng)絡(luò)中,并沒有真正完全參照這些參數(shù)(業(yè)務(wù)類別的劃分及對(duì)應(yīng)的QoS參數(shù))來使用。因此傳統(tǒng)的IP網(wǎng)傳送實(shí)時(shí)的VoIP業(yè)務(wù)能力較差。

  在IP電話業(yè)務(wù)中,網(wǎng)絡(luò)和網(wǎng)關(guān)帶來的時(shí)延都可能會(huì)嚴(yán)重地影響語音質(zhì)量,這就要求運(yùn)營商必須提供高質(zhì)量的IP網(wǎng)絡(luò)。這可以通過兩種途徑來解決,一是增加網(wǎng)絡(luò)帶寬,二是通過在網(wǎng)絡(luò)中實(shí)現(xiàn)QoS服務(wù)來實(shí)現(xiàn)帶寬的合理利用,從而滿足IP電話業(yè)務(wù)對(duì)實(shí)時(shí)性的要求。

  足夠的帶寬是確保語音數(shù)據(jù)包無延時(shí)地到達(dá)目的地所必須的。如果網(wǎng)絡(luò)正面臨阻塞問題時(shí),就需要更大的網(wǎng)絡(luò)帶寬來解決這個(gè)問題,僅僅采用優(yōu)先機(jī)制只能部分消除分組包的丟失問題。假如不希望丟棄任何數(shù)據(jù)包的話,就必須增加帶寬了。

  實(shí)現(xiàn)業(yè)務(wù)傳輸優(yōu)先級(jí)保證的關(guān)鍵在于引入一種服務(wù)質(zhì)量機(jī)制(QoS),允許網(wǎng)絡(luò)將不同類型的業(yè)務(wù)置于特定的QoS隊(duì)列中,使得語音業(yè)務(wù)的傳輸優(yōu)先級(jí)高于數(shù)據(jù)業(yè)務(wù),從而降低隊(duì)列延時(shí),實(shí)時(shí)性得到保障。 四、 IP電話語音質(zhì)量的測(cè)試 IP電話業(yè)務(wù)的主觀評(píng)定MOS評(píng)分由測(cè)試人員通過通話根據(jù)評(píng)分標(biāo)準(zhǔn)主觀評(píng)定的,可簡(jiǎn)單地由20-60個(gè)非專職測(cè)試者對(duì)所聽的話音進(jìn)行綜合打分,然后進(jìn)行統(tǒng)計(jì)分析。

  IP電話業(yè)務(wù)的客觀評(píng)定PSQM評(píng)分指標(biāo)可利用測(cè)試儀表進(jìn)行測(cè)試,目前國內(nèi)外眾多的測(cè)試儀表廠商已經(jīng)開發(fā)出許多用于PSQM評(píng)分值的測(cè)試儀表。Agilent公司的Telegra VQT語音質(zhì)量測(cè)試儀,能夠測(cè)試端到端語音時(shí)延、清晰度、靜音抑制和DTMF音調(diào)分析等參數(shù),能夠提供專業(yè)的端到端的語音質(zhì)量(PSQM)測(cè)試,并對(duì)話音質(zhì)量進(jìn)行客觀分析。美國Ameritec的解決方案為利用各種型號(hào)的大話務(wù)量呼叫器發(fā)起呼叫,并在其上配置"Golden Voice"復(fù)合音調(diào)發(fā)生器,利用呼叫產(chǎn)生的標(biāo)準(zhǔn)測(cè)試音信號(hào),在被叫端或呼叫經(jīng)過的網(wǎng)絡(luò)進(jìn)行話音質(zhì)量的分析和丟包、抖動(dòng)、沿切割、延時(shí)等測(cè)試。Spirent公司的Abcus測(cè)試儀也能完成PSQM評(píng)分指標(biāo)的測(cè)試。國內(nèi)的中創(chuàng)信測(cè)公司研制開發(fā)出了IP電話測(cè)試儀,中創(chuàng)的IP電話測(cè)試儀采用捕捉協(xié)議包的方式實(shí)時(shí)對(duì)H.323呼叫過程跟蹤分析,可進(jìn)行IP語音包的提取及語音質(zhì)量分析。

  關(guān)于IP電話業(yè)務(wù)的R值評(píng)分,目前國內(nèi)外還沒有這方面的測(cè)試儀表,相關(guān)研究機(jī)構(gòu)和測(cè)試儀表廠家正在積極地進(jìn)行E模型的研究與開發(fā)。

中國通信網(wǎng)(www.c114.net)
分類信息:     文摘