1關(guān)于語音編碼以及相關(guān)十大要素的討論
如果讀者想了解QoS保障的整體知識架構(gòu),筆者認(rèn)為讀者應(yīng)該首先對整體網(wǎng)絡(luò)環(huán)境的技術(shù)框架,和基本相關(guān)的細(xì)節(jié)有比較深入的了解。這些涵蓋的知識點包括,基本的VoIP基礎(chǔ)常識,RTP傳輸路徑,各種編碼和采樣率特性(包括比較早的帶編碼和最近的寬帶編碼),SIP/SDP基礎(chǔ),關(guān)于RTP封裝和RTCP的基礎(chǔ),語音質(zhì)量的評價標(biāo)準(zhǔn)的量化技術(shù)手段-MOS/R-Factor,影響QOS的十大相關(guān)因素。除了以上知識點,另外,讀者也需要了解針對某些特殊行業(yè)或者敏感行業(yè)對語音安全的加密要求。美國安全部門發(fā)布了assured SIP services(As-SIP)非規(guī)范的草案,針對語音加密提出來專門的架構(gòu)要求。在筆者的歷史文章中,筆者針對以上專題都做了非常深入和全面的討論,筆者認(rèn)為沒必要再重新發(fā)明輪子,重復(fù)介紹同樣的內(nèi)容,讀者可以參考一下鏈接學(xué)習(xí):
2vqmon 工具和RTCP XR支持
雖然前面筆者花費了大量的章節(jié)討論了關(guān)于QoS和MoS/R-Factor等語音質(zhì)量評價標(biāo)準(zhǔn)。但是,在實際IP語音方案的部署中,絕大部分的用戶仍然缺乏統(tǒng)一的規(guī)范的語音質(zhì)量評價標(biāo)準(zhǔn)來評價其語音質(zhì)量。大部分的用戶仍然靠耳朵聽來體驗其語音質(zhì)量,無標(biāo)準(zhǔn)的量化輸出結(jié)果和工具。雖然一些終端為了實現(xiàn)維護(hù)的便捷性也支持了MOS和R-Factor包括RCTP-XR,但是,服務(wù)器端或者其他的IPPBX不能支持,因此實現(xiàn)全流程的語音質(zhì)量標(biāo)準(zhǔn)檢測仍然是一個問題。這里,筆者認(rèn)為無論是用戶還是服務(wù)提供商可能缺乏對語音量化指標(biāo)使用認(rèn)識。他們可能認(rèn)為語音質(zhì)量評價或者M(jìn)OS/RCTP-XR基本上都屬于維護(hù)性工具,對用戶來說可能不是一個剛性需求。對用戶端來說,如果個體終端出現(xiàn)語音質(zhì)量問題的話,一般排查手段是通過抓包方式對每個特定終端檢查數(shù)據(jù)是否正常。對集成商來說,管理界面可能就配置了幾個常用的debug排查工具來排查問題,缺乏自動化的智能上報工具。但是,這些用戶基本上都忽略了基本事實,目前很多部署場景都是基于互聯(lián)網(wǎng)環(huán)境異地部署,大批量終端部署在不同的網(wǎng)絡(luò)環(huán)境中的特點。在這樣的復(fù)雜網(wǎng)絡(luò)環(huán)境中,終端如果對服務(wù)器端不能定期上報語音質(zhì)量統(tǒng)計數(shù)據(jù),而且服務(wù)器端也沒有支持對終端數(shù)據(jù)的實時采集,那么對系統(tǒng)的運營管理將是一個極大的挑戰(zhàn)。
在一個通話過程中,可能有多種原因會引起語音通話的質(zhì)量的變化,包括噪音,語音失真,音量或者增益過高或者過低,回音,語音間斷,軟硬件故障等各種問題。如果進(jìn)一步細(xì)化語音質(zhì)量的話,可能又分解為接聽語音質(zhì)量,通話中的語音質(zhì)量和傳輸質(zhì)量等。國際電信聯(lián)盟又進(jìn)一步將這些語音質(zhì)量分類細(xì)化為:
- MOS-AVQE :語音圖形化質(zhì)量;
- MOS-CQE :預(yù)估通話語音質(zhì)量;
- MOS-LQE :聽到的語音質(zhì)量;
- MOS-TQE:談話語音質(zhì)量;
- MOS-VQE :可描繪視頻質(zhì)量;
以下評價表是來自于RFC3611的關(guān)于RTCP XR評價的具體參數(shù),用戶可以閱讀RFC3611-4.7 章節(jié)關(guān)于 VoIP Metrics Report Block說明。
資料來源:RFC3611
目前,VQmon(Voice Quality Monitoring (VQMon)是一個非常專業(yè)的解決方案,它提供了針對MOS的完整支持,通過可感知的算法,支持了多種國際規(guī)范,包括ITU-T P.564, ITU-T G.107, ITU-T G.1020, ETSI TS 101 329-5 Annex E 和IETF RFC 3611等。它通過軟件API方式可以支持各種終端實現(xiàn)專業(yè)的MoS統(tǒng)計。著名的CounterPath 軟電話eyeBeam 就實現(xiàn)了VQmon的支持,Polycom的終端也支持了VQmon功能支持RTCP XR數(shù)據(jù)包的發(fā)送。VQmon可以軟件或者芯片方式支持SIP終端,網(wǎng)關(guān),SIP服務(wù)器/IPPBX和網(wǎng)關(guān)SBC設(shè)備。通過VQmon支持,用戶管理平臺可以非常輕松獲得全部設(shè)備終端的RTCP XR專業(yè)報告。
此圖例以及以下部分圖例均來自于互聯(lián)網(wǎng)資源
除了以上商業(yè)解決方案以外,目前很多的終端支持了RTCP-XR,例如polycom,Snom,yealink和Cisco等廠家的產(chǎn)品。針對服務(wù)器端管理平臺,HOMER(HEP)是比較完整的開源平臺,它可以支持其他的開源媒體服務(wù)器和SIP軟交換,實現(xiàn)比較完整的語音質(zhì)量管理。
3語音編碼研究成果分享
雖然目前市場上針對語音質(zhì)量評價和MOS已經(jīng)國際電信聯(lián)盟的標(biāo)準(zhǔn)和相關(guān)的官方,但是關(guān)于MOS的評價,以及各種窄帶和寬帶語音編碼的研究一直沒有停止。筆者在此章節(jié)和大家分享一些關(guān)于語音編碼研究的成果,希望通過市場產(chǎn)品結(jié)合學(xué)術(shù)領(lǐng)域的研究為讀者創(chuàng)建一個比較完整的關(guān)于語音編碼質(zhì)量以及MOS的知識架構(gòu)。
在過去的一個世紀(jì),人類的通信基本上依賴窄帶的語音進(jìn)行通信。其窄帶語音質(zhì)量基本上滿足了人類進(jìn)行正常語音溝通的要求。隨著科技的不斷發(fā)展,例如人工智能,語音識別和物聯(lián)網(wǎng)的興起,窄帶語音已經(jīng)不能完全滿足其應(yīng)用需求。目前市場上已經(jīng)出現(xiàn)了窄帶語音,寬帶語音, 超寬帶語音和全寬帶語音的應(yīng)用要求。在傳統(tǒng)的語音通信中,我們使用G.711已經(jīng)可以滿足語音通信的要求,而且MOS值最高到4.3。但是,隨著各種語音服務(wù)的不斷增加,運營商使用寬帶語音來進(jìn)行語音傳輸,例如G.722 等。寬帶,甚至于超寬帶語音可以支持更自然的語音,同時提供了語音的清晰度,和語音質(zhì)量。特別是針對語音發(fā)音中的一些輔音字母,例如S,或者F,我們使用G.711編碼是很難聽到字母輔音的,但是,如果我們使用寬帶語音編碼,例如G.722就可以聽到。所以,寬帶語音支持了更好的語音清晰度。
一些音樂產(chǎn)品,例如CD等,為了保證其音樂聲音更加圓潤飽滿,也需要使用寬帶編碼來處理。如果為了能夠適應(yīng)各種人類年齡段的聽覺的敏感度,可能需要使用全寬帶語音來獲得更好支持。顯然,根據(jù)以上討論,我們知道語音質(zhì)量MOS的評價最高設(shè)置為4.3。如果使用了更多高清語音編碼以后,MOS評價值設(shè)置為4.3顯然不能算是一個非常合理的評價。諾基亞研究院建議MOS評價值從4.3提高到9。諾基亞研究院使用諾基亞聽力檢測設(shè)備對窄帶,寬帶,超寬帶的編碼,單聲道語音和立體聲語音進(jìn)行了不同的對比試驗,通過調(diào)整其MOS和速率來檢測其最終測試結(jié)果,具體的試驗檢測場景如下:
通過研究人員發(fā)布的論文結(jié)果可以看出,使用超級寬帶編碼可以取得比較大的語音質(zhì)量提升。
我們都知道,IP語音通信系統(tǒng)是處于動態(tài)網(wǎng)絡(luò)環(huán)境中。呼叫路徑上的任何一個節(jié)點或者網(wǎng)元發(fā)生故障或者其他不穩(wěn)定問題都會影響語音質(zhì)量和MOS值。一些任意的和突發(fā)的網(wǎng)絡(luò)丟包會嚴(yán)重影響語音質(zhì)量。在不同環(huán)境不同終端使用了不同編碼情況下,或者在遇到網(wǎng)絡(luò)突發(fā)的丟包時,不同編碼會產(chǎn)生不同的語音質(zhì)量評價值(MOS)。研究人員Gaous Afrizal針對不同突發(fā)網(wǎng)絡(luò)問題帶來的網(wǎng)絡(luò)丟包,針對G.711,G.722, G.729, AMR-NB和AMR-WB做了對比分析。以下測試結(jié)果(RFC3551)包括任意網(wǎng)絡(luò)丟包環(huán)境中的AMR編碼和G729等編碼的MOS統(tǒng)計結(jié)果:
在突發(fā)丟包測試中,初期N=2時,G.711的MOS值必須仍然很好。
但是,隨著N的變化,其他編碼的表現(xiàn)開始逐漸優(yōu)于G.711 編碼。當(dāng)N=4或者N=5時,G.722-64 編碼的MOS值表現(xiàn)最好。
通過以上論文結(jié)果,我們可以看出寬帶編碼在當(dāng)前的網(wǎng)絡(luò)環(huán)境中,和其他窄帶編碼相比具有非常好的網(wǎng)絡(luò)適應(yīng)能力,可以保證更優(yōu)質(zhì)的語音質(zhì)量和相對比較高的MOS值。隨著寬帶語音編碼(HD voice)的不斷普及,越來越多的應(yīng)用場景開始使用寬帶編碼支持的語音實現(xiàn)會議功能,云融合通信等應(yīng)用。
4總結(jié)
語音質(zhì)量一直是SIP網(wǎng)絡(luò)推廣過程中用戶比較關(guān)心的問題。筆者通過針對語音質(zhì)量評價MOS的討論,為讀者提供了可量化的評價指標(biāo)詳細(xì)說明。一些QoS語音質(zhì)量保證需要依賴于各種節(jié)點的控制和管理,讀者通過歷史章節(jié)中關(guān)于QoS三個章節(jié)詳細(xì)說明了其具體的細(xì)節(jié)。雖然QoS保證可以通過多種方式來實現(xiàn),但是最終評價語音質(zhì)量還是需要依賴MOS評價指標(biāo)來檢測。在當(dāng)前的網(wǎng)絡(luò)環(huán)境中,窄帶編碼,寬帶編碼,超寬帶編碼以及全寬帶編碼已經(jīng)出現(xiàn)在了具體的應(yīng)用場景中。網(wǎng)絡(luò)管理平臺需要采集各種節(jié)點,終端和網(wǎng)關(guān)的RTCP-XR,VQmon是一個非常好的工具,它可以靈活支持各種SIP終端,網(wǎng)關(guān)等設(shè)備。諾基亞研究院通過MOS值調(diào)整,對各種語音做了充分的對比分析,值得讀者參考此結(jié)果做更深入分析。另外,針對網(wǎng)絡(luò)不穩(wěn)定環(huán)境中,語音編碼和MOS的相關(guān)性也是非常重要的。通過Gaous Afrizal研究論文,我們了解了在不同突發(fā)丟包環(huán)境中,G.722的MOS表現(xiàn)非常穩(wěn)定,優(yōu)于其他的語音編碼。因此,未來語音通信中,寬帶編碼將占據(jù)主流的位置,更多終端,服務(wù)器端將支持寬帶編碼。
參考資料:
- https://tools.ietf.org/id/draft-ietf-sipping-rtcp-summary-07.html
- https://datatracker.ietf.org/doc/html/rfc3611#section-4.7
- www.asterisk.org.cn
- www.dinstar.cn
- https://opensips.org/pub/events/2016-05-10_OpenSIPS-Summit_Amsterdam/Alexandr_Dubovikov-OpenSIPS_Summit2016-SIPCAPTURE_Troubleshooting.pdf
- https://www.voicehost.co.uk/help/call-quality-r-factor-and-mos
- Anssi R?m?,Nokia Research Center,VOICE QUALITY EVALUATION OF VARIOUS CODECS
- Gaous Afrizal, Impact of Random and Burst Packet Loss on Voice
- Codec G.711, G.722, G.729, AMR-NB, AMR-WB
- https://datatracker.ietf.org/doc/html/rfc3551