IMS網(wǎng)絡(luò)中基于冗余原則和機(jī)制的冗余方案
史健 劉璐 2010/07/01
隨著IMS網(wǎng)絡(luò)在國內(nèi)的大規(guī)模應(yīng)用,運(yùn)營商在給終端用戶提供豐富多彩的IP多媒體業(yè)務(wù)的同時(shí),也非常重視IMS網(wǎng)絡(luò)的高可用性。只有具備高可用性的IMS網(wǎng)絡(luò)才能給用戶提供更高的服務(wù)質(zhì)量,同時(shí)也能相應(yīng)增加運(yùn)營商的業(yè)務(wù)收入。實(shí)現(xiàn)IMS網(wǎng)絡(luò)高可用性的有效方法是提供各種層面的冗余特性,本文從IMS網(wǎng)絡(luò)的各種冗余原則和機(jī)制入手,來探討IMS網(wǎng)絡(luò)的冗余方案。
IMS網(wǎng)絡(luò)中的各種冗余原則和機(jī)制
IMS網(wǎng)絡(luò)冗余指的是整個網(wǎng)絡(luò)提供的冗余功能,從圖1 IMS冗余模型中我們可以看出IMS網(wǎng)絡(luò)冗余可以分為以下5個層面:
硬件平臺冗余
提供接口、存儲介質(zhì)、處理器/刀片級的冗余。愛立信IMS系統(tǒng)中使用的硬件平臺主要有TSP(Telecom Server Platform)、IS(Integrated
Site)、SUN和HP服務(wù)器,均支持硬件平臺的冗余。
對于接口來講,各種節(jié)點(diǎn)提供的以太網(wǎng)接口和7號信令接口都采用1+1或者N+1的冗余機(jī)制,一旦有接口出現(xiàn)故障應(yīng)能實(shí)現(xiàn)自動切換并且不影響當(dāng)時(shí)提供的業(yè)務(wù)。對存儲介質(zhì)來講,保存數(shù)據(jù)的內(nèi)存(如TSP的內(nèi)存數(shù)據(jù)庫)和硬盤應(yīng)采用1+1的冗余機(jī)制,如磁盤鏡像等。對處理器/刀片來講,各個硬件平臺上的處理器和刀片應(yīng)能提供1+1或者N+1的冗余機(jī)制,一旦有單個處理器或刀片出現(xiàn)故障,可以實(shí)現(xiàn)自動切換并且對業(yè)務(wù)不會造成任何影響。在IS平臺中由刀片系統(tǒng)提供刀片級的1+1或N+1冗余保護(hù)。TSP平臺提供TP(Traffic
Processor)構(gòu)成的“業(yè)務(wù)處理器池”來實(shí)現(xiàn)冗余,并用VIP(Virtual IP)地址代表某個應(yīng)用(如HSS),而不是具體某個處理器。
站點(diǎn)的IP架構(gòu)冗余
提供以太網(wǎng)交換機(jī)、路由器和防火墻等設(shè)備的硬件冗余,同時(shí)支持服務(wù)器負(fù)載均衡(SLB)等功能,以提高站點(diǎn)IP架構(gòu)的可用性。
邏輯節(jié)點(diǎn)資源冗余
提供節(jié)點(diǎn)資源的冗余,如軟件資源和數(shù)據(jù)庫等。在IMS網(wǎng)絡(luò)中,各節(jié)點(diǎn)應(yīng)采用1+1或N+1冗余機(jī)制,對于重要節(jié)點(diǎn)(如保存計(jì)費(fèi)信息的計(jì)費(fèi)網(wǎng)關(guān)、保存用戶業(yè)務(wù)處理數(shù)據(jù)的HSS等節(jié)點(diǎn))應(yīng)采用“主用/熱備用”的1+1冗余方式,一旦發(fā)生切換,所有重要信息如計(jì)費(fèi)數(shù)據(jù)、用戶業(yè)務(wù)和狀態(tài)信息等都不會丟失。
站點(diǎn)冗余
包括單站點(diǎn)實(shí)現(xiàn)的本地冗余和多站點(diǎn)實(shí)現(xiàn)的異地冗余。由于各種原因造成的節(jié)點(diǎn)故障,可以首先使用本地冗余機(jī)制,即使用同站點(diǎn)內(nèi)的相應(yīng)備用節(jié)點(diǎn),若不成功則切換到異地冗余站點(diǎn)相應(yīng)的節(jié)點(diǎn)上。而對于各種自然災(zāi)害(如地震、水災(zāi)等)和人為災(zāi)害(如恐怖襲擊)導(dǎo)致的整個站點(diǎn)故障,只能用異地冗余來提供IMS網(wǎng)絡(luò)的高可用性,即所有業(yè)務(wù)都切換到異地的備用站點(diǎn)上。當(dāng)出現(xiàn)整個站點(diǎn)故障時(shí),按照3GPP
TR 23.820(Study on IMS Restoration Procedures,Release 8)規(guī)范的描述,所有正在進(jìn)行的會話都會終止并且這些會話的計(jì)費(fèi)信息也會丟失,所有UE需要發(fā)起重注冊請求以便恢復(fù)相關(guān)業(yè)務(wù),而且在此時(shí)IMS網(wǎng)絡(luò)所提供的業(yè)務(wù)主要為基本話音業(yè)務(wù)。所以在進(jìn)行IMS網(wǎng)絡(luò)異地冗余的設(shè)計(jì)時(shí),首先考慮所有與話音業(yè)務(wù)相關(guān)的節(jié)點(diǎn),而其它非話音業(yè)務(wù)相關(guān)的節(jié)點(diǎn),如AP(Aggregation
Proxy)、WUIGM(Web User Interface for Group and Data Management)等可以先不考慮異地冗余,進(jìn)而降低IMS網(wǎng)絡(luò)的投資成本。
配置層面的冗余方案
IMS網(wǎng)絡(luò)冗余方案的設(shè)計(jì)和網(wǎng)絡(luò)配置對于提高IMS網(wǎng)絡(luò)冗余特性是十分必要的。如果IMS網(wǎng)絡(luò)中某些節(jié)點(diǎn)或平臺不支持1+1或N+1冗余機(jī)制,那么就必須采用特定的網(wǎng)絡(luò)設(shè)計(jì)和配置,使這些節(jié)點(diǎn)不會成為IMS網(wǎng)絡(luò)中的“單故障節(jié)點(diǎn)”而危及IMS網(wǎng)絡(luò)的高可用性。對于IMS異地冗余方案,由于某些節(jié)點(diǎn)可能不支持異地冗余機(jī)制,也需要采用特定的配置來避免“單故障節(jié)點(diǎn)”,比如通過Diameter重定向代理的配置來提供兩個目的地主機(jī)AVP,讓Diameter客戶端收到這兩個冗余的目的地主機(jī)AVP,當(dāng)?shù)谝粋Diameter服務(wù)器出現(xiàn)故障,Diameter客戶端可以自動切換到第二個Diameter服務(wù)器。
IMS網(wǎng)絡(luò)的冗余機(jī)制可以有1+1和N+1等不同方式,這些冗余機(jī)制適用于硬件平臺、站點(diǎn)的IP架構(gòu)、節(jié)點(diǎn)資源以及站點(diǎn)等IMS網(wǎng)絡(luò)冗余的不同層面。1+1和N+1的冗余機(jī)制可以通過節(jié)點(diǎn)的不同工作方式來實(shí)現(xiàn)。節(jié)點(diǎn)的工作方式主要有:主用/主用方式和主用/備用方式。
主用/主用方式:在正常情況下,用戶的業(yè)務(wù)由兩個節(jié)點(diǎn)以負(fù)載分擔(dān)的方式共同完成。當(dāng)出現(xiàn)節(jié)點(diǎn)故障時(shí),故障節(jié)點(diǎn)的業(yè)務(wù)可以切換到另一個節(jié)點(diǎn)上。
主用/備用方式:在正常情況下,用戶的業(yè)務(wù)都由主用節(jié)點(diǎn)來完成,備用節(jié)點(diǎn)上的資源與主用節(jié)點(diǎn)完全相同。根據(jù)備用節(jié)點(diǎn)與主用節(jié)點(diǎn)之間的數(shù)據(jù)狀態(tài)關(guān)系,備用節(jié)點(diǎn)的工作方式又分為熱備用(hot
standby)、暖備用(warm standby)和冷備用(cold standby)。
- 熱備用指的是備用節(jié)點(diǎn)具有與主用節(jié)點(diǎn)完全一樣的數(shù)據(jù)狀態(tài)信息,一旦主用節(jié)點(diǎn)故障,備用節(jié)點(diǎn)可以立即切換,接替故障的主用節(jié)點(diǎn)來提供服務(wù),在切換過程中重要的數(shù)據(jù)如計(jì)費(fèi)信息、會話的狀態(tài)信息和用戶的注冊數(shù)據(jù)等都不會丟失!
- 暖備用指的是備用節(jié)點(diǎn)具有與主用節(jié)點(diǎn)一樣的一些數(shù)據(jù)信息,但不包含狀態(tài)信息,備用節(jié)點(diǎn)可以立即切換,接替故障的主用節(jié)點(diǎn)來提供服務(wù),切換過程中計(jì)費(fèi)和會話的狀態(tài)信息會丟失,但用戶的注冊數(shù)據(jù)不會丟失。
- 冷備用指的是備用節(jié)點(diǎn)不具備與主用節(jié)點(diǎn)相同的數(shù)據(jù)狀態(tài)信息,一旦主用節(jié)點(diǎn)故障,備用節(jié)點(diǎn)可以切換,但在切換過程中計(jì)費(fèi)信息、會話的狀態(tài)信息和用戶的注冊數(shù)據(jù)等都會丟失,用戶的UE必須發(fā)起重注冊才能使用IMS業(yè)務(wù)。
下面的例子具體介紹在1+1或N+1冗余機(jī)制中愛立信IMS網(wǎng)絡(luò)的切換及恢復(fù)原則——“DNS查詢與隔離”。
IMS網(wǎng)絡(luò)中的節(jié)點(diǎn)在完成SIP消息轉(zhuǎn)發(fā)時(shí),DNS客戶端用目的地節(jié)點(diǎn)的FQDN向DNS服務(wù)器查詢,DNS服務(wù)器返回SRV響應(yīng)包含兩個目的地節(jié)點(diǎn)的IP地址和端口號。DNS
SRV記錄決定這兩個目的地節(jié)點(diǎn)IP地址的優(yōu)先級與權(quán)重,通過使用DNS SRV記錄,目的地節(jié)點(diǎn)可以被配置成負(fù)載分擔(dān)或主/備用的工作方式。DNS客戶端將收到的SRV響應(yīng)保存在緩存列表中,然后將SIP消息轉(zhuǎn)發(fā)給列表中第一個目的地節(jié)點(diǎn)的IP地址并啟動一個計(jì)時(shí)器,若計(jì)時(shí)器超時(shí)后仍然沒有得到任何響應(yīng),則DNS客戶端向緩存列表中的第二個目的地節(jié)點(diǎn)IP地址重傳該SIP消息,此時(shí)完成了切換。根據(jù)RFCs
3263(Session Initiation Protocol【SIP】:Locating SIP Servers)和RFC 2308(Negative
Caching of DNS Queries【DNS NCACHE】)的流程,DNS客戶端能夠從FQDN緩存列表中將故障目的地去除,并自動切換到列表中的下一個目的地。當(dāng)目的地節(jié)點(diǎn)出現(xiàn)故障后,為了將故障節(jié)點(diǎn)隔離,DNS客戶端將該目的地的IP地址從DNS緩存列表中去除,放入隔離列表,然后啟動隔離計(jì)時(shí)器。當(dāng)隔離計(jì)時(shí)器到時(shí),故障的目的地節(jié)點(diǎn)IP地址會被從隔離列表中取出,重新放回到DNS緩存列表中。若此時(shí)目的地節(jié)點(diǎn)故障已修復(fù),DNS客戶端將SIP消息轉(zhuǎn)發(fā)到該節(jié)點(diǎn)從而實(shí)現(xiàn)切換恢復(fù),即該節(jié)點(diǎn)又作為先前的主用節(jié)點(diǎn)來處理業(yè)務(wù)。若此時(shí)目的地節(jié)點(diǎn)故障仍未修復(fù),則DNS客戶端再將其IP地址從DNS緩存列表中去除,并再次放入隔離列表中,重復(fù)上述隔離操作直到目的地節(jié)點(diǎn)故障修復(fù)為止。
另外在愛立信IMS網(wǎng)絡(luò)中還有一種實(shí)現(xiàn)異地冗余的專用機(jī)制-Diameter多連接。TSP平臺的Diameter客戶端(如S-CSCF)與Diameter服務(wù)器(如HSS)在兩個TSP區(qū)域(Zone)之間實(shí)現(xiàn)異地冗余。Diameter客戶端可以分別使用主用和備用Diameter服務(wù)器的本地VIP地址,建立與主、備用Diameter服務(wù)器的多個Diameter連接。
正常情況下Diameter客戶端與服務(wù)器之間的所有業(yè)務(wù)都由主用的Diameter服務(wù)器處理。當(dāng)主用的Diameter服務(wù)器出現(xiàn)故障,客戶端與先前的主用服務(wù)器之間連接中斷,Diameter客戶端自動建立與新的主用服務(wù)器(原來的備用服務(wù)器)之間的連接。Diameter客戶端使用基于DWR/DWA消息的心跳機(jī)制來檢測Diameter連接的狀態(tài)。在目前的Diameter協(xié)議棧中有一個切換計(jì)時(shí)器(DWR計(jì)時(shí)器的3倍時(shí)長)。最小的DWR時(shí)長為6秒,所以經(jīng)過18秒可以檢測出Diameter連接中斷,Diameter服務(wù)器進(jìn)行切換。HSS作為Diameter服務(wù)器,通過這種主用/熱備用的工作方式實(shí)現(xiàn)異地冗余。
IMS網(wǎng)絡(luò)中的冗余方案
IMS網(wǎng)絡(luò)中的冗余方案可以從硬件平臺、站點(diǎn)的IP架構(gòu)、節(jié)點(diǎn)資源和站點(diǎn)冗余等多個層面進(jìn)行設(shè)計(jì),其中站點(diǎn)冗余又包括單站點(diǎn)實(shí)現(xiàn)的本地冗余和多站點(diǎn)實(shí)現(xiàn)的異地冗余。由于異地冗余具有容災(zāi)和應(yīng)對節(jié)點(diǎn)故障等特性,因此能夠?yàn)镮MS網(wǎng)絡(luò)提供高可用性。圖2為愛立信的IMS網(wǎng)絡(luò)異地冗余方案。對于用戶組A和B來講,整個網(wǎng)絡(luò)配置成主用站點(diǎn)和備用站點(diǎn)。在正常情況下,站點(diǎn)1為主用站點(diǎn),為用戶組A提供服務(wù);站點(diǎn)2為備用站點(diǎn),實(shí)現(xiàn)從主用站點(diǎn)的切換,同時(shí)也為用戶組B提供服務(wù)。主用站點(diǎn)與備用站點(diǎn)實(shí)現(xiàn)1+1冗余方式。在做網(wǎng)絡(luò)規(guī)劃時(shí),考慮到站點(diǎn)切換,正常情況下主用與備用站點(diǎn)分別處理最多50%的業(yè)務(wù)。站點(diǎn)3為運(yùn)營商的網(wǎng)管中心,包括EMA業(yè)務(wù)開通系統(tǒng)和DNS存儲服務(wù)器等。
通過配置DNS SRV記錄并給予不同優(yōu)先級和權(quán)重,可以實(shí)現(xiàn)節(jié)點(diǎn)間的冗余。用戶組A使用站點(diǎn)1為主用站點(diǎn),站點(diǎn)2為備用站點(diǎn);用戶組B使用站點(diǎn)2為主用站點(diǎn),站點(diǎn)1為備用站點(diǎn)。
P-CSCF、S-CSCF和A-SBC采用主用/冷備用工作方式,備用節(jié)點(diǎn)不具備與主用節(jié)點(diǎn)相同的會話處理狀態(tài)信息,切換到備用節(jié)點(diǎn)后,計(jì)費(fèi)信息、會話狀態(tài)信息和用戶注冊數(shù)據(jù)都會丟失,用戶的UE必須發(fā)起重注冊才能使用IMS業(yè)務(wù)。
SLF、I-CSCF、E-CSCF、N-SBC、DNS、MTAS、MGC和MGW采用主用/暖備用工作方式,備用節(jié)點(diǎn)具有與主用節(jié)點(diǎn)一致的數(shù)據(jù)信息,但不包括狀態(tài)信息,備用節(jié)點(diǎn)可以很快完成切換,但會導(dǎo)致計(jì)費(fèi)和當(dāng)前會話數(shù)據(jù)丟失。由于這些節(jié)點(diǎn)上不存儲用戶的注冊數(shù)據(jù),所以不需UE發(fā)起重注冊。
HSS采用主用/熱備用工作方式,正常情況下站點(diǎn)1的HSS為主用節(jié)點(diǎn),處理所有的用戶業(yè)務(wù),站點(diǎn)2的HSS為熱備用節(jié)點(diǎn),它會根據(jù)主用節(jié)點(diǎn)送來的實(shí)時(shí)狀態(tài)信息更新相應(yīng)的數(shù)據(jù)狀態(tài)。正常情況下熱備用HSS節(jié)點(diǎn)不處理用戶業(yè)務(wù)。只有當(dāng)主用HSS出現(xiàn)節(jié)點(diǎn)故障,熱備用HSS完成切換后才處理所有用戶業(yè)務(wù)。在切換過程中由于熱備用HSS具有與主用HSS完全一致的數(shù)據(jù)狀態(tài),用戶注冊數(shù)據(jù)不會丟失,所以不需要用戶發(fā)起重注冊就可以繼續(xù)為所有用戶提供服務(wù)。
結(jié)束語
隨著IMS網(wǎng)絡(luò)在國內(nèi)的大規(guī)模部署,IMS網(wǎng)絡(luò)的高可用性就變得尤為重要。實(shí)現(xiàn)IMS網(wǎng)絡(luò)高可用性的有效方法就是提供各種層面的冗余特性。本文從硬件平臺、站點(diǎn)的IP架構(gòu)、邏輯節(jié)點(diǎn)資源和站點(diǎn)冗余等幾個層面分析了IMS網(wǎng)絡(luò)中的各種冗余原則和機(jī)制,解釋了節(jié)點(diǎn)的不同冗余工作方式,最后介紹了愛立信的IMS網(wǎng)絡(luò)異地冗余解決方案。由于篇幅所限,其中的一些細(xì)節(jié)內(nèi)容,如IMS異地冗余的配置信息、發(fā)生節(jié)點(diǎn)故障后相應(yīng)的切換和恢復(fù)流程等,未能詳盡描述。作為IMS全套培訓(xùn)解決方案提供者,愛立信中國學(xué)院提供關(guān)于IMS網(wǎng)絡(luò)設(shè)計(jì)和冗余方案的培訓(xùn)課程,如IMS網(wǎng)絡(luò)設(shè)計(jì)、IMS節(jié)點(diǎn)配置等,可以幫助大家進(jìn)一步了解細(xì)節(jié)。
通信世界網(wǎng)(www.cww.net.cn)
相關(guān)閱讀: