下一代網(wǎng)絡(luò)的“可視化”渴望
隨著網(wǎng)絡(luò)越來越復(fù)雜,對于網(wǎng)絡(luò)管理的需求也在發(fā)生變化。我們看到,網(wǎng)絡(luò)管理在朝著幾個方向發(fā)展,如可視化、自動化、智能化等。尤其可視化對于端到端的流量透視以及全網(wǎng)的安全策略管理等網(wǎng)絡(luò)整體性能管理和運維至關(guān)重要,成為網(wǎng)絡(luò)廠商的新發(fā)力點。
Gartner的調(diào)查結(jié)果表明,“主動預(yù)防網(wǎng)絡(luò)性能問題”是當(dāng)前企業(yè)客戶首要的運維投資驅(qū)動力,占整個投資的27%,而“快速網(wǎng)絡(luò)故障診斷”、“業(yè)務(wù)質(zhì)量保障SLA”分別排在第二、第三位,其投資驅(qū)動力分別為15%、12%。
傳統(tǒng)上,IP網(wǎng)絡(luò)運維存在多點“不可視”。例如,業(yè)務(wù)性能不可視,也就是說傳統(tǒng)網(wǎng)絡(luò)管理只提供網(wǎng)絡(luò)的性能,看不到網(wǎng)絡(luò)上的承載內(nèi)容,導(dǎo)致故障認知盲點多,故障定位效率低。再如,傳統(tǒng)網(wǎng)管路由不可視,看不到業(yè)務(wù)路徑,導(dǎo)致運維人員無法預(yù)防路由振蕩引起的全網(wǎng)故障。
是否有方法徹底解決網(wǎng)絡(luò)運維中的上述“盲點”?
在華為看來,首先要轉(zhuǎn)變思維,將傳統(tǒng)的被動網(wǎng)絡(luò)運維轉(zhuǎn)變?yōu)橹鲃泳W(wǎng)絡(luò)運維,實現(xiàn)對終端用戶的業(yè)務(wù)體驗監(jiān)控,對潛在的故障點和薄弱環(huán)節(jié)進行精確判斷,才能做到科學(xué)、高效的“水來土掩、兵來將擋”。
傳統(tǒng)故障檢測的“罩門”
網(wǎng)絡(luò)故障診斷和質(zhì)量評價等問題是網(wǎng)絡(luò)維護的核心問題之一。通常情況下,IT管理員不能確定網(wǎng)絡(luò)是否有故障隱患,也不會知道在哪里發(fā)生了故障,因此對視頻、語音和上網(wǎng)等業(yè)務(wù)的性能質(zhì)量無法客觀評價。傳統(tǒng)園區(qū)網(wǎng)業(yè)務(wù)的性能故障診斷缺乏有效的E2E定位手段,導(dǎo)致故障診斷時間長、難度大,難以滿足用戶要求。
網(wǎng)絡(luò)性能故障診斷和質(zhì)量評價十分重要,目前有多家研究團體和標(biāo)準(zhǔn)組織從事技術(shù)研究和標(biāo)準(zhǔn)制定。IETF 制定了RFC5357 (A Two-Way Active Measurement Protocol)和RFC4656(A One-way Active Measurement Protocol (OWAMP)用于IP網(wǎng)絡(luò)的性能統(tǒng)計和故障檢測。與此同時,Cisco推出了私有的SAA(服務(wù)保障代理)方案,華為公司則采用NQA(網(wǎng)絡(luò)質(zhì)量分析)機制,以響應(yīng)IP網(wǎng)絡(luò)可維護、可運營的訴求。所有這些用于IP的故障檢測機制有一個共同特點:它們都是一種間接測量方法,需要通過插入專用的檢測報文,計算檢測報文丟包率來間接推導(dǎo)出業(yè)務(wù)丟包率。而IP通信是無連接的,檢測報文經(jīng)過的路徑并不一定就是業(yè)務(wù)報文經(jīng)過的路徑,這導(dǎo)致檢測出的路徑質(zhì)量不能真實反映業(yè)務(wù)報文的傳輸狀況。
網(wǎng)絡(luò)包守恒算法iPCA
企業(yè)園區(qū)網(wǎng)絡(luò)的運營維護不僅僅要關(guān)注網(wǎng)絡(luò)功能和性能,更要從用戶與業(yè)務(wù)對網(wǎng)絡(luò)的要求出發(fā),關(guān)注用戶體驗和網(wǎng)絡(luò)質(zhì)量。華為S12700敏捷交換機的iPCA提供的網(wǎng)絡(luò)包守恒算法,能夠快速檢測任意用戶的視頻、語音等業(yè)務(wù)質(zhì)量,即刻定位故障發(fā)生在鏈路、板卡甚至芯片的位置,大大提升了運維效率。網(wǎng)絡(luò)能用與好用是完全不同的兩個境界,iPCA無疑實現(xiàn)了從“能用”到”好用”的飛躍。
iPCA(Packet Conservation Algorithm for Internet,網(wǎng)絡(luò)包守恒算法)是一種基于直接測量方式檢測網(wǎng)絡(luò)質(zhì)量狀況的管道監(jiān)控類技術(shù),它可以測量網(wǎng)絡(luò)的丟包、時延、時延抖動和流量,并通過逐跳檢測,完成故障精確定位。針對現(xiàn)有的檢測手段存在故障定位時間長、故障定界模糊和評估精度差等問題, 華為新推出S12700敏捷交換機,利用其靈活可編程的特點,開創(chuàng)性地實現(xiàn)了iPCA功能,全面提升網(wǎng)絡(luò)質(zhì)量檢測和故障精確定位能力,降低網(wǎng)絡(luò)運維成本。
iPCA原理示意圖
如上圖所示,iPCA方案包括兩部分:測量控制服務(wù)器和敏捷交換機。測量控制服務(wù)器接收用戶對目標(biāo)業(yè)務(wù)流進行質(zhì)量檢測的請求,通知敏捷交換機進行檢測,收集各個敏捷交換機的統(tǒng)計信息,計算并形成報告。
總體說來,iPCA具有以下特點:
華為專利技術(shù),解決IP運維業(yè)界難題
華為創(chuàng)造性地利用了IPv4報文頭中至今唯一保留的bit位:Flags字段的第0位,用以對目標(biāo)業(yè)務(wù)流進行染色。由于絕大多數(shù)利用IP通信的業(yè)務(wù)都要有標(biāo)準(zhǔn)的IP報文頭,因此這種染色方法可不依賴于業(yè)務(wù)類型,方便設(shè)備進行硬件處理。
直接檢測機制,故障檢測精準(zhǔn)
對業(yè)務(wù)流質(zhì)量進行直接測量,無需插入測試流,檢測路徑與真實業(yè)務(wù)路徑合一,故障精準(zhǔn)定位到鏈路、板卡甚至芯片,對于時延、抖動、丟包的檢測精度更可達到99%以上,而其他IP故障檢測機制(如Cisco SAA)的檢測精度只能達到30%左右。
基于ENP以太網(wǎng)絡(luò)處理器,輕松實現(xiàn)對任意業(yè)務(wù)流進行檢測
為了對目標(biāo)業(yè)務(wù)流進行故障檢測,需要對業(yè)務(wù)流進行區(qū)分和著色,傳統(tǒng)的交換機只能用有限的ACL資源進行業(yè)務(wù)流識別,且只能用CPU對報文進行染色,性能低下,無法規(guī)模部署。而基于ENP的S12700敏捷交換機支持高達256K ACL,可對任意業(yè)務(wù)流進行標(biāo)識,并且用微碼來對業(yè)務(wù)流進行染色,實現(xiàn)線性轉(zhuǎn)發(fā)。
iPCA應(yīng)用場景
iPCA應(yīng)用于多種場景,如園區(qū)、電力、IP RAN以及ISP鏈路租用等,通過對丟包、時延、抖動等網(wǎng)絡(luò)質(zhì)量的檢測,迅速定位視頻、語音、有線無線等應(yīng)用的故障原因。
iPCA園區(qū)應(yīng)用場景
如上圖所示,iPCA可逐段檢測接入、匯聚、核心乃至廣域各段的網(wǎng)絡(luò)指標(biāo)。故障定界迅速精確,可立刻判斷出故障發(fā)生在網(wǎng)絡(luò)中的某一塊板卡甚至某個芯片,為解決故障提供強有力的保證。即使在廣域網(wǎng)部分不支持iPCA特性,通過對廣域兩端的園區(qū)出口進行分析,亦可確認故障是否發(fā)生在廣域部分,明確責(zé)任歸屬。