- 編者按
- 定義高實用性需求
- 實用性計算
網(wǎng)絡(luò)對實用性的影響
實用性的"邏輯性"
- 故障原因
過載
有計劃和無計劃停機
非計劃關(guān)機的人為因素
管理非計劃關(guān)機
老化組件的影響
- 高實用性配置
聚類
硬件容錯
外設(shè)熱插拔和冗余
冗余系統(tǒng)插槽
群集在一個箱中
整合外設(shè)
包交換背板
網(wǎng)絡(luò)路由
- 實用性法則
- 結(jié)論
■ 編者按
有這么幾股力量都在推動具有經(jīng)濟效益的現(xiàn)貨組件的(COTS)高實用性的通信系統(tǒng)發(fā)展。放寬管制、融合語音和數(shù)據(jù)網(wǎng)絡(luò)、Internet,更不用說脆弱的經(jīng)濟了,所有這些都需要增值業(yè)務(wù),而增值業(yè)務(wù)的迅速發(fā)展,更容易實現(xiàn)并且可以帶來逐漸增長的用戶數(shù),并改善業(yè)務(wù)提供商整體投資的回報(ROI)。平衡這些需求對于業(yè)務(wù)提供商、系統(tǒng)開發(fā)商和類似的組件供應(yīng)商來說都代表著新的挑戰(zhàn)。
繼續(xù)使用COTS組件,是符合當今需求的通信解決方案,并且已經(jīng)證明由于規(guī)模經(jīng)濟和增長的互操作性,COTS組件能夠降低整體系統(tǒng)成本。通信設(shè)備制造商(TEM)可以解放出來集中精力整合現(xiàn)貨組件并增加具體的垂直服務(wù),這就產(chǎn)生了更短的方案開發(fā)時間。由于其利用了可獲得的,廣泛使用的成熟組件,因此COTS方法也降低了風險。
既然解決方案仍然需要滿足現(xiàn)存專用設(shè)備的系統(tǒng)實用性、質(zhì)量和性能特性,COTS方法也引起了一些有意思的困難。需要大量的分析工作來決定組件是否正確安裝,當被捆綁時,這些組件將產(chǎn)生足夠的價格點。但是,如果所有的組件能夠共同工作以提供可估計的可靠性水平,這才是唯一有效的。這一策略代表了可升級和可靠性從單塊集成電路的分離,其從一開始就被設(shè)計并完全在方案開發(fā)者的控制之下。
這種二分法是有挑戰(zhàn)性的,但是可以通過直接方式來分析,并顯示了其遵從基本的技術(shù)和經(jīng)濟原理。
這篇文章的目的就是提供對市場部門和形成產(chǎn)業(yè)的這一重要的技術(shù)力量的深入了解。其將含蓋實用性的基本內(nèi)容,包括它是如何被測量的;發(fā)生故障的最常見的原因和避免故障熟知的方法;網(wǎng)絡(luò)、系統(tǒng)和組件實用性的差別;以及故障群和冗余的概念。也將推薦8個最常見和最經(jīng)濟的高實用性結(jié)構(gòu),并提供每一個結(jié)構(gòu)的優(yōu)缺點。"高實用性經(jīng)濟"概念被提出以對決定每一結(jié)構(gòu)實用性代價背后的技術(shù)和科學提供最大的理解。這篇文章包括了每一個設(shè)計者在選擇COTS組件并規(guī)劃一個高實用性但是節(jié)約成本的通信系統(tǒng)結(jié)構(gòu)時,應(yīng)該熟記在心?quot;10條實用性理論"。
■ 定義高實用性需求
對于業(yè)務(wù)提供者來說,在節(jié)約成本系統(tǒng)上的高實用性業(yè)務(wù)對于他們的成功是至關(guān)重要的。放寬管制和更為激烈的競爭使得他們更加關(guān)注于其方案的經(jīng)濟性,但是他們也不愿意犧牲原系統(tǒng)的決定性作用。
幾個因素在業(yè)務(wù)提供者產(chǎn)生業(yè)務(wù)產(chǎn)值方面扮演了重要的作用
- 延長一個已有方案在市場中的時間;尤其是在網(wǎng)絡(luò)從TDM時期轉(zhuǎn)移到數(shù)據(jù)包(或者IP)時期的時候
- 改善方案的實用性;當它們不能有效運作時,也不能贏利。
- 盡可能快的把一個新業(yè)務(wù)推向市場,在盡可能節(jié)約成本的情況下拓展現(xiàn)存系統(tǒng)的能力和性能。創(chuàng)新性新業(yè)務(wù)將增加業(yè)務(wù)提供者的用戶數(shù)量,并允許他們把他們一般的固定管理費用集成在大量的增值用戶群上。
業(yè)務(wù)提供商一直在尋找縮減提供業(yè)務(wù)整體成本的方法--或者整體擁有成本,包括采購、開發(fā)、配置和運行的成本。為了能夠滿足這些要求,他們要求甚至更加便宜并且更靈活的系統(tǒng),這些系統(tǒng)仍然可以滿足現(xiàn)存專用設(shè)備的實用性、質(zhì)量和性能特性。這增加了它們提供者的壓力--就是通常叫成TEM的通用設(shè)備制造商。
傳統(tǒng)上,關(guān)鍵的通信應(yīng)用存在于昂貴的、專用單塊集成電路系統(tǒng)上,這些系統(tǒng)使用特定的硬件和軟件建立,并從根本上設(shè)計來產(chǎn)生高層次的實用性和決定性。但是,建設(shè)、配置、維護和運行這些系統(tǒng)的高成本是和低成本、開放標準方法不可比擬的,這種方法最初在臺式電腦領(lǐng)域出現(xiàn),現(xiàn)在建模在Internet后的下一代基于IP的網(wǎng)絡(luò)中已變得普遍深入。因此,許多TEM們已經(jīng)開始注意COTS方法。
已經(jīng)被廣泛接受的一點是COTS組件可以降低系統(tǒng)整體成本。COTS可以使得業(yè)務(wù)提供商和TEM們產(chǎn)生收入,并保持競爭力,這是因為組件成本被優(yōu)化了,投入市場的時間縮短了,并由于增加的競爭力、多組件資源、較少的開發(fā)風險、可升級和可預計的可靠性及性能(或者決定性)的驅(qū)動而使性能得到了改善。
COTS組件開發(fā)者擁有專業(yè)技能來建立水平的、成本優(yōu)化的構(gòu)建模塊,這些模塊可以應(yīng)用于廣泛的垂直解決方案中。例如,一個良好規(guī)劃的構(gòu)建模塊,比如一個網(wǎng)絡(luò)接口,可以用在通信交換、語音郵件應(yīng)用和互動語音應(yīng)答(IVR)應(yīng)用中。因此,供應(yīng)商可以把產(chǎn)品賣給幾個TEM,以更少的成本實現(xiàn)更多相同的事情。在傳統(tǒng)的模型中,每一個TEM需要專業(yè)技能來建立這些一般功能建設(shè)模塊,并且由于他們的專業(yè)化將建立更少的模塊。應(yīng)用COTS建設(shè)模塊方法,TEM們可以集中來增加專業(yè)化垂直商業(yè)邏輯在通用建設(shè)模塊的上面以滿足他們用戶的需要。這就極大地縮減了他們整體開發(fā)的工作量和開發(fā)更低成本的組件。已經(jīng)不斷地顯示出,開放的標準COTS組件可以從根本上降低TEM的開發(fā)成本和投入市場時間,這些組件可以與方案中其它元素高度地相互操作。
由于建設(shè)模塊可以從多種資源獲得,TEM們也可以在從供應(yīng)商間的競爭中獲益時避免制造商封閉,這種競爭將帶來更低的價格和迅速的組件改善。
對于業(yè)務(wù)提供商來說,既然他們擁有降低的方案開發(fā)成本和更低的配置和操作成本,COTS可以有助于最小化TCO。
■ 實用性計算
許多時候經(jīng)常把可靠性和實用性等同起來,當然兩個概念對于高實用性概念來說都是十分重要的。所以當定義實用性時,注意到術(shù)語間細微的差別是十分有用的:
- 可靠性是某件事在一段具體時間內(nèi)不會失敗的可能性
- 實用性是一項業(yè)務(wù)可以獲得的時間和整體時間的比率。換句話說:
實用性=MTTF/(MTTF+MTTR),此處MTTF代表故障的平均時間而MTTR代表修復的平均時間。
當MTTF增加到無限,MTTR減少到零時,實用性接近100%;百分比越高,越好。
正如表中建議的那樣,實用性尤其在非常接近1的區(qū)間內(nèi)才被討論。盡管99%的正常運行時間看起來很好,它仍然將導致每年超過3天半的故障時間。大部分方案不會被認為是高可用的,直到它們接近99.9%的運行時間--大概每年9個小時的故障時間。但是,通信行業(yè)使用4個9級別到5個9級別范圍的實用性。
問題是越高的實用性,將要求提供業(yè)務(wù)越高的成本。對業(yè)務(wù)提供商、他們系統(tǒng)和組件供應(yīng)商的這個大的挑戰(zhàn)要求實用性和成本間的平衡。
系統(tǒng)整體的實用性可以通過把系統(tǒng)分解成獨立的組件來決定--這些組件包含硬件和軟件。硬件的實用性可以進一步?jīng)Q定于平臺的實用性和I/O板的實用性,軟件也是一樣。
數(shù)學上:
系統(tǒng)實用性=(硬件實用性)與(軟件實用性)
硬件實用性=(平臺實用性)與(I/O板實用性)
軟件實用性=(操作系統(tǒng)實用性)與(中間件實用性)與(軟件實用性)與(應(yīng)用實用性)
并不是網(wǎng)絡(luò)中每一個組件都必須提供相同級別的實用性;尤其,9的數(shù)量由終端用戶具體要求而定。組件供應(yīng)商不需要提供所有組件都是5個9,但是他們必須產(chǎn)生可以使得業(yè)務(wù)滿足高實用性要求的組件。組件在系統(tǒng)中被整合的方式對于實用性有很大的影響,正如系統(tǒng)在網(wǎng)絡(luò)中被安排的方式一樣。
◎ 網(wǎng)絡(luò)對實用性的影響
網(wǎng)絡(luò)中設(shè)備的位置也會影響實用性。隨著設(shè)備向公共網(wǎng)絡(luò)的核心框架的接近,實用性也就要求的越嚴格;當處于邊緣的時候,實用性要求將更加輕松。例如,本地環(huán)路沒有很多的內(nèi)建保護以防止故障。實際上,Telcordia把本地交互網(wǎng)絡(luò)實用性具體為99.93%1,其被認為代表了利潤和成本間的平衡,而且用戶發(fā)現(xiàn)這種平衡也是可以接受的。但是,互聯(lián)這些本地交換的核心網(wǎng)絡(luò)必須提供更好的實用性。
對于不同業(yè)務(wù)類型的實用性預期值也是不同的。關(guān)鍵和重要的業(yè)務(wù),比如119,要求比其它非關(guān)鍵業(yè)務(wù)更高的實用性級別。
在決定系統(tǒng)或者組件實用性要求的首要考慮因素是決定組件在網(wǎng)絡(luò)中應(yīng)該位于什么地方,被用來做什么和對于最終終端用戶方案將怎樣與其它系統(tǒng)組合。
◎ 實用性的"邏輯性"
測量硬件實用性要求考慮獨立組件,組成了整合電路、晶體管、二極管,電阻器、電容器、中繼、交換機、連接器以及其它東西構(gòu)成的系統(tǒng)。
有很多現(xiàn)成的方法來估計硬件可靠性和硬件組件的實用性;谶@個考慮,不同的硬件提供商通過Bellcore算法提供整合的平臺級和電話板塊級MTTF數(shù)據(jù)。他們的數(shù)據(jù)用作輸入和開始點,但不會基于獨立電子組件來決定可用特性。
組件組合的方式對于方案整體的實用性有很大的影響。
如果組件串行組合,方案依靠所有組件的實用性,并且整體系統(tǒng)的實用性比最差組件的實用性還要低。當如果組件被并行集成在一起,獨立組件實用性級別將有一些不同。整體系統(tǒng)實用性可能甚至比最優(yōu)組件的實用性還要高。
開發(fā)者另一個需要考慮的就是盡可能地使用并行實用性。尤其,規(guī)劃一個并行實用性方案不會增加對整個方案的成本,因為成本在并行組件實際被加上后才體現(xiàn)出來。業(yè)務(wù)提供商可以在起初沒有并行組件的情況下配置系統(tǒng),然后當其能證明合理時輕松地增加實用性。
由于冗余被引入系統(tǒng),系統(tǒng)的可用特性發(fā)生了重大的改變。實用性計算變成了一種費力并且容易出錯的工作,因為計算必須考慮冗余的效果,失效切換到冗余組件的成功率,MTTR失效組件的效率及相似的問題。使用平臺和電話板塊MTTF數(shù)據(jù)作為輸入和使用可靠模塊圖(RBD)2以正確決定系統(tǒng)級別可用特性可以獲得更好的結(jié)果。
使用RBD,互聯(lián)的模塊可以被建立來顯示和分析系統(tǒng)中任何組件失效的效果。RBD也可以說明成功失效轉(zhuǎn)移的概率,在帶有操作要素的系統(tǒng)中建立冗余,這些要素比如缺乏立即可用的空閑部分。比如來自Relex
Software Corporation*的軟件可以用來產(chǎn)生系統(tǒng)級可用特性。這些包計算了整體的失敗路徑以在成千上萬的失效場景中決定系統(tǒng)整體的可靠性和實用性。既然失效路徑的數(shù)量隨著系統(tǒng)組件數(shù)量的增加而成指數(shù)增長,軟件運行Monte
Carlo仿真3為不同滿意級別獲得不同的可靠性指數(shù)。
開發(fā)者第三個應(yīng)該考慮的因素就是擁有這些相對不太昂貴的工具并在不同實用性配置選擇下完整地分析他們方案的可用特性。這樣的測試要求嚴格的方法來決定系統(tǒng)特定的可用特性。
■ 故障原因
◎ 過載
業(yè)務(wù)中斷的主要一個原因就是系統(tǒng)或者網(wǎng)絡(luò)的過載:過少的資源處理過多的呼叫。這樣的例子包括一個新業(yè)務(wù)的初始推出或者突然出現(xiàn)業(yè)務(wù)高峰。
當新業(yè)務(wù)被推出時,預測終端用戶的反映或者業(yè)務(wù)將在實際條件下如何運行是很困難的。建模是很有用的;但是經(jīng)常的發(fā)生的情況是,當試圖預測一個復雜系統(tǒng)的實際表現(xiàn)時,整體要素可能被忽略。
使用的業(yè)務(wù)高峰發(fā)生在廣告戰(zhàn)役時或者是節(jié)假日期間,比如母親節(jié)。
除非系統(tǒng)可以正確地設(shè)計來解決用戶的大量涌入或者減輕負載,否則它們將失敗。精確地決定出哪一個組件首先失敗是很困難的。有時問題變得更加復雜,很小的故障經(jīng)常導致災難性的事件,因為默認管理系統(tǒng)本身變得過載了。
確保系統(tǒng)被設(shè)計來解決過載問題是開發(fā)者第四個應(yīng)該考慮的問題。系統(tǒng)必須提供一些負載緩沖并在出錯時允許大量的業(yè)務(wù)返回。操作、管理和維護(OA&M)系統(tǒng),經(jīng)常被用來協(xié)助防止過載,而且也必須高可用和容錯。否則,它們可能會拖垮整個系統(tǒng)或者使實用性問題變得復雜。
◎ 有計劃和無計劃停機
停機可以是有計劃的或者是無計劃的。有計劃的停機是要進行升級,加入新功能或者進行預防性維護而引起的。
無計劃停機是由于系統(tǒng)故障或者操作者錯誤引起的,操作者錯誤經(jīng)常是由于很糟糕的培訓,過于復雜化,不正確使用或者技術(shù)粗糙的員工引起的。
根據(jù)來自網(wǎng)絡(luò)可靠性指導委員會(NRSC)的研究,對于33%報告的業(yè)務(wù)中斷,程序出錯是根本原因。程序中斷的頻率有上升的趨勢,正如在右面圖中顯示的那樣。
產(chǎn)業(yè)分析顯示人為或者處理問題引起了大概80%4的非計劃關(guān)機,而剩下的是因為產(chǎn)品的問題。
◎ 非計劃關(guān)機的人為因素
人是易犯錯的,也經(jīng)常犯錯。來自Gartner Group5的研究報告,同時也經(jīng)常被引用的數(shù)據(jù)是, 40%的非計劃關(guān)機應(yīng)歸咎于單獨的操作者錯誤。這包括操作者、維護者和每一個在物理上和通信系統(tǒng)接觸的人。發(fā)生程序錯誤的人往往是半技術(shù)人員,他們更熟悉硬件安裝和鋪設(shè)線路。擁有廣泛技術(shù)經(jīng)驗的維護者往往遠程解決更為復雜的任務(wù)。
業(yè)務(wù)提供商也精通于這些問題,并通過這些考慮來設(shè)計他們的網(wǎng)絡(luò)。他們不喜歡解決復雜的線路問題,他們喜歡能夠進行遠程診斷被控環(huán)境安全方面的問題--保持盡可能多的對實際系統(tǒng)的操作。此外,綜合培訓,認證和培訓課程可以有助于提高技術(shù)知識和減少一般的人為錯誤。
對人類操作的依靠可能增加系統(tǒng)的MTTR。人員不得不出現(xiàn)在現(xiàn)場(這并不是總能確保的),并且人類的反映時間也經(jīng)常慢于自動恢復處理過程。此外,人經(jīng)常會犯錯,并可能降低系統(tǒng)中其它組件的MTTF或者阻止失敗組件的MTTR。盡管系統(tǒng)設(shè)計者十分努力來把人為因素從業(yè)務(wù)中盡可能地去除掉,但是,為了實現(xiàn)最小化MTTR的接口,他們必須首先決定是否成為默認管理過程的一部分。
當設(shè)計一個綜合可用策略時第五個建議是已經(jīng)充分考慮了人為因素。正如每一個NRSC建議的那樣,高實用性系統(tǒng)必須努力從業(yè)務(wù)過程中把人類因素去除掉。如果發(fā)生了一個錯誤,系統(tǒng)必須能夠捕獲正確的診斷信息并在不等待人為介入時迅速把系統(tǒng)返回到業(yè)務(wù)中。這不僅防止了人的錯誤,而且由于需要更少的人員和輪班,也減少了勞動力成本。越多的任務(wù)需要越少的人,越便宜的勞動力成本就可以維護系統(tǒng)。
當系統(tǒng)正在運行時,確保您的系統(tǒng)可以使業(yè)務(wù)提供商測試更新的軟件版本是減少人為錯誤可能性的另一個好方法。這種測試允許他們非常容易地更新到新軟件上。如果檢測到新軟件版本上出現(xiàn)問題,系統(tǒng)可以被恢復成軟件熟知的穩(wěn)定版本。
◎ 管理非計劃關(guān)機
即使擁有最好的組件和最好的質(zhì)量控制程序,組件錯誤也是不可避免的,并且默認檢測和默認維修都會影響MTTR。錯誤被檢測的速率直接影響系統(tǒng)恢復所需要的時間。如果一個備份組件可用并能夠承擔至少一些失敗組件的功能,則可以保持業(yè)務(wù)實用性級別。如果失敗組件沒有備份或者負載分擔功能,那么可能發(fā)生業(yè)務(wù)中斷。
為了恰當管理非計劃關(guān)機,系統(tǒng)必須有一個故障管理計劃。故障管理是一個典型的五級過程,是一些決定了MTTR效率的原則。
檢測--故障被注冊,但是故障組件不會被定位
診斷--決定哪一個組件已經(jīng)發(fā)生故障了
分離--確保一個故障不會引起系統(tǒng)失敗。(分離不必使得系統(tǒng)功能正常。)
恢復--把系統(tǒng)恢復到預期的行為
維修--恢復系統(tǒng)的所有功能,包括所有的冗余
故障通知必須能夠在這一過程的許多時刻都能夠進行。通知事件例子包括系統(tǒng)拓撲的改變--當板卡被脫離出業(yè)務(wù)時,放回至業(yè)務(wù)中,從系統(tǒng)中刪除或者插入到系統(tǒng)中。在上面五步的每一步之間必須有一個到下一步或者過程中各步的通知。在故障檢測時,通知可能被發(fā)送到診斷和分離步驟,或者同時恢復軟件組件。
或許業(yè)務(wù)提供商最大的需求是對系統(tǒng)更好的可視性。他們要求可視性是為了決定系統(tǒng)是否正常,預測未來可能的失敗和實施故障檢測、診斷、分離和修復。當系統(tǒng)中有組件發(fā)生改變而超過一個特定的門限值時,業(yè)務(wù)提供商需要預先的指示,并也要求遠程通知和報警功能。
故障管理的最后一部分是故障預測。故障預測是故障檢測的可選形式,故障檢測包括內(nèi)建診斷。根據(jù)可預測故障,系統(tǒng)操作者可以有機會率先實施在線修復而不是等待事故發(fā)生。
對于開發(fā)高實用性系統(tǒng)第六點需要考慮的因素是選擇其產(chǎn)品中含有足夠技術(shù)支持的組件供應(yīng)商,這樣可以獲得充足的信息來重建系統(tǒng)狀態(tài)并在短時間內(nèi)修復故障。
◎ 老化組件的影響
理解不同組件隨時間發(fā)生失效的統(tǒng)計率可能是在設(shè)計系統(tǒng)為最大實用性方面非常強大的工具。
通常,硬件遵循所謂"浴缸曲線"--故障率在系統(tǒng)投入使用的前幾個月降低,但是在一定時間后再一次增加。最初的降低是因為"強化試驗",較差的組件失效的相對較快,而被去除掉。較穩(wěn)定的組件在系統(tǒng)中保留下來。一段時間后,它們開始變差,最終失效。硬件行為在下面的圖中由點線表示。
另一方面,軟件在最初階段得到改善,也是由于"強化試驗",但是隨著時間的推移不會顯示相同的衰減模型。理論上,軟件行為在圖中由破折線表示。但是實際上,軟件行為表現(xiàn)的更像是如實線那樣,在升級或者錯誤修復時顯示峰值。最后,軟件將無限地穩(wěn)定和平滑下去。
應(yīng)該記住一個好的公理--當配置的軟件硬化時,配置的硬件軟化。
■ 高實用性配置
防止系統(tǒng)級故障的關(guān)鍵因素是冗余性。組件冗余的類型和數(shù)量決定了系統(tǒng)的故障特性。這篇文章將討論8種不同的高實用性結(jié)構(gòu),并指出它們的優(yōu)缺點,確定它們的可用特性。必須注意8個框架的不同在于冗余性和系統(tǒng)如何從故障中恢復。
◎ 聚類
在聚類時,整個計算機或者系統(tǒng)將被復制,這樣如果/當一個聚類中的系統(tǒng)發(fā)生故障時,系統(tǒng)的操作被移交到空閑系統(tǒng)。提供的空閑系統(tǒng)的數(shù)量可以從2N(每一個提供的系統(tǒng)都有一個空閑系統(tǒng))到N+1(對N個系統(tǒng)只有唯一一個空閑系統(tǒng))變化。空閑系統(tǒng)可以被配置成激活/備用模式,比如空閑備用系統(tǒng)將準備運行,但是當前處于空閑狀態(tài)。較重要的地方可以配置激活/激活配置;所有系統(tǒng),包括備用系統(tǒng),將和相互的活動同步,動態(tài)負載分擔也變得可能。激活/激活配置將更難實現(xiàn),但是如果可以獲得負載分擔,比如所有系統(tǒng)都在運行時,整個系統(tǒng)能力可以最大化并且硬件不會處于空閑來等待故障,其恰恰可以提供經(jīng)濟上的補償。
聚類的優(yōu)勢在于可以和任何基于PC的系統(tǒng)工作,適合尺寸輕巧的PCI,并使用標準網(wǎng)絡(luò)連接以保持系統(tǒng)可以相互通知,最重要的是,它適合地理上的多樣性。如果在自然災害的情況下,比如洪水、大火或者地震,聚類可以繼續(xù)業(yè)務(wù)的實用性。聚類的缺點包括價格昂貴外設(shè)的復制和隨著時間的推移相對長的故障時間(秒級別,而其它一些方法是毫秒級)。故障后重新同步系統(tǒng)也是這一結(jié)構(gòu)的一個缺點--有時它們不得不從線路上拆下來以把聚類恢復成必要的冗余狀態(tài)。
◎ 硬件容錯
硬件容錯是CPU處理邏輯的復制,同時6執(zhí)行相同的指令設(shè)置。
比較在容錯機制中從復制的CPU的輸出結(jié)果以決定結(jié)果中是否存在差別。假如從2個處理器產(chǎn)生兩個不同的結(jié)果,不可能迅速和有效地決定產(chǎn)生錯誤的CPU,所以實行三模塊冗余技術(shù)(TMR)。TMR運行3個處理器,考慮了更為有效的故障分離過程,假如一個CPU的輸出和其它兩個CPU的輸出不匹配,這個CPU被認為產(chǎn)生了錯誤,并被業(yè)務(wù)中去除,然后進行在線修復。
這一機制的主要優(yōu)點是在應(yīng)用級別透明的情況下,防止了硬件故障。如果硬件故障在一套組件上被檢測出,那些組件可以被迅速并容易地去除掉,而不用要求在應(yīng)用級軟件中有任何特定失效轉(zhuǎn)移邏輯。業(yè)務(wù)的用戶不會注意到任何的業(yè)務(wù)降級,甚至是瞬間的降級。但是這種配置不會防止軟件錯誤和失效。錯誤軟件指針可能使得整個復制系統(tǒng)崩潰。相似地,這些系統(tǒng)的PCI實現(xiàn)不能適應(yīng)互聯(lián)媒體處理外設(shè)卡的故障,這是因為CT總線帶狀線路的局限性。除了容錯機制外,要求這些外設(shè)卡的系統(tǒng)也需要實現(xiàn)聚類或者一個cPCI結(jié)構(gòu)。
◎ 外設(shè)熱插拔和冗余
外設(shè)熱插拔(PHS)允許在線維修、更新或者在cPCI機箱中增加外設(shè),而不需要關(guān)閉整個系統(tǒng)。外設(shè)可以是電話板卡、磁盤驅(qū)動、風扇、電源供應(yīng)、管理和報警模塊以及其它一些設(shè)備。外設(shè)熱插拔對于降低關(guān)機時間有重要的影響,這種關(guān)機無論是計劃中的還是計劃外的。
盡管外設(shè)熱插拔在降低維修時間上十分有效,但是其單獨不能防止操作中關(guān)機或者花費在獲得空閑設(shè)備和分派技術(shù)人員進行維修的時間。為了防止操作中關(guān)機,提出了外設(shè)的冗余性。擁有外設(shè)冗余,如果一個外設(shè)發(fā)生故障,空閑外設(shè)可以接管故障外設(shè)的操作,而不需要操作者的介入。技術(shù)人員然后可以不用那么迅速被分派去恢復系統(tǒng)的冗余性。
不僅PHS可以在最小關(guān)機時間內(nèi)拆除失效組件,而且考慮了預防性維護。知道了系統(tǒng)低效運行應(yīng)該發(fā)生了故障,外設(shè)冗余也可以使得業(yè)務(wù)提供商更好地增加系統(tǒng)能力。
◎ 冗余系統(tǒng)插槽
冗余系統(tǒng)插槽(RSS)系統(tǒng)在cPCI系統(tǒng)中提供了冗余的,可熱插拔的單板卡計算機(SBC)。通過在故障時消除SBC,這一系統(tǒng)擁有外設(shè)熱插拔cPCI系統(tǒng)的能力。
每一個SBC有一個分離的操作系統(tǒng)和應(yīng)用的實例。SBC可能處于激活/備份模式下,這樣激活的SBC控制機箱中的兩個cPCI總線部分。如果激活的SBC關(guān)機,備份SBC接管故障SBC的處理任務(wù),并控制兩個cPCI總線部分。在激活/激活模式中,兩個SBC是激活的,并控制其自己的總線部分。但是,如果一個SBC關(guān)機,另一個SBC將控制前一個SBC控制的總線部分,系統(tǒng)的操作將繼續(xù)。
RSS的主要好處是只在故障時拆除SBC,并在不需復制昂貴的外設(shè)和大量的應(yīng)用改變的條件下可以被實現(xiàn)。此外,為了滿足外設(shè)實用性,實現(xiàn)帶有RSS的外設(shè)冗余是可能的,其提供了一個高級別的系統(tǒng)實用性。負面效果是,依靠選擇在失效轉(zhuǎn)移中使用的重起模式,降低重起的時間是非常明顯的。而且,RSS標準(PICMG
2.13)還不曾修訂,許多cPCI平臺制造商有自己的所有版權(quán),在當今的市場中也擁有不兼容的解決方案。
◎ 群集在一個箱中(也叫做"鎖定總線")
在群集于一個箱內(nèi)(CIB)的配置中,在一個cPCI機箱中有兩個或者更多的邏輯系統(tǒng)。每一個邏輯系統(tǒng)是一個完整的計算機,其包含自己的獨立cPCI和H.110總線、自己的SBC、外設(shè)卡、操作系統(tǒng)和應(yīng)用。在一個方案中組合群集和外設(shè)熱插拔是相似的。類似于多機箱群集,如果SBC卡關(guān)機,整個邏輯系統(tǒng)也將關(guān)機并且對于系統(tǒng)中的I/O卡由另一個節(jié)點的SBC卡管理也是不可能的。在一個機箱中的系統(tǒng)是相互獨立的,只是共享同一個卡的框架、電源供應(yīng)系統(tǒng)和制冷系統(tǒng)。
群集在一個箱中的主要優(yōu)勢是尺寸靈巧的cPCI,其允許外設(shè)在失效時被熱插拔。至于RSS和PHS,它們只擁有更少的共享資源,所以單一地方故障可被最小化。由于排列的原因,失效轉(zhuǎn)移的次數(shù)可能好于多機箱群集系統(tǒng)的失效轉(zhuǎn)移次數(shù);但是,排列消除了地理位置多樣性的優(yōu)勢。
◎ 整合外設(shè)(也叫做"一個插槽中的計算機")
當前,整合外設(shè)是尺寸精巧的cPCI卡,包括嵌入式的主處理器,典型的就是在一個外設(shè)卡上作為一個子板。嵌入式主處理器子卡應(yīng)用于這樣的操作環(huán)境中,包含操作系統(tǒng)、電話驅(qū)動器、庫、API和電話應(yīng)用--功能類似于在其它配置中由SBC實施的功能。
整合外設(shè)的好處是它是在一個插槽中完整的(主機+外設(shè))備份計算機。每一個外設(shè)和主處理器是獨立于其它外設(shè)的,這些外設(shè)存在于同一個機箱中。當發(fā)生故障時,其被分離成單外設(shè)卡,只有那個外設(shè)和其主機需要被恢復或者拆除。重起的外設(shè)對機箱中其它外設(shè)沒有任何影響。負面效果是,由于沒有PCI或者TDM總線可以資源共享,卡上的資源限制了應(yīng)用的能力。換句話說,每一個整合的外設(shè)卡只能實現(xiàn)卡上擁有的資源的功能。要求多卡的方案(比如一個是為傳真,一個為會議等)使用這種結(jié)構(gòu)不能很容易地實現(xiàn)功能。而且,每一個卡需要操作系統(tǒng)的一個備份,這可能是十分昂貴的,并且盡管被局限在一個卡上,軟件的弱點依然存在。
◎ 包交換背板
數(shù)據(jù)包背板配置把一個冗余的高速數(shù)據(jù)包總線引入到系統(tǒng)的背板中,以適應(yīng)高帶寬流量比如控制、媒體或者數(shù)據(jù)。這樣一個背板可以代替并/或者實現(xiàn)cPCI總線或者TDM總線,以改善吞吐量和實用性。
包交換背板(PSB),正如定義在PICMG2.16中那樣,把一個基于包的以太網(wǎng)結(jié)構(gòu)放置在cPCI背板上。規(guī)劃為4線單冗余或者8線雙冗余星型拓撲結(jié)構(gòu),數(shù)據(jù)通過路由IP包到目的地來傳送數(shù)據(jù),使得從每一個插槽到兩個冗余以太網(wǎng)交換板卡的每一個的連接成為可能。系統(tǒng)處理器、PCI和TDM總線作為系統(tǒng)中單點故障而被拆除。數(shù)據(jù)包背板配置的其它變量也被建議,包括StarFabric、InfiniBand*和其它。
但是,多個松散配對的CPU可能很難做為一個單一系統(tǒng)來管理,所以需要額外的軟件來在雙以太網(wǎng)情況下失效轉(zhuǎn)移。支持這一結(jié)構(gòu)的產(chǎn)品現(xiàn)在正開始投入市場,所以使用這種方法建立復雜方案時,完整的系統(tǒng)可能并不常見。
◎ 網(wǎng)絡(luò)路由
網(wǎng)絡(luò)路由是一種有效的高實用性配置方法,因為呼叫可能被路由到完全不同的設(shè)備上,使得以非?煽康姆绞浇档蜆I(yè)務(wù)中斷。此外,根據(jù)網(wǎng)絡(luò)中不同層(包括物理層、系統(tǒng)層、邏輯層和業(yè)務(wù)層)業(yè)務(wù)中斷的生存能力,網(wǎng)絡(luò)被分成了水平的各個層次(類似于OSI模型)。
但是,使用在這些層的技術(shù)是不同的。一些用來避免網(wǎng)絡(luò)中斷的技術(shù)包括:保存能力、系統(tǒng)多樣性、地理位置多樣性、尺寸限制、動態(tài)路由、恢復路由,自愈保護路由和其它的技術(shù)。
網(wǎng)絡(luò)路由結(jié)構(gòu)在今天通過SS7上面的智能網(wǎng)(IN)已經(jīng)廣泛地配置。當其努力獲得越來越高的與公共交換電話網(wǎng)絡(luò)(PSTN)相當?shù)恼w實用性時,也擁有Internt擴建的動力。這一結(jié)構(gòu)很有前途,也是下一代網(wǎng)絡(luò)中繼續(xù)研究的一個領(lǐng)域。
■ 實用性法則
基于獨立的研究,通常被接受的實用性原理,市場規(guī)則和經(jīng)驗,這篇文章建議下面的實用性法則。
- 高實用性的關(guān)鍵是冗余性
- 增加組件的冗余將增加整體系統(tǒng)的實用性
- 在N+M組件冗余中,隨著M的增加,實用性的增加反而降低(比如N+1經(jīng)常是最有效的)
- 系統(tǒng)的實用性直接與其組件的實用性相關(guān)
- 降低MTTR也可以增加實用性;例子包括最小化啟動時間,改善診斷和實現(xiàn)快速升級
- 整體上說,從解決操作中關(guān)機時間來看,CompactPCI(cPCI)比PCI更有效。
- 任何時間點,用戶都可以縮短關(guān)機時間,通常指的是"買回時間"
- 隨著時間的推移,軟件硬化,硬件軟化
- 隨著實用性增加,系統(tǒng)成本增加的更快
- 一旦達到了某種尺寸大小的機箱,密度對實用性/成本的比率幾乎沒有什么影響。隨著信道的增加,大部分配置可以線性測量
■ 結(jié)論
上面討論的在配置方面的強調(diào)重點已經(jīng)轉(zhuǎn)移到了系統(tǒng)的可用特性上。但是,公共網(wǎng)絡(luò)由幾個這樣的系統(tǒng)整合而成。而且,除了系統(tǒng)的可用特性,幾個其它因素也可以決定整體系統(tǒng)的可用特性。自然災害、恐怖活動以及人類錯誤的影響,比如偶然的光纜疊接、網(wǎng)絡(luò)擁塞等必須被了解和考慮。
網(wǎng)絡(luò)設(shè)計在網(wǎng)絡(luò)實用性方面有很重要的作用。檢測故障和產(chǎn)生告警的技術(shù)在抑制中斷持續(xù)時間方面是關(guān)鍵的第一步。除了檢測過程,診斷、分離、恢復和修復過程在下面的步驟中也是十分重要的。作為恢復策略的一部分,設(shè)計網(wǎng)絡(luò)時可以附加額外的容量。如果這些額外容量,在修復進行時,能夠持續(xù)實現(xiàn)一個用戶的需求,那么就不會認為是一次斷電。
究竟哪一個高實用性配置對于具體業(yè)務(wù)提供商來說是恰當?shù),是一個難題,其要求對特定商業(yè)模型和IT框架額外的分析。這篇文章被設(shè)計來確定、比較和對比可實現(xiàn)的8個高實用性配置以期讀者可以更好地了解這些,并決定選擇哪一個配置。
需要額外的信息或者幫助來決定什么配置是最恰當?shù)模驮鯓咏⒕唧w的高實用性網(wǎng)絡(luò),請和Dialogic?技術(shù)銷售代表聯(lián)系,電話1-800-755-4444,并向操作者詢問購買。
|