在過去的十年中,數(shù)據(jù)中心業(yè)務(wù)已從以WEB服務(wù)為中心走向以云服務(wù)為中心,今天,數(shù)據(jù)中心正從云計算時代走向智能時代。數(shù)字化過程中不斷產(chǎn)生的海量數(shù)據(jù),如何完成海量數(shù)據(jù)的篩選和有用信息的自動重組,通過AI從海量數(shù)據(jù)中挖掘智慧成為智能時代不變的主題,云智能時代已經(jīng)到來。華為GIV(Global Industry Vision)預(yù)測,到2025年,97%的大企業(yè)將采用AI,人機(jī)協(xié)創(chuàng)無所不在, AI成為企業(yè)數(shù)字化轉(zhuǎn)型的下一站,利用AI助力決策、重塑商業(yè)模式與生態(tài)系統(tǒng)、重建客戶體驗的能力將是數(shù)字化轉(zhuǎn)型計劃取得成功的關(guān)鍵推動力。
數(shù)字化過程中將產(chǎn)生大量的數(shù)據(jù),華為GIV預(yù)測,2025年全球存儲數(shù)據(jù)量將高達(dá)180ZB,其中非結(jié)構(gòu)化數(shù)據(jù)(比如原始采集的語音、視頻、圖片等未加工數(shù)據(jù))比例持續(xù)提高,未來將達(dá)到95%以上,基于人工處理的大數(shù)據(jù)分析處理方法無法應(yīng)對如此的海量數(shù)據(jù),而基于機(jī)器運(yùn)算進(jìn)行深度學(xué)習(xí)的AI算法,可以完成海量無效數(shù)據(jù)的篩選和有用信息的自動重組,從而提供更加高效的決策建議和更加智慧化的行為指引。云和智能時代企業(yè)DC的使命正在從聚焦業(yè)務(wù)快速發(fā)放向聚焦數(shù)據(jù)高效處理進(jìn)行轉(zhuǎn)變。
伴隨著AI的熱潮 ,深度學(xué)習(xí)服務(wù)器集群涌現(xiàn),以及各種SSD等高性能新型存儲介質(zhì)的發(fā)展,對通信時延提出了更高的要求(us級)。例如金融領(lǐng)域高頻交易(HFT)的性能敏感型環(huán)境中,低時延是處理巨大交易容量的關(guān)鍵。NASDAQ一筆訂單的最快成交速度是100微秒左右,通信時延成為數(shù)據(jù)中心網(wǎng)絡(luò)建設(shè)需要考慮的首要因素,需要從兩個方面降低時延:
- 服務(wù)器內(nèi)部通信協(xié)議棧變革首當(dāng)其沖。在AI數(shù)據(jù)運(yùn)算和SSD分布式存儲系統(tǒng)中,傳統(tǒng)的TCP/IP協(xié)議棧處理所需的數(shù)十微秒固定時延成為明顯的瓶頸,RDMA替代TCP/IP成為大勢所趨。采用RDMA可以將計算的效率同比提升6~8倍,而服務(wù)器內(nèi)1us的傳輸時延也使得SSD分布式存儲的時延從ms級降低到us級成為可能,所以在最新的NVMe接口協(xié)議中,RDMA成為主流的默認(rèn)網(wǎng)絡(luò)通信協(xié)議棧。
- 為減少光纖傳輸時延,需要考慮針對時延敏感應(yīng)用的物理位置就近設(shè)立數(shù)據(jù)中心,分布式數(shù)據(jù)中心成為新的趨勢。如何快速而有節(jié)奏地提升DCN/DCI帶寬,并在帶寬提升的同時保證無損網(wǎng)絡(luò)的“0丟包、低時延、高吞吐”要求,以匹配業(yè)務(wù)快速發(fā)展的訴求,成為數(shù)據(jù)中心DCN/DCI方案首先要面對的問題。摩爾定律支撐了數(shù)據(jù)中心帶寬的增長,數(shù)據(jù)中心內(nèi)部互聯(lián)DCN接口即將進(jìn)入單端口100G+時代,而作為DC互聯(lián)及DCN出口承載的DCI網(wǎng)絡(luò)也已發(fā)展到10T級的波分互聯(lián)。
劃重點
- 面向AI的數(shù)據(jù)運(yùn)算要求“0丟包、低時延、高吞吐”的無損網(wǎng)絡(luò),需要從服務(wù)器內(nèi)部通信協(xié)議變革及數(shù)據(jù)中心互聯(lián)兩方面同時考慮。
- 數(shù)據(jù)中心互聯(lián)快速部署、智能簡化運(yùn)維成為趨勢,以支撐彈性數(shù)據(jù)中心網(wǎng)絡(luò)運(yùn)營與擴(kuò)展。
- AI、HPC等高性能業(yè)務(wù)對網(wǎng)絡(luò)的依賴度逐漸增強(qiáng),無損網(wǎng)絡(luò)的擁塞控制算法需要網(wǎng)卡和網(wǎng)絡(luò)進(jìn)行協(xié)作,網(wǎng)絡(luò)從設(shè)計開始就需要考慮到后期運(yùn)維時如何能夠快速、精準(zhǔn)地掌握全網(wǎng)設(shè)備、鏈路的實時狀態(tài),用于支撐業(yè)務(wù)的平穩(wěn)運(yùn)行與擴(kuò)展。多波長復(fù)用的光纖傳輸系統(tǒng)廣泛應(yīng)用于DCI,而光模擬信號的業(yè)務(wù)發(fā)放及維護(hù)模式不同于普通的數(shù)字網(wǎng)絡(luò),運(yùn)營商往往配有較為龐大的光網(wǎng)絡(luò)專業(yè)維護(hù)團(tuán)隊,而ISP及金融行業(yè)數(shù)據(jù)中心網(wǎng)絡(luò)均由IT人員建設(shè)和維護(hù),人員與經(jīng)驗相對電信運(yùn)營商有較大差距,快速開通業(yè)務(wù)、快速精準(zhǔn)排障成為關(guān)鍵挑戰(zhàn)。隨著數(shù)據(jù)中心建設(shè)規(guī)模的海量增長,數(shù)據(jù)中心互聯(lián)需求倍增,這一挑戰(zhàn)已成為數(shù)據(jù)中心發(fā)展的關(guān)鍵瓶頸之一。
云業(yè)務(wù)快速發(fā)展和上線,網(wǎng)絡(luò)頻繁改造擴(kuò)容,傳統(tǒng)波分的安裝、連纖、配置、調(diào)測等需要專業(yè)的規(guī)劃與配置,自動規(guī)劃與配置工具可以讓運(yùn)維人員從繁瑣專業(yè)的開局中解放,自動高效不出錯,支撐業(yè)務(wù)云化快速上線,和頻繁擴(kuò)容。相對人工配置,自動工具除了大幅提升上線效率,還大幅提高配置準(zhǔn)確率。例如傳統(tǒng)人工連纖出錯概率高,據(jù)統(tǒng)計甚至高達(dá)5%,如果一不小心連錯,業(yè)務(wù)不通從上至下排查原因,重新檢查校驗就更加耗時費(fèi)力。
2、智能運(yùn)維系統(tǒng)取代傳統(tǒng)網(wǎng)絡(luò)管理系統(tǒng),實現(xiàn)數(shù)據(jù)中心主動運(yùn)維
越來越多的應(yīng)用運(yùn)行在云上,數(shù)據(jù)中心做為數(shù)字化的基礎(chǔ)架構(gòu)重要性不言而喻,而DCI作為支撐性的基礎(chǔ),一旦故障影響嚴(yán)重。DCI引入高效智能運(yùn)維,實現(xiàn)從人工到自動,從被動到主動的運(yùn)維轉(zhuǎn)變是必然的選擇。相對傳統(tǒng)的網(wǎng)絡(luò)監(jiān)控系統(tǒng) ,智能運(yùn)維系統(tǒng)通過內(nèi)置光Sensor,實現(xiàn)光纖網(wǎng)與光系統(tǒng)網(wǎng)絡(luò)全局可視,光網(wǎng)絡(luò)健康度特別是光功率衰減、光波長漂移等物理參數(shù)的變化提前預(yù)警,自動分析過濾告警,基于經(jīng)驗庫自動判斷故障根因,以減少網(wǎng)絡(luò)故障率,大幅提升網(wǎng)絡(luò)可用率。
劃重點
數(shù)據(jù)中心網(wǎng)絡(luò)運(yùn)維亟須引入自動化配置與維護(hù)工具,以實時調(diào)整配置,快速定位故障,實現(xiàn)無損網(wǎng)絡(luò)運(yùn)維智簡化,以支持云智能時代的數(shù)據(jù)中心業(yè)務(wù)快速發(fā)展。
2019年9月18日~20日,2019華為全聯(lián)接大會將在上海舉行。誠邀各位蒞臨上海世博展覽館Hall2 #406~407,了解更多關(guān)于數(shù)據(jù)中心網(wǎng)絡(luò)互聯(lián)最前沿的方案和技術(shù)!