LightCounting表示,雖然光通信不是本次Photonics West會議的重心,但是CPO論壇上提出的一個問題讓人深思:如果網絡只占云數(shù)據中心總功耗的2%-3%,我們?yōu)槭裁匆獡墓饽K的功耗不斷增加?
Coherent公司的Vipul Bhat介紹了兩年前發(fā)表在科學雜志上的一篇文章中的數(shù)據,該文章表明,對數(shù)據中心功耗不斷增加的擔憂被高估了。這項研究比較了2010年和2018年所有數(shù)據中心的功耗,僅增長了約8%。將這一趨勢推斷到2022年-2023年,由于數(shù)據中心效率的持續(xù)改善,表明會有2%-3%非常溫和的增長。
這種改善主要有兩個原因:工作負載從企業(yè)數(shù)據中心逐步遷移到云計算公司運營的超大型數(shù)據中心,后者的效率更高;服務器和存儲的效率穩(wěn)步提高,這兩者是能耗大戶。
LightCounting指出,網絡的功耗在2012年僅占1%,2018年為2%,到2022年約為3%,我們應該關心它嗎?
下圖展示了LightCounting對云數(shù)據中心部署的光模塊功耗的計算結果(以年度部署量計算,而不是累積)。請注意,垂直坐標軸是對數(shù)刻度,在對數(shù)刻度的圖表中,任何直線都不應被忽視,因為它表明指數(shù)增長。因此在懷疑論者意識到這一點之前,功耗將持續(xù)上漲,而解決這個問題可能為時已晚。
根據這一分析,2018年-2022年部署在云數(shù)據中心的光模塊的總功耗加起來為330MW或1.2TWh,略高于目前云數(shù)據中心總功耗的1%。問題是,到2028年,預計光模塊的功耗將占到其中的8%以上。另外,這一分析也說明了可插拔光模塊的功耗效率不斷提高:從100G光模塊的35pJ/bit到800G光模塊的20pJ/bit。
那么到2028年,云數(shù)據中心的光模塊功耗將占到總功耗的8%,我們是否應該對此感到擔憂?
LightCounting指出:“是的,我們應該。云計算運營商在為其基礎設施提供更多電力等能源方面面臨重大限制。如果光學系統(tǒng)消耗更多的資源,他們將被迫減少分配給服務器和存儲的預算。”
與此同時,人工智能集群的設計受到光連接的高功耗和成本的嚴重限制。英偉達聲稱,如果不受功耗和成本的限制,他們現(xiàn)在可以多使用32倍的光器件。AI模型訓練的執(zhí)行需要大規(guī)模的GPU陣列,如果供應商能夠降低其功耗和成本,高帶寬光連接將是最佳解決方案。
Ayar Labs、Broadcom、IBM和Ranovus的下一代CPO設計預計將達到2pJ-3pJ/bit的能耗效率。Rajeev Ram教授是Photonics West的全體會議發(fā)言人,也是Ayar Labs的聯(lián)合創(chuàng)始人,他聲稱0.1pJ/bit是現(xiàn)有技術在每通道200G時可以做到的。他在麻省理工學院的團隊正在研究低電壓調制器和改進的探測器,目標是使互連功耗達到0.001pJ/bit或更低。
另外,麻省理工學院的一些解決方案將使用非常低的數(shù)據(Mbps)速率來降低功耗。Ayar Labs的方法也是基于使用較低速度(64Gbps)的NRZ光器件來達到2pJ/bit。他們是否能在每通道112G NRZ下達到1pJ/bit以下還有待觀察。
“我們的行業(yè)正處在一個十字路口。”LightCounting表示,我們可以維持現(xiàn)狀,繼續(xù)使用可插拔光模塊,并逐步改進。人工智能集群的規(guī)模不會那么快,另外在網絡帶寬限制下,也會有其他方法來優(yōu)化人工智能模型。
另一種選擇是承擔風險,開發(fā)新的光學技術,采用新的封裝和光纖耦合設計,以實現(xiàn)成本和功耗效率的徹底改善。這種方法將有利于人工智能的發(fā)展,并將光通信行業(yè)提升到一個全新的水平。這條路是令人興奮的,但懷疑論者說得沒錯,它非常具有挑戰(zhàn)性。然而,錯過這個機會將是一個錯誤。LightCounting指出,目前業(yè)界討論最多的CPO,面臨的最大挑戰(zhàn)還是在封裝和低損耗光纖連接等方面。