欧美,精品,综合,亚洲,好吊妞视频免新费观看,免费观看三级吃奶,一级a片女人自慰免费看

您當(dāng)前的位置是:  首頁 > 技術(shù) > 技術(shù)動(dòng)態(tài) >
 首頁 > 技術(shù) > 技術(shù)動(dòng)態(tài) > 全棧自研能力再度升級(jí) 全面提升企業(yè)大模型的訓(xùn)練效率

全棧自研能力再度升級(jí) 全面提升企業(yè)大模型的訓(xùn)練效率

2023-07-05 09:43:46   作者:   來源:C114通信網(wǎng)   評(píng)論:0  點(diǎn)擊:


  人工智能技術(shù)在近年來不斷取得突破,各類智慧化應(yīng)用不斷涌現(xiàn)。而隨著以ChatGPT為代表的生成式AI大模型的出現(xiàn),將AI的發(fā)展推向新高度。

  在大眾的認(rèn)知里,AI大模型的訓(xùn)練需要海量算力,但是海量算力從何而來,單臺(tái)服務(wù)器的性能肯定不夠,需要由大量的服務(wù)器作為節(jié)點(diǎn),通過高速網(wǎng)絡(luò)組成集群,相互協(xié)作完成訓(xùn)練任務(wù),這就對(duì)網(wǎng)絡(luò)提出更高要求。

  這個(gè)時(shí)候?qū)τ谔峁┧懔Ψ⻊?wù)的云計(jì)算廠商而言,或許購買商用網(wǎng)絡(luò)設(shè)備就可以了,但是騰訊云進(jìn)一步深化自研能力,并于日前首次對(duì)外完整披露自研星脈高性能計(jì)算網(wǎng)絡(luò),支撐AI大模型的發(fā)展。

  騰訊云副總裁王亞晨表示:“星脈網(wǎng)絡(luò)是為大模型而生。它所提供的大帶寬、高利用率以及零丟包的高性能網(wǎng)絡(luò)服務(wù),將助力算力瓶頸的突破,進(jìn)一步釋放AI潛能,全面提升企業(yè)大模型的訓(xùn)練效率,在云上加速大模型技術(shù)的迭代升級(jí)和落地應(yīng)用。”

  AI大模型需要DCN向高性能演進(jìn)

  “去年國家‘東數(shù)西算’戰(zhàn)略啟動(dòng),提出布局算力網(wǎng)絡(luò),實(shí)際上這就是一個(gè)解決大規(guī)模集群算力間互相協(xié)作的關(guān)鍵技術(shù),那時(shí)騰訊云就已經(jīng)做了很多面向算力網(wǎng)絡(luò)的技術(shù)儲(chǔ)備。”王亞晨表示,數(shù)據(jù)中心網(wǎng)絡(luò)始終在持續(xù)演進(jìn),只是AI大模型的出現(xiàn)加速了這一進(jìn)程。

  回顧騰訊云數(shù)據(jù)中心網(wǎng)絡(luò)三代技術(shù)演進(jìn),都是伴隨著業(yè)務(wù)的升級(jí)。第一階段以C端業(yè)務(wù)為主,數(shù)據(jù)中心網(wǎng)絡(luò)流量主要由用戶訪問數(shù)據(jù)中心服務(wù)器的南北向流量構(gòu)成。第二階段,騰訊云的快速發(fā)展,服務(wù)器之間的東西向流量逐漸增多,數(shù)據(jù)中心網(wǎng)絡(luò)架構(gòu)逐漸演變?yōu)橥瑫r(shí)承載南北向和東西向流量的云網(wǎng)絡(luò)架構(gòu),

  如今隨著AI大模型的出現(xiàn),DCN網(wǎng)絡(luò)需要進(jìn)行新一輪的升級(jí),東西向流量規(guī)模更大。與此同時(shí),王亞晨介紹,以前的DCN都是圍繞CPU構(gòu)建,現(xiàn)在需要圍繞GPU互聯(lián)構(gòu)建,這個(gè)時(shí)候DCN就要向高性能網(wǎng)絡(luò)升級(jí)。

  王亞晨表示,高性能網(wǎng)絡(luò)面向AI大模型時(shí),首先不能丟包,其次是時(shí)延要求非常敏感,另外帶寬利用率要求非常高,這也是DCN網(wǎng)絡(luò)面臨的核心挑戰(zhàn)。因?yàn)榧阂欢〞?huì)影響到GPU的性能,集群越大,產(chǎn)生的額外通信損耗越多。

  具體來看,千億、萬億參數(shù)規(guī)模的大模型,訓(xùn)練過程中通信占比最大可達(dá)50%,傳統(tǒng)低速網(wǎng)絡(luò)的帶寬遠(yuǎn)遠(yuǎn)無法支撐。同時(shí),傳統(tǒng)網(wǎng)絡(luò)協(xié)議容易導(dǎo)致網(wǎng)絡(luò)擁塞、高延時(shí)和丟包,而僅0.1%的網(wǎng)絡(luò)丟包就可能導(dǎo)致50%的算力損失,最終造成算力資源的嚴(yán)重浪費(fèi)。

  深度自研,實(shí)現(xiàn)高利用率、信息無損

  面對(duì)這些挑戰(zhàn),基于全面自研能力,騰訊云在交換機(jī)、通信協(xié)議、通信庫以及運(yùn)營系統(tǒng)等方面,進(jìn)行了軟硬一體的升級(jí)和創(chuàng)新,率先推出業(yè)界領(lǐng)先的大模型專屬高性能網(wǎng)絡(luò)——星脈網(wǎng)絡(luò)。

  騰訊云數(shù)據(jù)中心網(wǎng)絡(luò)總監(jiān)李翔表示,“打開”星脈網(wǎng)絡(luò)看它如何支撐AI大模型的訓(xùn)練,可以形象地用道路上行駛的汽車來形容。

  首先,星脈網(wǎng)絡(luò)基于騰訊的網(wǎng)絡(luò)研發(fā)平臺(tái),采用全自研設(shè)備構(gòu)建“高速公路”,也就是網(wǎng)絡(luò)互聯(lián)底座,實(shí)現(xiàn)自動(dòng)化部署和配置,同時(shí)也能夠做到更快的技術(shù)迭代和最優(yōu)的成本控制。

  其次,當(dāng)我們出門前,都會(huì)用導(dǎo)航系統(tǒng)查看哪條路線最優(yōu)。騰訊云為星脈網(wǎng)絡(luò)設(shè)計(jì)了高性能集合通信庫TCCL,融入定制化解決方案,使系統(tǒng)實(shí)現(xiàn)了微秒級(jí)感知網(wǎng)絡(luò)質(zhì)量。結(jié)合動(dòng)態(tài)調(diào)度機(jī)制合理分配通信通道,可以避免因網(wǎng)絡(luò)問題導(dǎo)致的訓(xùn)練中斷等問題,讓通信時(shí)延降低40%。

  第三,當(dāng)車開起來后,路上總會(huì)出現(xiàn)一些不可預(yù)料的擁塞和堵塞,這也是最大的困難。為此騰訊云自研的TiTa網(wǎng)絡(luò)協(xié)議,采用先進(jìn)的擁塞控制和管理技術(shù),能夠?qū)崟r(shí)監(jiān)測(cè)并調(diào)整網(wǎng)絡(luò)擁塞,滿足大量服務(wù)器節(jié)點(diǎn)之間的通信需求,確保數(shù)據(jù)交換流暢、延時(shí)低,實(shí)現(xiàn)高負(fù)載下的零丟包,使集群通信效率達(dá)90%以上。

  第四,需要有一套“交通管理系統(tǒng)”,確保道路的高可用。騰訊云自研了端到端的全棧網(wǎng)絡(luò)運(yùn)營系統(tǒng),通過端網(wǎng)立體化監(jiān)控與智能定位系統(tǒng),將端網(wǎng)問題自動(dòng)定界分析,讓整體故障的排查時(shí)間由天級(jí)降低至分鐘級(jí)。同時(shí),大模型訓(xùn)練系統(tǒng)的整體部署時(shí)間從19天縮減至4.5天,保證基礎(chǔ)配置100%準(zhǔn)確。

  李翔表示,星脈網(wǎng)絡(luò)具備業(yè)界最高的3.2T通信帶寬,能提升40%的GPU利用率,節(jié)省30%-60%的模型訓(xùn)練成本,為AI大模型帶來10倍通信性能提升;隍v訊云新一代算力集群HCC,可支持10萬卡的超大計(jì)算規(guī)模。

  二十余年積累,成就端到端網(wǎng)絡(luò)能力

  “整個(gè)騰訊網(wǎng)絡(luò)大概由大大小小幾十個(gè)組件組成,數(shù)據(jù)中心網(wǎng)絡(luò)是其中一個(gè),也是其中最大、歷史最悠久的一個(gè)。”王亞晨介紹,目前騰訊已經(jīng)形成ECN、DCI、DCN三大網(wǎng)絡(luò)架構(gòu),把用戶和業(yè)務(wù)服務(wù)器連接起來,并且把數(shù)百萬臺(tái)服務(wù)器連接起來。

  王亞晨表示,騰訊網(wǎng)絡(luò)的構(gòu)建歷經(jīng)四個(gè)階段:階段一是2006年,采用商用設(shè)備+人工運(yùn)維的模式;階段二是2010年,采用商業(yè)設(shè)備+工具支撐的模式;階段三是2015年,采用定制設(shè)備+路由控制的模式;階段四是2019年開始,采用開放設(shè)備+SDN/NFV的模式。

  目前,騰訊網(wǎng)絡(luò)已經(jīng)在DCI領(lǐng)域、DCN領(lǐng)域、以及HOST主機(jī)側(cè),從設(shè)備開放、芯片定制、模塊融合,驅(qū)動(dòng)基礎(chǔ)網(wǎng)絡(luò)設(shè)備全面、深度自研。包括DCI領(lǐng)域的開放光傳輸系統(tǒng),DCN的交換機(jī)、光模塊,主機(jī)側(cè)的智能網(wǎng)卡等都實(shí)現(xiàn)自研和可控,共同組成硬件自研體系。

  有了硬件還要配合相應(yīng)的軟件才能發(fā)揮作用。騰訊自研網(wǎng)絡(luò)服務(wù)軟件,實(shí)現(xiàn)商用路由系統(tǒng)向自研分布式路由系統(tǒng)演進(jìn),拆分成管控系統(tǒng)、路由系統(tǒng)、轉(zhuǎn)發(fā)系統(tǒng)、接入系統(tǒng),具備架構(gòu)解耦、彈性擴(kuò)展、硬件加速、穩(wěn)定運(yùn)營等特性。另外,自研網(wǎng)絡(luò)操作系統(tǒng)覆蓋全網(wǎng)多場(chǎng)景、結(jié)合自研網(wǎng)管平臺(tái)實(shí)現(xiàn)網(wǎng)絡(luò)能力簡化與定制、網(wǎng)絡(luò)系統(tǒng)穩(wěn)定運(yùn)營。

  “為什么做自研,騰訊云有兩個(gè)維度的考慮。”李翔表示,第一個(gè)維度是硬件成本的角度,商業(yè)交換機(jī)賣的是“滿漢全席”,我們可能只需要10%的功能;第一個(gè)維度從質(zhì)量考慮,希望對(duì)軟件做減法,實(shí)現(xiàn)功能的快速迭代,并實(shí)現(xiàn)簡單維護(hù)、快修復(fù)。“未來,騰訊云還將持續(xù)投入基礎(chǔ)技術(shù)的研發(fā)。”

【免責(zé)聲明】本文僅代表作者本人觀點(diǎn),與CTI論壇無關(guān)。CTI論壇對(duì)文中陳述、觀點(diǎn)判斷保持中立,不對(duì)所包含內(nèi)容的準(zhǔn)確性、可靠性或完整性提供任何明示或暗示的保證。請(qǐng)讀者僅作參考,并請(qǐng)自行承擔(dān)全部責(zé)任。

相關(guān)閱讀:

專題

CTI論壇會(huì)員企業(yè)