而近年來,隨著互聯(lián)網(wǎng)、大數(shù)據(jù)、人工智能等新興技術(shù)的興起,企業(yè)中越來越多的計算密集型場景,也對高性能計算提出了應(yīng)用需求。
11月19日,在第13屆 HPC China全國高性能計算學(xué)術(shù)年會上,騰訊云正式發(fā)布騰訊超算云解決方案,以云服務(wù)的方式,讓科研級的高性能計算力,真正從實驗室走向企業(yè)級應(yīng)用場景。
騰訊云深度定制云中心高級產(chǎn)品總監(jiān)吳堅堅
1、來自云端的高性能計算力
對企業(yè)而言,獲取高性能計算能力一般有兩種形式:
一是自建超算集群,二是租用超算中心的計算資源。
前者存在超算集群建設(shè)周期慢、價格貴、初始投資高、機型不能及時更新等問題;而后者也面臨著超算中心資源難尋、計算資源迭代周期長、大規(guī)模伸縮靈活性欠佳等一系列問題。
以云服務(wù)的形式提供高性能計算力則能夠解決這些問題。
騰訊超算云提供了集合黑石物理服務(wù)器、云服務(wù)器(CVM)、存儲、網(wǎng)絡(luò)、批量計算(Batch)、深度學(xué)習(xí)DI-X平臺等優(yōu)勢產(chǎn)品的云端高性能計算解決方案。
較之企業(yè)過往獲取高性能計算力的模式,騰訊超算云具備了三大優(yōu)勢:
- 快速可獲。用戶可即時獲取HPC資源并快速擴容,可通過HPC PaaS平臺按小時購買,也可按月、按季、按年租用專屬HPC集群,減少了集群的建設(shè)周期,也不用一次性巨額資金投入。
- 資源靈活配置:使用者可以根據(jù)應(yīng)用需求創(chuàng)建各種配置的 HPC 群集,比如減少GPU服務(wù)器配比,增加FPGA服務(wù)器等。同時還能在技術(shù)革新后,即時使用到換代機型,用戶不用再受限于HPC資源,加快研發(fā)速度,節(jié)約研發(fā)成本。
- 高性能硬件:騰訊超算云采用基于英特爾至強可擴展處理器定制機型的黑石服務(wù)器,并針對HPC應(yīng)用進行專門優(yōu)化,高性能無虛擬化開銷。同時提供包括NVIDIA P100/V100 GPU機型、FPGA機型等在內(nèi)的各種異構(gòu)計算機型,加速多機并行應(yīng)用,讓應(yīng)用享受最新的硬件加速。
同時,騰訊超算云專門為HPC集群設(shè)計了高可用高帶寬和可擴展性強的網(wǎng)絡(luò)架構(gòu),大幅提升網(wǎng)絡(luò)性能。其中,騰訊超算云提供40GE/100GE的RDMA網(wǎng)絡(luò),延時小于1.5us,還能兼容基于MPI的傳統(tǒng)HPC應(yīng)用;并提供GPUDirect RDMA功能,使多機多GPU之間的帶寬和延遲性能得到大幅度提升。
此外,為了應(yīng)對高性能計算對存儲的高標準需求,騰訊超算云提供文件存儲CFS和高性能并行文件系統(tǒng),其中騰訊云并行文件系統(tǒng)基于騰訊分布式存儲架構(gòu),能提供TBps級的吞帶寬和EB級文件系統(tǒng)。
2、滿足多樣化高性能計算場景需求
基于優(yōu)勢基礎(chǔ)能力,騰訊超算云還針對工業(yè)制造(CAD/CAE、碰撞、材料模擬等)、生物基因和人工智能等場景推出基于業(yè)務(wù)流的PaaS平臺和行業(yè)應(yīng)用的集成,讓客戶在使用高性能計算服務(wù)時專注產(chǎn)品研發(fā)和創(chuàng)新,無需關(guān)注底層集群和調(diào)度系統(tǒng),提升產(chǎn)品研發(fā)效率和上市速度。
汽車制造中,從汽車外觀的流體力學(xué)設(shè)計、模擬汽車碰撞從而得出保護車內(nèi)人員的結(jié)構(gòu)設(shè)計,都需要高性能計算來進行建模分析。
目前,騰訊超算云中的黑石HPC集群已經(jīng)通過北京汽車的“汽車典型的碰撞模擬和流體力學(xué)計算”場景測試。后續(xù),這種高性能的計算力,將幫助汽車制造企業(yè)大幅縮減研發(fā)時間,有效提升企業(yè)效益。
在生物基因領(lǐng)域,基因測序的數(shù)據(jù)量即將達到EB級別,大量數(shù)據(jù)需要高效的存儲與管理,也需要的超大規(guī)模計算資源能夠按期交付。騰訊超算云的雙螺旋PaaS平臺為基因行業(yè)用戶提供高性能、低成本、高自動化、易管理的整體解決方案,幫助客戶一鍵完成基因相關(guān)軟件的部署,平臺自動調(diào)度計算、存儲資源,加速基因分析流程。
諾禾致源利用騰訊超算云精準匹配所需資源,實現(xiàn)資源快速交付,并節(jié)省大量的人力物力;碳云智能則通過騰訊超算云,實現(xiàn)在分鐘級別創(chuàng)建動輒上千核、數(shù)百 TB 的 HPC 集群用以處理海量數(shù)據(jù),減少人工投入,極大節(jié)約成本。
在人工智能領(lǐng)域,以圖形圖象和音視頻為代表的深度學(xué)習(xí)技術(shù)快速發(fā)展,也需要高性能計算力提供支撐。
騰訊優(yōu)圖實驗室在國際權(quán)威海量人臉識別數(shù)據(jù)庫MegaFace中刷新世界紀錄,在100萬級別人臉識別測試中位居榜首,用的就是騰訊超算云提供的黑石HPC集群。
此外,騰訊超算云在石油勘探、地球科學(xué)、物理化學(xué)、圖像渲染等行業(yè)場景下,也有著豐富的應(yīng)用前景。
3、打造開放的超算云生態(tài)
在高性能計算領(lǐng)域,騰訊超算云并不滿足于做一個單獨的解決方案,更希望用開放的理念來建設(shè)超算云生態(tài),讓高性能計算力更好地服務(wù)于各行各業(yè)的密集型計算需求。
目前,騰訊云已經(jīng)與英特爾、NVIDIA、Mellanox等硬件提供商達成合作,確保用戶獲得快速迭代的高性能計算硬件。其中與英特爾合作推出至強可擴展處理器定制的HPC機型,為客戶提供前所未有的使用體驗,并合作推出Lustre文件系統(tǒng),兼容原有應(yīng)用和使用習(xí)慣,方便企業(yè)應(yīng)用的順利上云。
騰訊云還與中國國家網(wǎng)格服務(wù)公司并行科技達成合作,推出部署在騰訊超算云上的HPC PaaS平臺,該PaaS集成工作制造CAE等相關(guān)應(yīng)用,提供隨租隨用HPC服務(wù),輕松幫助客戶HPC業(yè)務(wù)云化。
“高性能計算不僅需要強勁的計算力,還需要從應(yīng)用層針對性地匹配解決方案,才能讓場景更好落地。”騰訊云深度定制云高級產(chǎn)品總監(jiān)吳堅堅表示,騰訊云還將繼續(xù)秉承開放的理念發(fā)展騰訊超算云平臺,引入更多的HPC ISV合作伙伴,幫助企業(yè)HPC應(yīng)用上云,降低使用成本,提高產(chǎn)品研發(fā)效率。