VMware和Nvidia今天宣布將合作加速企業(yè)人工智能應用的開發(fā)。
VMware新版本的vSphere 7服務(wù)器虛擬化產(chǎn)品和vSAN 7存儲虛擬化產(chǎn)品將以更高的安全性和更簡化的操作,運行那些要求支持AI就緒基礎(chǔ)設(shè)施的應用。具體來說,VMware和Nvidia將提供軟件堆棧讓客戶通過利用Nvidia硬件開發(fā)新的應用,以及升級現(xiàn)有應用和基礎(chǔ)設(shè)施。
此次對雙方聯(lián)合開發(fā)的AI就緒企業(yè)平臺的更新中,VMware vSphere 7 Update 2 通過了Nvidia AI Enterprise的認證,后者制是一個包括了優(yōu)化AI應用和框架的云原生集合,讓運行在VMware虛擬機上的、基于Nvidia GPU的工作負載比之前性能提高了多達20倍。
Nvidia企業(yè)和邊緣計算總經(jīng)理Justin Boitano表示:“vSphere的性能實際上與裸機沒有區(qū)別,你可以在一個沒有孤島的控制平面上進行管理。”
這次對vSphere的更新還增加了在Nvidia認證系統(tǒng)上對Nvidia A100和Nvidia A40 Tensor Core GPU的支持,這些認證系統(tǒng)中就包括了Nvidia的HGX和EGX服務(wù)器平臺,讓可以可以先他們現(xiàn)有的虛擬化環(huán)境中增加特定AI的平臺,而不必單獨運行AI工作負載。
Boitano說:“人工智能是一個全棧計算問題,但在某種程度上是以DIY的方法進行設(shè)置和管理的。這讓我們可以利用現(xiàn)有針對AI的工具在vSphere下釋放全部性能潛力。”
更好的共享功能和工作負載可移植性
此次集成將讓VMware客戶可以利用最新一代Nvidia GPU(如多實例GPU)中的功能,在多個用戶之間共享GPU周期,而且可以利用VMware vSphere vMotion進行遷移,利用vSphere Distributed Resource Scheduler實現(xiàn)負載平衡。
VMware云平臺業(yè)務(wù)部門副總裁Lee Caswell表示,vSphere Distributed Resource Scheduler讓用戶可以在公共群集中的節(jié)點之間移動應用,或者根據(jù)工作負載需求的變化實時分發(fā)應用。另一項功能支持Nvidia多實例GPU,允許單個GPU在多達7個虛擬機之間進行共享,并具有故障隔離功能以防止宕機的發(fā)生。
此外,Nvidia還對AI和數(shù)據(jù)科學應用程序和框架庫、云原生部署工具以及Nvidia基礎(chǔ)結(jié)構(gòu)優(yōu)化庫(稱為Nvidia AI Enterprise,搭配vSphere一起使用)進行了認證。Boitano說:“我們發(fā)現(xiàn),如果一家新公司剛剛開始AI之旅,那么他們可能要花費80多周的時間來整理數(shù)據(jù)、訓練模型、開發(fā)模型并建立連接工廠車間的計算機視覺管道。”他說,Nvidia的預訓練模型和Transfer Learning Toolkit可用于將現(xiàn)有神經(jīng)網(wǎng)絡(luò)模型中的學習特征提取到新模型中,從而將時間“縮短到8周”。
除了宣布與Nvidia的合作關(guān)系外,VMware還表示,已經(jīng)將vSphere中的VMware NSX Advanced Load Balancer Essentials與Tanzu應用現(xiàn)代化套件進行了整合,這將實現(xiàn)針對Kubernetes集群的VMware多云負載平衡,并提供一條路徑讓客戶能夠使用NSX Advanced Load Balancer Enterprise Edition的全部功能。
Kubernetes是用于便攜式模塊化的容器軟件平臺一種主流編排工具。VSphere with Tanzu中新增了一個更新的管理程序,支持最新的Kubernetes 1.19版本,該版本的增強功能可以簡化升級并提高穩(wěn)定性。
vSAN的超融合功能
VMware表示,現(xiàn)在已經(jīng)有超過30000家客戶在使用vSAN存儲虛擬化層,此次vSAN也進行了升級,支持增強的HCI Mesh。這是一種基于軟件的超融合基礎(chǔ)設(shè)施,讓企業(yè)組織可以將存儲孤島統(tǒng)一到一個虛擬資源中。
這次更新主要針對那些希望在現(xiàn)有vSAN環(huán)境基礎(chǔ)上提高資源利用率的客戶,讓純計算或者非HCI集群可以遠程使用來自數(shù)據(jù)中心內(nèi)vSAN集群的存儲,從而可以獨立次擴展計算或者存儲。
“我怎么知道下一個節(jié)點是不是計算能力和容量的最有組合?這次升級讓可以能夠在服務(wù)器之間靈活地共享容量,甚至使單個刀片服務(wù)器都可以直接訪問vSAN存儲,”他說,HCI Mesh“打破了可擴展性的限制,讓你可以利用任何多余的存儲容量。”
這次升級的vSAN 7還添加了新功能,以更好地支持各種物理拓撲,包括集成的分布式資源調(diào)度工具,用于了解擴展集群配置,實現(xiàn)更一致的故障恢復,還有vSAN文件服務(wù)講支持擴展集群和雙節(jié)點集群。
Caswell表示:“如果你將計算轉(zhuǎn)移到另一個位置,通常會遇到性能問題。增強的擴展集群仍然可以保持計算和存儲的并存,即使是在故障轉(zhuǎn)移發(fā)生的情況下。”此外性能也有所提升,支持直接內(nèi)存訪問,讓不同主機在無需CPU干預的情況下訪問彼此的內(nèi)存。
在安全方面,升級的vSphere 7引入了Confidential Containers for vSphere Pods,后者采用AMD硬件功能在虛擬機停止運行時加密所有CPU寄存器的內(nèi)容。另外一項新功能vSphere Native Key Provider可以提供基本的密鑰管理服務(wù)器功能,為客戶提供開箱即用的加密功能和高級安全功能。
Caswell說,在分布式混合云和新型邊緣環(huán)境中,“我們可以讓不通過任何方式與互聯(lián)網(wǎng)連接的遠程辦公環(huán)境獨立于中央密鑰管理系統(tǒng)運行,從而避免了外部密鑰管理服務(wù)的成本和復雜性。”
升級的vSAN 7還支持vSphere Proactive High Availability,該功能可以將應用狀態(tài)和存儲的數(shù)據(jù)主動移至另一臺主機,以避免在性能降級的硬件上丟失數(shù)據(jù)。此外數(shù)據(jù)持久性也有所增強,減少意外故障(例如多個磁盤故障)下宕機和數(shù)據(jù)丟失的發(fā)生。
所有更新現(xiàn)已可用。