ARM处理器IC芯片-英伟达A100卡NVLink版与PCIe版GPU的究竟有什么
你的位置:ARM处理器IC芯片 > 芯片资讯 > 英伟达A100卡NVLink版与PCIe版GPU的究竟有什么
英伟达A100卡NVLink版与PCIe版GPU的究竟有什么
发布日期:2024-02-10 09:01     点击次数:135

先说SXM版GPU。SXM架构是一种高带宽插座解决方案 GPU连接到英伟达专有的GPU DGX 和 HGX 系统。每一代英伟达GPU(包括H8000)、H100、A800、A100和早期P100、V100),DGX系统 、HGX 所有系统都配备了相应的 SXM 插座类型。下图是8块A100 SXM 将卡插入HGX 系统(浪潮NF548A5)。

 特殊HGX 系统板通过 NVLink 将 8 个 GPU 相互连接,实现 GPU 高带宽之间。如下图所示,每个H100 GPU 连接到4个 NVLink 交换芯片, NVLinkGPU之间的带宽为900 GB/s。同时,每个H100 SXM GPU 也通过 PCIe连接到 CPU,因此 8 个 GPU 任何计算数据都可以发送到 CPU

 英伟达DGX 和 HGX 系统板上的一切 SXM 版GPU ,都通过 NVSwitch 芯片互联, GPU NVLink用于交换数据,未阉割的A100为600GB/s、H100是900GB/s,即使阉割了A8000,即使阉割了A800、H800也有400GB/s。AI大模型训练非常适合拥有大量数据。

DGX 和 HGX 有什么区别?NVIDIA DGX 可以理解,原厂整机具有很强的可扩展性,所提供的性能是任何其他服务器在其给定的外形尺寸中都无法比拟的。将多个 NVIDIA DGX  H800与 NVSwitch 连接多个系统(如32个、64个) DGX H800 扩展为 超级集群SuperPod,实现超大模型训练。HGX属于OEM整机。然后说说PCIE版GPU。PCIE版只成对 GPU 通过 NVLink Bridge 连接。如下图所示。GPU 1 直接连接 GPU 2,但GPU 1 和 GPU 8 没有直接连接,ARM架构,芯片,集成电路只能通过 PCIe 必须使用通道进行数据通信 CPU 资源。最新的PCIE只有128GB/s。

最后说说各自的应用场景。众所周知,大模型训练需要很高的计算能力,尤其是那些参数动辄100亿、1000亿的大模型,对GPU之间的互联带宽也有很高的要求。既然PCIe PCIeee的带宽远不如NVLink 还有存在的价值吗?事实上,就GPU卡的计算能力而言,PCIE版GPU的计算性能与SXM版GPU没有什么不同,只是GPU互联带宽的低点。事实上,互联带宽对大模型以外的应用影响不大。下图是A100 PCIe和A100 对比SXM的参数。(表中 * 表示采用稀疏技术。它是一种只存储非零元计算的参数,可以节省资源)

PCIe GPU的版本特别适合那些工作负荷小,希望在GPU 就数量而言,获得最大的灵活性。例如,一些GPU服务器只需要配备4卡甚至2卡GPU,使用PCIE 版本的灵活性很大,整机服务器可以1U 或者2U,对IDC机架的要求也不高。此外,在推理类应用的部署中,我们经常通过虚拟化将资源“化整为零”,按1计算 :1 的比例配置 CPU 与 GPU 资源。当然,PCIE版也更省电,约300W/GPU;HGX架构中的SXM版本可以高达500W/GPU。