英伟达GTC发布的这一代Blackwell,精髓不是Grace Blackwell架构、不是NVLink domain、不是精度软件优化液冷等等等等,这些单点都不重要,精髓就在NVL72这个架构,这个极致压缩又极致耦合的NVL 72。本文就对NVLink及NVL72做一个分析记录。

(一)NVLink技术基本概念

算力的提升不仅依靠单张 GPU 卡的性能提升,往往还需要多 GPU 卡组合。在多 GPU 系统内部,GPU 间通信的带宽通常在数百GB/s以上,PCIe总线的数据传输速率容易成为瓶颈,且PCIe链路接口的串并转换会产生较大延时,影响GPU并行计算的效率和性能。GPU发出的信号需要先传递到PCIe Switch, PCIe Switch中对数据进行处理,CPU会对数据进行分发调度,这些都会引入额外的网络延迟,限制了系统性能。

为此,NVIDIA推出了能够提升GPU通信性能的技术——GPU Direct、P2P技术,使GPU可以通过 PCI Express 直接访问目标GPU的显存,避免了通过拷贝到CPU host memory Buffer作为中转,大大降低了数据交换的延迟,但受限于PCI Express总线协议以及拓扑结构的一些限制,无法做到更高的带宽。此后,NVIDIA 提出了 NVLink 总线协议。

NVLINK 是一种专门设计用于连接 NVIDIA GPU 的高速互联技术。它允许 GPU 之间以点对点方式进行通信,绕过传统的PCIe总线,实现了更高的带宽和更低的延迟。NVLINK 可用于连接两个或多个 GPU,以实现高速的数据传输和共享,为多 GPU 系统提供更高的性能和效率。

NVLink的具体工作方式如下图所示:

NVLink Switch 协同 NVLink 释放数据传输能力。NVLink Switch 通过连接多个 NVLink,实现了机架内和机架间全速度的 GPU 通信,这是一种 1.8TB/s 双向直接 GPU 到 GPU 互联技术,极大地扩展了服务器内多 GPU 的输入和输出能力。NVLink Switch 还配备NVIDIA 可扩展分层聚合和缩减协议(SHARP)™ 引擎,优化了网络内缩减和多播加速,进一步提高了通信效率。

NVLink Switch 允许 NVLink 连接跨节点扩展,借助 NVSwitch,NVLink 连接可在节点间扩展,以创建无缝、高带宽的多节点 GPU 集群,从而有效地形成数据中心大小的 GPU。

NVLink Switch产品如下图所示:

(二)NVLink 技术架构

NVLink 的架构包括 NVLink 桥接器和 NVLink 交换机。NVLINK 桥接器是用于 GPU 与其他设备(如 CPU、内存或其他 GPU)之间通信的组件。它提供了一组 NVLink 接口,可以将 GPU 连接到其他设备上。而 NVLink 交换机是用于 GPU 之间通信的组件。它提供了一组 NVLink 连接端口,可以将多个 GPU 相互连接起来。NVLink 交换机可以位于 GPU 芯片内部或外部,从而形成 NVLink 通信网络。

NVLink技术架构如下图所示:

(三)NVLink 发展迭代

NVLink自2014年推出以来,已经历了5个代际的演进。第一代NVLink单链可实现40 GB/s的双向带宽,单芯片可支持4链路,即 160 GB/s 的总双向带宽;2017 年,基于 Volta 架构的第二代 NVLink 发布,单链可实现 50 GB/s 的双向带宽,单芯片可支持 6 链路,即 300 GB/s 的总双向带宽。2020 年,基于 Ampere 架构的第三代 NVLink 发布,单链可实现 50 GB/s 的双向带宽,单芯片可支持 12 链路,即 600 GB/s 的总双向带宽。2022 年,基于 Hopper 架构的第四代 NVLink 发布,传输信号变为 PAM4 调制电信号,单链可实现 50 GB/s 的双向带宽,单芯片可支持 18 链路,即 900 GB/s 的总双向带宽。第五代NVLink连接技术支持单块Blackwell架构将GPU到GPU再到CPU的总线数据传输速度提升至每秒100GB,每块GPU拥有18个NVLink连接,Blackwell GPU的总带宽可达到1,800GB/秒,是NVLink 4.0的两倍,也是行业标准PCIe Gen5总线带宽的14倍,这确保了最复杂LLM之间576个GPU之间的无缝高速通信。

值得注意的是,除了NVLink 1.0采用了20G特殊速率点以外,NVLink 2.0~4.0皆采用了与Ethernet相同或者相近的频点,这样做的好处是可以复用成熟的Ethernet互联生态,也为未来实现连接盒子或机框组成超节点埋下伏笔。NVSwitch 1.0、2.0、3.0分别与NVLink 2.0、3.0、4.0配合,形成了NVLink总线域网络的基础。NVLink4.0配合NVSwitch3.0组成了超节点网络的基础,这一变化的外部特征是NVSwitch脱离计算单板而单独成为网络设备,而NVLink则从1.0至3.0以来的板级互联技术升级成为设备间互联技术。

(四)NVLink搭载产品介绍

NVLink于2014年3月的NVIDIA GTC 2014上发布,2016发布的P100是搭载NVLink的第一款产品,单个GPU具有160GB/s的带宽,相当于PCIe Gen3 * 16带宽的5倍。GTC 2017上发布的V100搭载的NVLink 2.0将GPU带宽提升到了300GB/s,大约是PCIe的10倍。2020年发布的第三代NVLink搭载显卡A100,是首次采用Ampere架构的GPU,支持多实例GPU功能,允许单个A100 GPU分割成多个独立的小GPU,大幅提升了云和数据中心的资源分配效率。

第四代H100支持NVLink4.0,双向带宽更是提升到了900GB/s,H100能处理最具挑战性的AI工作负载和大规模数据处理任务。H100升级了Tensor核心,显著提高了AI训练和推理的速度。支持双精度(FP64)、单精度(FP32)、半精度(FP16)和整数(INT8)计算负载。相比A100,FP8计算速度提升六倍,达到4petaflops。内存增加50%,使用HBM3高带宽内存,带宽可达3 Tbps,外部连接速度几乎达到5 Tbps。此外,新的Transformer引擎使模型转换器训练速度提升高达六倍,适用于对性能有更高要求的AI和科学模拟任务。

到了最新一代NVLink 5.0,英伟达基于AI计算节点配合第五代NVLink连接多块GB200超级芯片,构建了DGX机架,还用8个DGX机架所包含的576块最强B200显卡构建了SuperPOD集群,AI算力高达11.5 Exaflops。此次B200采用了192GB的HBM3e显存,拥有8TB的内存带宽,提供20 PetaFlops的AI性能(FP4),10 PetaFlops的FP8性能。GB200超级芯片对外提供40 PetaFlops的AI性能,加上Arm CPU自带的内存,总体内存容量就达到了864GB。另外,还有16TB/s的HBM内存带宽,以及总体3.6TB/s的NVLink带宽。

(一)GB200 NVL72 基本概念

GB200 NVL72 采用机架级设计使用第五代NVLink实现互联,NVLink 多节点 all-to-all 带宽达到 130TB/s。GB200 NVL72可连接 36 个 Grace CPU 和 72 个 Blackwell GPU,为数据中心提供前所未有的计算能力。GB200 NVL72将72 GPU高密度配置在一个机柜中,用于大模型训推,其中柜内组网以电气信号背板和铜线的NVLink网络为主,而机柜外扩容组网尤其千至万卡互联则需要2-3层交换机网络和光通信方案。前者是芯片互联增量,后者架构延续但整体升级。

GB200 NVL72有 18 个 1U 服务器,其提供的 FP8 性能为 720 petaflops,FP4 计算性能为 1440 petaflops,可处理多达 27 万亿个 AI LLM 参数模型。每台服务器里带有两个 GB200 Grace Blackwell Superchip,这些计算节点带有 1.7TB 的 HBM3E 内存、32TB/s 的内存带宽,为应对功耗过于强大问题,NVIDIA选择全部采用液冷 MGX 封装,采取液冷机架级解决方案。

从技术架构方面看,NVIDIA GB200 NVL72 的核心为GB200 Grace Blackwell Superchip,采用 NVIDIA NVLink-C2C 互联技术,将两个高性能 NVIDIA Blackwell Tensor Core GPU 与一个 NVIDIA Grace CPU 连接,实现高效的计算协同,进一步用于支持万亿参数LLM、多模态任务的变压器模型、大规模仿真模型和3D数据生成模型的更大内存需求,为万亿参数的大型语言模型(LLM)推理提供了 30 倍的实时速度提升。

在 NVL72 系统中,NVLink Switch 实现了 130TB/s 的 GPU 带宽,极大增强了大型模型的并行处理能力。通过在服务器外部添加第二层 NVSwitch,NVLink 网络可以连接多达 256 个 GPU,并提供 57.6 TB/s 的多对多带宽,从而快速完成大型 AI 作业。这种设计使得多服务器集群可以随着计算量的增加而扩展 GPU 通信,支持的 GPU 数量是单个 8 个 GPU 系统的 9 倍。NVLink 和 NVLink Switch 作为 NVIDIA 数据中心解决方案的关键构建模块,整合了 NVIDIA AI Enterprise 软件套件和 NVIDIA NGC™ 目录中的硬件、网络、软件、库及优化的 AI 模型和应用程序。

Nvidia GB200 NVL72产品样图如下图所示:

(二)GB200 NVL72 性能对比

GB200 NVL72 能够大幅提升大规模训练速度。最新 GB200 NVL72 包含更快的第二代 Transformer 引擎,具有 FP8 精度,能够将大型语言模型的大规模训练速度提升 4 倍。得益于每秒 1.8TB 的 GPU 到 GPU 互连速度、InfiniBand 网络和 NVIDIA Magnum IO™ 软件的第五代 NVLink 技术,实现了显著的性能提升。GB200 NVL72 采用的液体冷却技术不仅提升了计算密度,减少了占地面积,而且通过高带宽、低延迟的 GPU 通信,显著减少了数据中心的碳足迹和能源消耗。与传统的 NVIDIA H100 风冷基础设施相比,GB200 在相同功耗下实现了 25 倍的性能提升,同时降低了水消耗。GB200 利用 NVIDIA Blackwell 架构的高带宽内存性能、NVLink-C2C以及专用解压缩引擎,大幅提高了关键数据库查询的速度,相比 CPU 提升了 18 倍,并将总体拥有成本(TCO)降低了 5 倍,为企业处理、分析大量数据提供了强大的支持。

GB200 NVL72 推理能力、速度性能如下图所示:

GB200 NVL72 能耗与性能如下图所示:

NVLink主要应用于NVIDIA旗下主要芯片产品,用于实现GPU和CPU之间的高速数据传输,进一步提高数据处理和应用性能。英伟达芯片主要应用于高性能计算、人工智能、数据中心等领域,应用场景广泛。因此,本札记中聚焦于NVLink 5.0搭载产品Blackwell 平台主要应用领域——人工智能与车载计算,介绍其市场应用情况。

(一)AI算力爆发催化下,万亿参数级生产式AI超级计算机应运而生

NVIDIA敏锐地捕捉到AI技术对计算能力的迫切需求,并通过Blackwell芯片的研发来满足这一市场需求。Blackwell的发布,标志着AI硬件领域迈入了一个新纪元,其强大性能将为AI公司提供前所未有的计算支持,助力训练出更复杂、更精准的模型,基于 Blackwell 的 AI 算力将以名为 DGX GB200 的完整服务器形态提供给用户,结合了 36 颗 NVIDIA Grace CPU 和 72 块 Blackwell GPU,而这些超级芯片通过第五代 NVLink 连接成一台超级计算机提高整体计算性能。为了更好地支持GB200超级芯片的应用,英伟达推出了全新的计算集群DGX GB200 SuperPod,这一超级计算集群采用了新型高效液冷机架规模架构,能够在FP4精度下提供惊人的算力和内存容量。通过DGX GB200 SuperPod,英伟达将为各行各业提供强大的AI计算能力,助力AI工业革命的发展,再次展现了其在AI领域的领先地位和创新能力。

(二)Blackwell赋能自动驾驶生态,助推车载计算平台成功升级

NVIDIA集中式车载计算平台DRIVE Thor将搭载专为Transformer、大语言模型(LLM)和生成式AI工作负载而打造的全新Blackwell架构。性能高达 1000 TFLOPS 的 DRIVE Thor 是专为汽车行业的生成式 AI 应用而打造的车载计算平台。DRIVE Thor 不仅可以提供丰富的座舱功能、安全可靠的高度自动化驾驶和无人驾驶功能,还能将所有功能整合至同一个集中式平台上。目前,已经有多家厂商公布了这一平台的全新合作进展,比亚迪和英伟达的合作范围从汽车扩展到云,除了在DRIVE Thor上构建下一代电动汽车车队外,比亚迪还计划使用英伟达的AI基础设施进行基于云的AI开发和培训技术。

数字建模下汽车模型应用如下图所示:

(一)海外互联技术竞争激烈,国内华为成为未来之星

大语言互联模型通常分为两类,一类称为总线互联协议,常见的总线互联协议包括NVLink、AMD的infinity fabric、PCIe以及CXL联盟推出的开放式互联新标准CXL等;另一类称为网络互联协议,包括infiniband、以太网等。

Infinity Fabric是AMD 开发的高速互联技术,被用于连接AMD处理器内部的各个核心、缓存和其他组件,以实现高效的数据传输和通信。Infinity Fabric采用了一种分布式架构,其中包含多个独立的通道,每个通道都可以进行双向数据传输。这种设计使得不同核心之间可以直接进行快速而低延迟的通信,从而提高了整体性能。此外,Infinity Fabric还具备可扩展性和灵活性。它允许在不同芯片之间建立连接,并支持将多颗处理器组合成更强大的系统。

PCI Express (PCIe)是一种高速串行计算机扩展总线标准,由PCI-SIG组织发布,主要用于连接CPU与各类高速外围设备,如GPU、SSD、网卡、显卡等。与传统的PCI总线相比,PCIe采用点对点连接方式,具有更高的性能和可扩展性。伴随着AI、自动驾驶、AR/VR等应用快速发展,计算要求愈来愈高,处理器I/O带宽的需求每三年实现翻番,PCIe也大致按照3年一代的速度更新演进,每一代升级几乎能够实现传输速率的翻倍,并有着良好的向后兼容性。

Compute Express Link (CXL)是一项全新的互联标准,由英特尔、戴尔、惠普、谷歌等业界巨头共同推动。它旨在提供高带宽、低延迟的连接,以支持各种加速器、存储设备和处理器之间的协同工作。CXL的设计目标是解决数据中心所面临的性能和可扩展性挑战,以满足未来计算需求。CXL的一个显著特点是支持内存一致性,这意味着不同设备之间可以共享数据而无需进行复杂的数据复制。这种一致性对于多处理器系统和大规模计算任务尤为重要,因为它能够提高数据访问效率,减少延迟,从而加速计算速度。此外,CXL还具有灵活性,可用于各种设备和应用,使其成为通用的互联解决方案。目前,CXL的生态系统仍处于建立的初期,还需要更多硬件供应商、软件提供商的加入才能形成完整的产业链。CXL的应用案例还比较有限,在数据中心、AI和网络领域具有很大的潜力。

CXL联盟具体成员名单如下图所示:

以太网是应用最广泛最成熟的网络技术,起源于Xerox PARC公司,可在数据中心的服务器之间传输大量数据,这对于许多加速计算任务至关重要。RoCE协议下,以太网融合RDMA功能,在高性能计算场景下的通信性能大幅提升。为应对AI 和HPC工作负载提出的新挑战,网络巨头联合成立了超以太网联盟(UEC),超以太网解决方案堆栈将利用以太网的普遍性和灵活性处理各种工作负载,同时具有可扩展性和成本效益,为以太网注入了新的活力。

InfiniBand是一种高速、低延迟互联技术,由 IBTA(InfiniBand Trade Association)提出,其规定了一整套完整的链路层到传输层(非传统OSI七层模型的传输层,而是位于其之上)规范,拥有高吞吐量和低延迟,扩展性好,通过交换机在节点间的点对点通道进行数据传输,通道私有且受保护。

作为国内较早入局AI大数据计算的企业,华为也推出了自己的高速互联技术,提供了高带宽、低延迟的网络通信能力,适用于大规模并行计算和数据中心的需要。华为CloudEngine系列数据中心交换机提供了高密度的端口和高速的数据交换能力,支持100Gbps、400Gbps等速率,以及RoCE等RDMA技术,确保数据中心内部的高速通信。CloudEngine 16800系列交换机是华为推出的首款面向AI时代的数据中心交换机。内嵌AI芯片,承载独创的iLossless智能无损交换算法,对全网流量进行实时的学习训练,实现网络0丢包与E2Eμs级时延,达到最高吞吐量。CloudEngine 16800-X是华为推出的业界首款面向多元算力的800GE数据中心交换机。最多支持288个800GE端口,支撑业务十年平滑演进,提供业界最优3.5微秒跨板转发时延,网络级负载均衡实现90%高吞吐;依托超融合以太实现通用计算、高性能计算、智能计算和存储融合承载,TCO降低36%。

(二)算力驱动产品更新,应用场景越来越广泛

NVLink将继续发挥重要作用,随着计算机视觉、人工智能和大数据等领域的不断发展,对高性能、高吞吐量的数据传输需求将持续增长,NVLink技术有望在更广泛的应用场景中得到应用,包括数据中心、科学计算、医疗影像等领域。同时,随着半导体制造工艺的不断进步,NVLink技术有望实现更高的带宽和更低的延迟,进一步提升系统性能和效率,成为连接多个GPU或其他处理器的首选技术之一,为大规模并行计算提供强大支持。

此外,随着物联网、自动驾驶、虚拟现实等新兴技术的快速发展,对处理海量数据和实时计算的需求将变得越来越迫切,NVLink技术通过其高效的数据传输能力有望为这些新兴应用提供关键支持,助力推动技术创新和产业发展,未来将在高性能计算、人工智能和新兴技术应用等领域展现出更加广阔的发展前景。

文章来源:微信公众号“高华GH”,原文标题:《关于英伟达最新一代的精髓:NVLink、NVL72》

风险提示及免责条款
市场有风险,投资需谨慎。本文不构成个人投资建议,也未考虑到个别用户特殊的投资目标、财务状况或需要。用户应考虑本文中的任何意见、观点或结论是否符合其特定状况。据此投资,责任自负。