DeepSeek V4发布前夕硬核重磅论文上线

大模型正在从单轮对话机器人,快速进化为能够自主规划、调用工具并解决实际问题的Agent。然而,这种转变在底层算力架构上引发了一场大地震。

当大模型在长期的上下文中与环境进行几十甚至上百轮的交互时,计算的瓶颈从GPU的算力转为存储I/O带宽。由于每次只追加极少的Token,导致KV-Cache命中率极高(通常大于95%),GPU大量的时间被用来等待从外部存储中读取海量的历史KV-Cache数据。

为了打破这一僵局,DeepSeek联合北大、清华研究团队提出了一种全新的大模型推理系统——DualPath

该系统通过引入“双路径KV-Cache加载”机制,巧妙利用了集群中闲置的网络带宽,将Agentic大模型负载的离线推理吞吐量提升了最高1.87倍,在线服务吞吐量平均提升了1.96倍。

目前,这项研究已在包含多达1152张GPU的集群上完成了大规模验证,支持DeepSeek-V3.2 660B等顶级大模型。

要理解DualPath的创新点,首先需要看清现有架构的痛点。

在典型的智能体轨迹中,模型会接收一段包含先前上下文和新追加Token的提示词,然后生成下一步动作。

这种多轮次、短追加的模式,让上下文长度极速膨胀,甚至可以达到百万级别。由于显存(HBM)和内存(DRAM)容量有限,海量的KV-Cache必须存放在更便宜但速度较慢的SSD外部存储中。

现代大模型推理系统普遍采用Prefill-Decode(预填充-解码)分离架构。预填充节点专门负责处理提示词并加载命中的KV-Cache,解码节点则负责逐个生成Token。

问题恰恰出在这里。

正如图1左侧所示,在现有系统中,所有的KV-Cache都直接从外部存储加载到预填充节点。这导致了一个极端的失衡:预填充节点的存储网卡(SNIC)带宽被彻底跑满,成为了整个系统的绝对瓶颈;而与此同时,解码节点的存储网卡却处于大规模闲置状态。

此外,硬件的发展趋势也加剧了这一矛盾。从图3左侧的NVIDIA硬件演进路线可以看出,GPU的计算力(FLOPS)增长速度远远甩开了网络带宽和显存容量的增长,导致计算与I/O的比例严重失衡。

既然解码节点的存储带宽闲着,为什么不把它利用起来?这正是DualPath的核心思想。

研究团队重构了KV-Cache的加载架构,在传统的存储->预填充路径之外,开辟了一条全新的“存储->解码->预填充”双路径加载通道。

1.预填充读取路径:KV-Cache从持久化存储读入预填充节点的内存缓冲,再传输到GPU显存进行计算,最后把完整的KV-Cache传给解码节点。

2.解码读取路径:KV-Cache先从持久化存储读入解码节点的内存缓冲。在预填充阶段,这部分数据通过节点间的高速计算网络(采用RDMA技术),以层级流式传输的方式发送给预填充节点参与计算。

通过动态分配这两条路径的数据流量,DualPath将原本单一节点的I/O压力,转化为全局资源池化的负载分担,从而成功聚合了所有节点的存储带宽。

想法很直观,但在亚毫秒级延迟极其敏感的大模型推理系统中落地,需要解决极具挑战性的工程难题。

第一个挑战是网络流量的干扰。

引入额外的KV-Cache传输,极易与模型推理过程中关键的集合通信(如MoE架构中的AllToAll操作)发生冲突,拖慢整体推理速度。

对此,DualPath设计了以计算网卡(CNIC)为中心的流量管理机制。系统将所有进出GPU的流量(包括主机到设备的拷贝)强制通过计算网卡,并利用底层网络(如InfiniBand的虚拟通道机制)实施严格的服务质量(QoS)控制。模型推理通信被分配到拥有99%带宽的高优先级通道,而KV-Cache传输则被分配到低优先级通道,仅在计算网络的空闲间隙见缝插针地传输,实现了完美的流量隔离。

第二个挑战是动态负载均衡。

面对复杂多变的请求,系统必须实时决定为每个请求选择哪条读取路径,同时兼顾网卡队列长度和GPU计算负载。

DualPath引入了自适应请求调度器(工作原理如图5所示)。该调度器不仅会监控各个节点的磁盘读取队列长度,还会将Token数量作为衡量负载的核心指标。系统将计算节点划分为过载、低读取队列和高读取队列三类,优先将新任务分配给读取队列较短且未过载的节点。

同时,在节点内部,系统还会基于时间预估机制进行调度,将执行时间相近的请求打包到同一个批次中,最大程度减少GPU在等待同步时产生的计算气泡。

研究团队在拥有InfiniBand网络和3FS分布式存储的NVIDIA Hopper GPU集群上对DualPath进行了全面评估。测试模型涵盖了DeepSeek-V3.2 660B、DS 27B以及Qwen2.5-32B,并使用了真实的智能体强化学习环境轨迹数据集。

离线批量推理表现(如强化学习的Rollout阶段):

在不同智能体并发数和最大上下文长度的设置下,DualPath相较于基线系统展现出碾压优势。在处理DeepSeek 660B模型时,DualPath将任务完成时间大幅缩短,吞吐量最高提升了1.87倍。

随着每轮追加Token长度的增加或生成长度的变化,DualPath依然能够保持稳定的性能提升,证明其成功消除了存储网络瓶颈。

在线服务表现

在设定了严格的延迟服务等级协议(首字延迟小于4秒)的前提下,系统应对突发请求的能力得到了极大增强。DualPath能支撑的请求到达率(APS)相比基线系统提升了最高2.25倍,同时保持了极低的端到端生成延迟。消融实验进一步证实,双路径加载机制和自适应调度算法是性能提升的最关键因素。

大规模扩展性

该系统不仅在小规模集群上表现优异,在面对海量算力时同样具备极高的扩展性。在测试包含1152张GPU(48个预填充节点,96个解码节点)的大规模集群中,DualPath依然能够实现近乎线性的性能扩展。

通过重塑底层数据流向,DualPath为正在到来的Agentic大模型时代,铺平了通往极速推理的基础设施道路。

本文来源:AI寒武纪

风险提示及免责条款
市场有风险,投资需谨慎。本文不构成个人投资建议,也未考虑到个别用户特殊的投资目标、财务状况或需要。用户应考虑本文中的任何意见、观点或结论是否符合其特定状况。据此投资,责任自负。