DeepSeek联合清北重磅硬核论文：发力智能体底层基建，击穿Agent推理I/O瓶颈！

AI寒武纪发表于 2026年02月26日 21:04

5836人阅读

摘要：论文提出推理系统DualPath，针对Agentic大模型场景中KV-Cache读取造成的I/O带宽瓶颈，创新性地开辟"存储→解码→预填充"双路径加载机制，充分利用解码节点闲置存储带宽。系统通过QoS流量隔离与自适应调度，在1152张GPU集群上验证，将离线推理吞吐量最高提升1.87倍，在线服务吞吐量平均提升1.96倍。

DeepSeek V4发布前夕硬核重磅论文上线

大模型正在从单轮对话机器人，快速进化为能够自主规划、调用工具并解决实际问题的Agent。然而，这种转变在底层算力架构上引发了一场大地震。

当大模型在长期的上下文中与环境进行几十甚至上百轮的交互时，计算的瓶颈从GPU的算力转为存储I/O带宽。由于每次只追加极少的Token，导致KV-Cache命中率极高（通常大于95%），GPU大量的时间被用来等待从外部存储中读取海量的历史KV-Cache数据。

为了打破这一僵局，DeepSeek联合北大、清华研究团队提出了一种全新的大模型推理系统——DualPath。

该系统通过引入“双路径KV-Cache加载”机制，巧妙利用了集群中闲置的网络带宽，将Agentic大模型负载的离线推理吞吐量提升了最高1.87倍，在线服务吞吐量平均提升了1.96倍。

目前，这项研究已在包含多达1152张GPU的集群上完成了大规模验证，支持DeepSeek-V3.2 660B等顶级大模型。

要理解DualPath的创新点，首先需要看清现有架构的痛点。

在典型的智能体轨迹中，模型会接收一段包含先前上下文和新追加Token的提示词，然后生成下一步动作。

这种多轮次、短追加的模式，让上下文长度极速膨胀，甚至可以达到百万级别。由于显存（HBM）和内存（DRAM）容量有限，海量的KV-Cache必须存放在更便宜但速度较慢的SSD外部存储中。

现代大模型推理系统普遍采用Prefill-Decode（预填充-解码）分离架构。预填充节点专门负责处理提示词并加载命中的KV-Cache，解码节点则负责逐个生成Token。

问题恰恰出在这里。

正如图1左侧所示，在现有系统中，所有的KV-Cache都直接从外部存储加载到预填充节点。这导致了一个极端的失衡：预填充节点的存储网卡（SNIC）带宽被彻底跑满，成为了整个系统的绝对瓶颈；而与此同时，解码节点的存储网卡却处于大规模闲置状态。

此外，硬件的发展趋势也加剧了这一矛盾。从图3左侧的NVIDIA硬件演进路线可以看出，GPU的计算力（FLOPS）增长速度远远甩开了网络带宽和显存容量的增长，导致计算与I/O的比例严重失衡。

既然解码节点的存储带宽闲着，为什么不把它利用起来？这正是DualPath的核心思想。

研究团队重构了KV-Cache的加载架构，在传统的存储->预填充路径之外，开辟了一条全新的“存储->解码->预填充”双路径加载通道。

1.预填充读取路径：KV-Cache从持久化存储读入预填充节点的内存缓冲，再传输到GPU显存进行计算，最后把完整的KV-Cache传给解码节点。

2.解码读取路径：KV-Cache先从持久化存储读入解码节点的内存缓冲。在预填充阶段，这部分数据通过节点间的高速计算网络（采用RDMA技术），以层级流式传输的方式发送给预填充节点参与计算。

通过动态分配这两条路径的数据流量，DualPath将原本单一节点的I/O压力，转化为全局资源池化的负载分担，从而成功聚合了所有节点的存储带宽。

想法很直观，但在亚毫秒级延迟极其敏感的大模型推理系统中落地，需要解决极具挑战性的工程难题。

第一个挑战是网络流量的干扰。

引入额外的KV-Cache传输，极易与模型推理过程中关键的集合通信（如MoE架构中的AllToAll操作）发生冲突，拖慢整体推理速度。

对此，DualPath设计了以计算网卡（CNIC）为中心的流量管理机制。系统将所有进出GPU的流量（包括主机到设备的拷贝）强制通过计算网卡，并利用底层网络（如InfiniBand的虚拟通道机制）实施严格的服务质量（QoS）控制。模型推理通信被分配到拥有99%带宽的高优先级通道，而KV-Cache传输则被分配到低优先级通道，仅在计算网络的空闲间隙见缝插针地传输，实现了完美的流量隔离。

第二个挑战是动态负载均衡。

面对复杂多变的请求，系统必须实时决定为每个请求选择哪条读取路径，同时兼顾网卡队列长度和GPU计算负载。

DualPath引入了自适应请求调度器（工作原理如图5所示）。该调度器不仅会监控各个节点的磁盘读取队列长度，还会将Token数量作为衡量负载的核心指标。系统将计算节点划分为过载、低读取队列和高读取队列三类，优先将新任务分配给读取队列较短且未过载的节点。

同时，在节点内部，系统还会基于时间预估机制进行调度，将执行时间相近的请求打包到同一个批次中，最大程度减少GPU在等待同步时产生的计算气泡。

研究团队在拥有InfiniBand网络和3FS分布式存储的NVIDIA Hopper GPU集群上对DualPath进行了全面评估。测试模型涵盖了DeepSeek-V3.2 660B、DS 27B以及Qwen2.5-32B，并使用了真实的智能体强化学习环境轨迹数据集。

离线批量推理表现（如强化学习的Rollout阶段）：

在不同智能体并发数和最大上下文长度的设置下，DualPath相较于基线系统展现出碾压优势。在处理DeepSeek 660B模型时，DualPath将任务完成时间大幅缩短，吞吐量最高提升了1.87倍。

随着每轮追加Token长度的增加或生成长度的变化，DualPath依然能够保持稳定的性能提升，证明其成功消除了存储网络瓶颈。

在线服务表现：

在设定了严格的延迟服务等级协议（首字延迟小于4秒）的前提下，系统应对突发请求的能力得到了极大增强。DualPath能支撑的请求到达率（APS）相比基线系统提升了最高2.25倍，同时保持了极低的端到端生成延迟。消融实验进一步证实，双路径加载机制和自适应调度算法是性能提升的最关键因素。

大规模扩展性：

该系统不仅在小规模集群上表现优异，在面对海量算力时同样具备极高的扩展性。在测试包含1152张GPU（48个预填充节点，96个解码节点）的大规模集群中，DualPath依然能够实现近乎线性的性能扩展。

通过重塑底层数据流向，DualPath为正在到来的Agentic大模型时代，铺平了通往极速推理的基础设施道路。

本文来源：AI寒武纪

风险提示及免责条款

市场有风险，投资需谨慎。本文不构成个人投资建议，也未考虑到个别用户特殊的投资目标、财务状况或需要。用户应考虑本文中的任何意见、观点或结论是否符合其特定状况。据此投资，责任自负。

收藏分享

0条评论