英伟达发力智能体!开源模型Nemotron 3 Super参数1200亿,吞吐量提升五倍
英伟达正在自主智能体基础设施竞争中发力,标志着这家芯片巨头在人工智能(AI)竞赛中从硬件供应商向模型层深度延伸的战略转变。
美东时间11日周三,英伟达宣布推出新一代开源大语言模型Nemotron 3 Super,专为企业级多智能体系统设计,凭借全新的混合专家(MoE)架构,将推理吞吐量提升至上一代模型的五倍以上。该模型的总参数量达1200亿,推理时仅激活120亿参数,原生支持100万token上下文窗口。
英伟达表示,Nemotron 3 Super在效率与开放性方面已登顶Artificial Analysis榜首,同等规模模型中准确率领先,并驱动英伟达AI-Q研究智能体在DeepResearch Bench及DeepResearch Bench II两大排行榜中位列第一。

英伟达披露了Nemotron 3 Super的首批合作伙伴。AI搜索公司Perplexity成为首家接入该模型执行智能体任务的合作方,为用户提供搜索及Computer产品中的多智能体编排服务。Palantir、西门子、Cadence、达索系统及Amdocs等企业软件巨头也已宣布将部署该模型,用于电信、网络安全、半导体设计及制造等领域的工作流自动化。
Nemotron 3 Super模型现已通过英伟达旗下build.nvidia.com、Hugging Face及OpenRouter等渠道向开发者开放。
英伟达在博客中指出,企业从聊天机器人迈向多智能体应用时,面临两项核心约束。
其一为"上下文爆炸":多智能体工作流每次交互均需重新传输完整历史记录(含工具输出和中间推理步骤),生成的token数量最高可达标准对话的15倍。随着任务延伸,这一海量上下文不仅推高成本,还会导致"目标漂移"——智能体逐渐偏离原始目标。
其二为"思考税":复杂智能体须在每一步骤进行推理,若每个子任务均调用大型模型,多智能体应用将因成本高昂、响应迟缓而难以落地。
Nemotron 3 Super通过100万token原生上下文窗口直接回应上下文爆炸问题,确保智能体在超长任务中保持状态连贯,防止目标漂移。而混合架构设计则针对性化解思考税。
英伟达博客披露,Nemotron 3 Super的性能跃升来自三项架构层面的核心创新。
- 混合Mamba-Transformer骨干网络:模型交错部署Mamba-2层与Transformer注意力层。Mamba层处理大部分序列任务,以线性时间复杂度提供4倍内存与计算效率提升,使百万token上下文窗口具备实际可行性;Transformer层则在关键深度插入,保障精确的关联召回能力。
- 潜在专家混合模型(latent MoE):在路由决策前,将token嵌入压缩至低秩潜空间,专家计算在该较小维度内完成后再投影回全维度。英伟达表示,这一设计使模型以相同推理成本激活4倍数量的专家,实现更细粒度的专业化路由——例如针对Python语法与SQL逻辑分别激活不同专家。
- 多token预测(MTP):模型在单次前向传播中同步预测多个未来token,而非逐token生成。英伟达称,这一设计在训练阶段强化了模型对长程逻辑依赖的内化,在推理阶段则内置推测解码能力,对代码和工具调用等结构化生成任务实现最高3倍的速度提升,且无需额外草稿模型。
在英伟达Blackwell平台上,该模型以NVFP4精度运行,相比英伟达Hopper平台的FP8,推理速度最高提升至4倍,且据英伟达称精度无损失。
与当前主流前沿模型普遍采用API-only访问方式不同,英伟达选择以宽松许可协议开放Nemotron 3 Super的权重、数据集与训练方案,开发者可在工作站、数据中心或云端自由部署与定制。
英伟达同步公开了完整的训练与评估方案,涵盖预训练至对齐的全流程,并发布超过10万亿token的预训练及后训练数据集、21个强化学习训练环境以及评估方案。预训练阶段,模型在25万亿token上以NVFP4原生精度训练,从首次梯度更新起即在4位浮点运算约束下学习准确性,而非事后量化。
在生态层面,英伟达已与谷歌云Vertex AI、甲骨文云基础设施、戴尔技术、HPE等主流云服务商及硬件厂商达成合作,亚马逊AWS Bedrock及微软Azure的接入亦在筹备中。CodeRabbit、Factory、Greptile等软件开发智能体公司,以及生命科学机构Edison Scientific和Lila Sciences,也已宣布将该模型整合至其智能体工作流。
英伟达在博客中还阐述了Nemotron 3系列的协同部署逻辑。去年12月推出的Nemotron 3模型Nano版本适合处理智能体工作流中针对性的单步任务,Nemotron 3 Super则专为需要深度规划与推理的复杂多步骤任务而设计。
以软件开发场景为例,英伟达建议:简单的合并请求可由Nano处理,涉及对代码库深度理解的复杂编码任务交由Super承担,而专家级任务则可进一步调用第三方专有模型。这一分层架构旨在帮助企业在成本与能力之间寻求最优平衡。
在具体应用场景上,英伟达博客举例称,软件开发智能体可将整个代码库一次性加载至上下文,实现端到端代码生成与调试;金融分析场景下可将数千页报告载入内存,省去跨长对话的重复推理;网络安全中的自主安全编排场景则可受益于高精度工具调用,避免在高风险环境中出现执行错误。
英伟达此次开放模型策略背后是一套清晰的商业逻辑。此前,英伟达主要通过向OpenAI、谷歌等模型提供商出售GPU积累AI领域主导地位。如今,若Nemotron成为企业智能体AI的主流基础模型,大规模运行该模型所需的GPU基础设施仍将倚重英伟达——在模型层推进开放的同时,巩固硬件层的需求锁定。
目前,Nemotron 3 Super已通过英伟达NIM微服务打包交付,支持从本地到云端的灵活部署。性能数据能否在生产级工作负载下得到验证,以及企业客户如何在开放灵活性与竞争对手专有模型能力之间做出取舍,将是检验这一战略成效的关键变量。
