美团开源万亿参数大模型 LongCat-2.0,五万卡国产算力全流程训练
6月30日,美团正式发布并宣布开源新一代基础大模型LongCat-2.0(中文名“龙猫2.0”)。官方数据显示,该模型总参数量为1.6万亿,是国内首个基于5万张国产算力卡集群完成预训练及推理全流程的大型语言模型。
相比过往行业内聚焦通用能力的发布路径,美团此次的重心主要落在底层基础设施的国产替代、模型推理成本控制,以及面向智能体与代码场景的垂直优化上。
公开资料显示,LongCat-2.0此前曾以“Owl Alpha”为代号在OpenRouter等平台进行灰度测试。在技术架构上,该模型在超过5万张国产AI芯片集群上完成了30万亿Token的预训练,并主要采用了稀疏注意力与动态激活机制。
其在推理阶段的单次Token平均激活参数约480亿。这种架构设计的目的,是在处理常规指令时减少高能耗计算节点的调用,从而压降单次交互的显存占用和推理成本。
在模型能力侧,LongCat-2.0被明确设定为侧重于智能体工作负载。据了解,LongCat-2.0从零开始预训练,原生支持1M超长上下文,其架构设计可以让模型在真实的Agentic Coding任务中,更高效、更稳定地完成代码理解、生成与执行。
在主流的Agent与代码生成评测中,其主要优势指向了自动化工作流和代码理解。目前,该模型已兼容Claude Code、OpenClaw等主流开发工具的接口。这一技术侧重表明,美团试图在长文本和代码生成维度寻找更确定的落地场景。
在海外高端GPU获取受限的市场环境下,美团自2023年起推进国产算力适配。此次披露的5万卡国产集群,验证了超大规模国产硬件在实际万亿模型训练中的工程可用性。
万卡以上级别集群的核心壁垒在于节点协同与系统纠错。能在该规模集群上完成从零预训练,意味着其底层的算子适配、通信库异常处理与流水线调度能力已达到商用标准。
对企业而言,摆脱对单一海外硬件供应商的依赖,可以使其在未来的资本支出结构和算力采购上,获得了一定的成本调控空间。
在新模型发布之前,美团近期在内部成立了AI Transformation部门。这反映出其对大模型的预期正从技术探索转向业务流的实质改造。
将侧重智能体和代码能力的LongCat-2.0置入美团实际业务链条,预期的影响路径主要集中于两点:
其一,内部研发端的结构性降本。通过接入各类开发工具,模型衍生的AI代码助手与SQL数据分析智能体,可直接缩减后端开发与数据查询的人力与时间消耗。
其二,业务流的自动化调度。美团主营的同城物流与本地生活业务,涉及高频的商户与骑手交互。1M超长上下文结合原生的工具调用能力,可用于处理多维度的调度指令分发与自动化客诉流转,尝试进一步摊薄单均履约成本。
整体来看,LongCat-2.0的发布是一次基于现有国产算力底座和业务需求的工程化交付。在行业算力投入持续扩大的周期内,美团试图通过架构调整压降推理成本,并以智能体编码作为切口推进内部提效。该模型后续的财务表现,仍需考察其在美团高并发真实业务中,能否兑现预期的开发降本与运营增效指标。
