作者:周源/华尔街见闻​

6月27日,腾讯混元宣布开源首个混合推理MoE(专家混合模型:Mixture of Experts)模型Hunyuan-A13B,同时发布ArtifactsBench和C3 - Bench两个新数据集,为大模型领域的发展提供了新的技术资源和评估工具。

Hunyuan-A13B模型总参数为800亿(80B),激活参数130亿(13B),这样的参数配置在推理效率上有一定优势。

对比同等架构的开源模型,以常见的Transformer架构模型为例,Hunyuan-A13B在处理相同规模任务时,推理速度提升明显,计算资源消耗相对较低。

作为首个开源的13B级别MoE混合推理模型,在多个业内权威数据测试中,该模型展现出一定的通用能力,特别是在Agent工具调用和长文处理方面表现出特色,这使其在实际应用场景中具备差异化竞争力。

​腾讯混元通过构建多Agent数据合成框架,提升Hunyuan-A13B的工具调用能力。

该框架整合了MCP(大模型上下文协议)、沙箱、大语言模型模拟等多种环境,并运用强化学习机制,让Agent在不同环境中进行学习。

在旅游场景中,用户输入“规划从成都出发的川西游行程”指令,模型能调用地图搜索工具获取路线信息,调用酒店预订平台筛选合适住宿,调用天气查询工具了解行程期间天气,最终输出一份包含每日行程安排、交通方式、住宿推荐、景点介绍的详细行程规划。

在数据分析任务中,面对某电商平台的销售数据,模型可调用Python编码工具,做数据清洗、统计分析,并生成包含图表的excel销售分析报告,满足用户在不同场景下的复杂任务需求。

与部分仅具备单一工具调用能力的模型相比,Hunyuan-A13B的多工具协同调用能力,能更好地解决实际问题。

​面对大模型长文处理的难题,Hunyua-A13B支持256K原生上下文窗口。

在学术领域,处理上万字的学术论文时,模型可以准确提炼论文核心观点、梳理研究方法和实验结果;在法律行业,分析复杂的法律条文及案例卷宗,能快速总结法律要点、关联相关法条;在商业领域,解读长篇商业报告,可精准提取关键数据和市场趋势信息。

在实际测试中,与一些上下文窗口较小、处理长文容易出现信息遗漏的模型相比,Hunyuan-A13B在一定程度上缓解了长文推理中上下文丢失和信息依赖的问题,为相关领域的应用提供了更可靠的技术支持。

Hunyuan-A13B的开源对开发者较为友好。

个人开发者在一定条件下,使用1张中低端GPU卡,如NVIDIA GeForce GTX系列显卡,即可完成部署。

目前,模型已接入开源主流推理框架生态,支持多种量化格式,包括INT4、INT8等。在相同输入输出规模下,其整体吞吐能力达到前沿开源模型的2倍。

开发者可以通过Github和Huggingface等开源社区获取模型,腾讯云官网也上线了模型API,方便快速接入部署。

若Hunyuan-A13B模型,结合自身业务需求,在短时间内开发出了智能文档处理应用,极大降低了开发者使用模型进行二次开发和应用创新的门槛。​

在Hunyuan-A13B的研发过程中,腾讯混元团队在预训练和后训练环节采用了新的技术方法。

预训练阶段,使用20万亿高质量网络词元语料库,覆盖科学、技术、文化等多个领域,提升模型的通用知识储备。

同时,团队构建适用于MoE架构的Scaling Law(规模化法则)联合公式,完善相关理论体系,为模型架构设计提供量化指导,这一成果为后续MoE模型的研发提供了重要参考。

后训练阶段,采用多阶段训练方式,针对不同能力提升需求,运用不同训练策略和数据;在推理能力训练阶段,通过大量逻辑推理案例数据,提升模型的逻辑分析能力;在创作能力训练阶段,使用文学创作、文案撰写等数据,增强模型的文本创作水平,最终平衡提升模型的推理、创作、理解等能力。​

腾讯混元同步开源的ArtifactsBench和C3 - Bench两个数据集,填补了行业评估标准的部分空白。

ArtifactsBench包含1825个任务,覆盖网页开发、数据可视化、游戏开发等九大领域,按难度分级,用于评估模型的代码生成能力。

通过该数据集,开发者可以更全面、准确地了解模型在代码编写方面的优势与不足。

C3-Bench针对Agent场景模型,设计1024条测试数据,聚焦规划工具关系、处理隐藏信息、动态路径决策等挑战,帮助发现模型在该场景下的能力短板,为模型优化提供参考。

这两个数据集的发布,为行业提供了更专业、更具针对性的评估工具,有助于推动大模型评估体系的完善。​

目前,Hunyuan-A13B已在腾讯内部400多个业务中应用,日均请求量达1.3亿次,在实际业务中得到一定规模的使用。

比如在腾讯的智能客服系统中,该模型提升了客服回答的准确性和效率;在内容创作辅助工具里,帮助创作者生成更优质的文案。

未来,腾讯混元计划推出从0.5B(5亿)到32B(320亿)的dense模型,以及激活13B(130亿)的MoE模型,适配企业和终端设备的不同需求。

同时,还将持续开源图像、视频、3D等多模态基础模型及插件模型,丰富大模型生态,为行业发展注入更多活力。

腾讯混元此次开源Hunyuan-A13B模型及相关数据集,为开发者提供了新的模型资源和评估工具,有助于推动大模型技术的创新和应用。

开源数据集的发布,也为行业建立更完善的评估标准提供了支持。在腾讯研发过程中的技术方法,为其他团队开展相关研究提供了可参考的经验,有望促进大模型领域技术的共同发展。

风险提示及免责条款
市场有风险,投资需谨慎。本文不构成个人投资建议,也未考虑到个别用户特殊的投资目标、财务状况或需要。用户应考虑本文中的任何意见、观点或结论是否符合其特定状况。据此投资,责任自负。