字节跳动新算法，直接把1/3的算力砍掉了

硅基星芒发表于 2026年02月27日 12:04

摘要：字节跳动联合北航提出SAGE-RL新算法，直击大模型“过度思考”痛点，模型在得出正确答案后仍会生成大量冗余token，浪费算力。研究发现，模型实际具备“自知之明”，但受限于采样策略无法及时停止。SAGE算法通过步骤级探索让模型在适当时机输出结束标识，在保持准确率的同时，将推理token消耗压缩约1/3，实现“降本增效”。

过去这两年，大语言模型走得实在太快，尤其在那些需要复杂逻辑推理的任务上，能力已经高到了一个我们以前不太敢想的水平。

我到现在还记得 ChatGPT-3.5 那个时代。那时候的 AI 顶多帮你做点简单数学题，写几行基础代码，稍微绕一点的问题就卡壳。没有联网搜索，更别提什么深度思考，它能回答你每一个问题，靠的全是预训练阶段塞进脑子里的那些“存货”，用完了就没了。

但现在不一样了。模型开始学会自己拆问题，一步一步推，生成超长的思维链，甚至在数学竞赛、编程挑战这种硬核任务里，做出了让人类都瞪大眼睛的成绩。

不过，Scaling Law这东西，带来了“大力出奇迹”的同时，也悄悄埋了一个问题：思考过剩。

你回想一下那两个经典的AI笑话，就特别能说明问题：

一个是美国人拿来测 AI 智商的：“Strawberry”这个单词里有几个字母“r”？这问题学前班小孩都能答出来。但一年前，ChatGPT 答错过，DeepSeek 答错过，豆包也答错过。像 R1 这种推理模型，甚至会翻来覆去想十分钟，自己跟自己辩论，最后慎重其事地告诉你：两个。

等 AI 终于把这个坑填平了，中国人又出了个新题：要去 50 米外洗车，应该开车去还是走路去？

AI 又乱了。有的秒回“走路去”，有的把时间、路程、成本全算了一遍，最后还是得出结论：“走路去”。

看到了吗？为了让准确率再高那么一点点，模型一开启深度思考，就会长出大量冗余的推理步骤。浪费算力、抬高成本、拖慢响应，这是实实在在的问题。

而且洗车那个例子也提醒我们，想得久，不代表想得对，有时候反而是因为想太多，自己把自己绕进去了。

所以大家开始问：一个能力已经溢出的模型，真的需要想那么久吗？它自己知不知道，什么时候该停下来？

字节跳动和北航最近发了篇论文，专门回答这个问题。

这篇论文名为《Does Your Reasoning Model Implicitly Know When to Stop Thinking?》，研究团队在这篇论文中提出了一套名为SAGE-RL的新方案，让大模型在保持甚至提升现有准确率的同时，还能大幅减少推理环节所需的token消耗量。

对于AI企业来说，token就是最重要的资源。减少大量token的无用消耗，无异于大大节约了推理成本。

对 AI 企业而言，token 即核心资源。减少大量无谓的 token 消耗，无异于大幅节约推理成本。

研究团队在观察模型运行过程后发现，问题的关键出在采样策略。在现有采样范式下，模型的高效推理能力难以充分发挥。

一般来说，人们评估模型能力经常采用的是一种名为“Pass@1”的策略，也就是只取模型生成的一次结果，看它是否能够正确通过测试用例。

但在这种采样模式下，我们可以从DeepSeek等模型的显式思维链中明确看到：在得出正确答案后，模型通常不会立刻停止并告诉用户答案，而是会继续生成大量无效的验证或重复步骤。

我们做个测试，让AI计算20260226的平方，并强调直接输出结果，DeepSeek思考了38秒才给出了正确答案：

这还只是显式思维链中截取的一部分。事实上，在这38秒的思考过程中，模型在得出正确答案后还经过了检查位数、检查进位错误、检查末位数字等多个毫无用处的验证环节。

事实上，这不是DeepSeek独有的情况。根据现有的研究，人们已经注意到了这个反直觉的现象：

思维链长度的延伸与答案的正确性并非正相关关系，有时思维链更短反而准确率更高。

例如，在AIME 2025基准测试中，DeepSeek-R1的回复长度足足是Claude 3.7 Sonnet的5倍，但准确率却相差无几。

而对于同一个模型在同一个问题上分别生成正确和错误的答案，有72%的概率是更长的回复出错。

为了系统性地量化模型这种“过度思考”的现象，字节和北航的研究团队定义了一个新指标：

首次正确步骤比率（RFCS）=正确答案首次出现的步骤索引/总推理步骤数。

而大量统计数据显示：在超过一半的样本中，模型在得出正确答案后都生成了大量冗余的内容。

例如，DeepSeek的1.5B轻量级模型在某些问题上只需花费500个token即可得出正确答案，但受限于现有的采样策略，它要继续生成452个冗余token才能结束思考。

看起来，在现有的采样范式下，模型并不知道自己应该何时停止。

然而，研究团队却发现了一个反直觉的事实：

若是扩大采样空间至“Pass@K”，也就是让模型生成K个思维链，看其中是否有一个生成的答案能够正确通过测试用例，结果就截然不同。

为此，论文定义了两个指标和一个符号：

局部置信度（Next-token Probability）：模型生成下一个词的概率；

路径置信度（Cumulative Log-Probability，即Φ）：模型从头到尾生成这条思维链的平均累计概率；

</think>：思维链的结束标识。

如果模型只根据局部置信度来决定是否该在下一个词输出“</think>”来停止思考，它总是没什么信心，因为每次输出下一个词的概率都比输出结束标识的概率要高。

因此，思维链的长度就这样不断的延伸下去。

但若是根据路径置信度来判断是否该停止思考，则情况完全相反：

当模型探索出了一条非常简洁的正确思维链、到了该结束思考的时候，生成结束标识的概率将超过其他词，瞬间升至第一名，顺利结束思考。

这个现象非常惊人：模型其实非常确定这条简洁的思维链是正确的，而且想要立刻中止思考。

因此，模型并非不知道应该思考到什么时候停止，而是采样策略的短视，掩盖了模型具备全局视野的高效推理潜力。

在顺利找到问题根源和机制后，解决方案也就呼之欲出了。

上述研究表明，只要给予大模型足够的采样空间，让其更自由地探索多种解法，它就能凭借路径置信度准确选出那条“短小精悍”的正确思维链。

字节与北航团队据此提出 SAGE 算法：自我认知引导的高效推理（Self-Aware Guided Efficient Reasoning）。

考虑到词元级（Token-Level）评估的计算成本太高，对每个token都要计算概率直到生成结束符，SAGE算法使出了“降维打击”，改为步骤级（Step-wise）探索：

对于思维链中的每一个步骤，SAGE算法会利用底层的随机采样，让模型向外探索出多个完整的推理步骤；

而这些候选的步骤分支中，只要有一条顺利地以结束标识“</think>”结尾，SAGE立刻降下判决：模型已经想清楚了，可以立即停止思考。

然后，这条思维链路分支就会被作为高置信度结果保留。

为了更直观地展现SAGE算法的有效性，研究团队在论文中列出了对比实验的结果：

让最聪明的模型去做最难的奥数题时，SAGE算法能让模型找到更短的路径，显著提升解答准确率的同时，还避免了冗长的废话带来的幻觉；

让稍弱一些的模型面对较为简单的数据集（比如数字母）时，题目本身就处于模型的能力范围内，SAGE算法能让模型在计算出正确答案后迅速停止思考，大幅提升token利用率。

这就是SAGE算法的价值：

它无需人为强制截断思考过程，避免了模型思维链的无意义延伸，将模型本就具备的“自我认知”转换为实际推理效率的提升。

SAGE算法确实非常好用，但它的实质仍然是推理阶段的一种策略。

每次推理仍然需要生成多个思维链路分支，算力开销问题仍然存在。

算法终究是论文中的内容，只有把它应用到大模型真实的训练过程中，才会产生实际价值。

目前，对于DeepSeek等推理模型，业界最前沿的训练方法是以GRPO为代表的基于可验证奖励的强化学习。

用一个论文中的例子来说明标准GRPO的训练过程：

给模型一道题，让模型随机生成8个互不相同的解答，其中正确的解答将会得到奖励，以此更新模型的权重。行业内常说的“奖励模型”就是用来做这件事的。

不过，由于这8个解答都是通过标准的随机采样而产生的，“反复思考”的现象自然无法避免。最后的结果就会是：模型能够做对题目，但也学会了说一大堆废话。

为了让SAGE算法投入使用，研究团队开始对现有的GRPO算法进行替换：

同样是生成8个解答，其中的6个使用原有的随机采样，剩下的2个使用SAGE算法生成。

我们已经知道，SAGE算法给出的回答既正确，又简练，强化学习的奖励机制虽然不知道哪两个解答是SAGE算法生成的，却总是会给它们打高分。

如此循环下去，SAGE算法生成的答案逐渐成为“榜样”，模型逐步更新权重后就会一点点改正自己说废话的毛病，思维链的生成模式也逐渐向SAGE算法的高效模式转变。

这样一来，SAGE算法就成功烙印在大模型的DNA中，成为SAGE-RL运行机制。

最后，研究团队选择了MATH-500、AIME 2025等6个极高难度的AI数学基准测试来评估SAGE-RL的效果：

现有的一些缩减推理长度的算法为了压缩token消耗量会降低模型回答的准确率。

而基于GRPO的SAGE-RL却能实现“降本增效”。研究团队在7B级别模型的测试中发现，加入SAGE能将模型的平均回复长度从3219个token压缩至2141个，大约减少了1/3的计算量。

同时，模型在MATH-500上的Pass@1准确率从92%提升到了93%，Token效率更是断崖式领先。

而此前介绍的新定义指标：首次正确步骤比率（RFCS）也显示，无效冗余步骤的比例大幅下降，模型终于改掉了“过度思考”的习惯，学会了“点到为止”。

目前，市场上的AI企业普遍采用API计费模式。表面上，增加token的输出看似能够增加收入。

实际上，头部AI厂商做梦都想实现降低冗余token的消耗。能让服务器接收更多的并发请求获得的利润，远比让单个请求多说几句废话要多。

在AI智能代理投入实际工作流的今天，延迟已经成为产品的“斩杀线”，响应速度慢的模型无法实时满足用户的需求，必然会被用户无情地抛弃。

DeepSeek在一年前震惊硅谷，不仅是因为开源了强大的技术和先进的算法，更是因为他们把推理成本打到了不可思议的低价。

现有的模型若是无法改变生成答案时伴随大量冗余token的现状，API的综合成本就永远降不下来。

而掌握了类似SAGE这种高效推理技术的厂商，就可以凭借极少的算力达到相同甚至更高的准确率。在顶尖模型提升智能程度的边际收益锐减的情况下，这正是降价打价格战的底气。

以后，大模型也无需再靠长篇大论证明自己。最高级的智能，其实就藏在那个恰到好处的“</think>”中。

本文来源：硅基星芒

风险提示及免责条款

市场有风险，投资需谨慎。本文不构成个人投资建议，也未考虑到个别用户特殊的投资目标、财务状况或需要。用户应考虑本文中的任何意见、观点或结论是否符合其特定状况。据此投资，责任自负。

收藏分享

0条评论