过去这两年,大语言模型走得实在太快,尤其在那些需要复杂逻辑推理的任务上,能力已经高到了一个我们以前不太敢想的水平。

我到现在还记得 ChatGPT-3.5 那个时代。那时候的 AI 顶多帮你做点简单数学题,写几行基础代码,稍微绕一点的问题就卡壳。没有联网搜索,更别提什么深度思考,它能回答你每一个问题,靠的全是预训练阶段塞进脑子里的那些“存货”,用完了就没了。

但现在不一样了。模型开始学会自己拆问题,一步一步推,生成超长的思维链,甚至在数学竞赛、编程挑战这种硬核任务里,做出了让人类都瞪大眼睛的成绩。

不过,Scaling Law这东西,带来了“大力出奇迹”的同时,也悄悄埋了一个问题:思考过剩。

你回想一下那两个经典的AI笑话,就特别能说明问题:

一个是美国人拿来测 AI 智商的:“Strawberry”这个单词里有几个字母“r”?这问题学前班小孩都能答出来。但一年前,ChatGPT 答错过,DeepSeek 答错过,豆包也答错过。像 R1 这种推理模型,甚至会翻来覆去想十分钟,自己跟自己辩论,最后慎重其事地告诉你:两个。

等 AI 终于把这个坑填平了,中国人又出了个新题:要去 50 米外洗车,应该开车去还是走路去?

AI 又乱了。有的秒回“走路去”,有的把时间、路程、成本全算了一遍,最后还是得出结论:“走路去”。

看到了吗?为了让准确率再高那么一点点,模型一开启深度思考,就会长出大量冗余的推理步骤。浪费算力、抬高成本、拖慢响应,这是实实在在的问题。

而且洗车那个例子也提醒我们,想得久,不代表想得对,有时候反而是因为想太多,自己把自己绕进去了。

所以大家开始问:一个能力已经溢出的模型,真的需要想那么久吗?它自己知不知道,什么时候该停下来?

字节跳动和北航最近发了篇论文,专门回答这个问题。

这篇论文名为《Does Your Reasoning Model Implicitly Know When to Stop Thinking?》,研究团队在这篇论文中提出了一套名为SAGE-RL的新方案,让大模型在保持甚至提升现有准确率的同时,还能大幅减少推理环节所需的token消耗量。


对于AI企业来说,token就是最重要的资源。减少大量token的无用消耗,无异于大大节约了推理成本。

对 AI 企业而言,token 即核心资源。减少大量无谓的 token 消耗,无异于大幅节约推理成本。

研究团队在观察模型运行过程后发现,问题的关键出在采样策略。在现有采样范式下,模型的高效推理能力难以充分发挥。

一般来说,人们评估模型能力经常采用的是一种名为“Pass@1”的策略,也就是只取模型生成的一次结果,看它是否能够正确通过测试用例。

但在这种采样模式下,我们可以从DeepSeek等模型的显式思维链中明确看到:在得出正确答案后,模型通常不会立刻停止并告诉用户答案,而是会继续生成大量无效的验证或重复步骤。

我们做个测试,让AI计算20260226的平方,并强调直接输出结果,DeepSeek思考了38秒才给出了正确答案:

这还只是显式思维链中截取的一部分。事实上,在这38秒的思考过程中,模型在得出正确答案后还经过了检查位数、检查进位错误、检查末位数字等多个毫无用处的验证环节。

事实上,这不是DeepSeek独有的情况。根据现有的研究,人们已经注意到了这个反直觉的现象:

思维链长度的延伸与答案的正确性并非正相关关系,有时思维链更短反而准确率更高。

例如,在AIME 2025基准测试中,DeepSeek-R1的回复长度足足是Claude 3.7 Sonnet的5倍,但准确率却相差无几。

而对于同一个模型在同一个问题上分别生成正确和错误的答案,有72%的概率是更长的回复出错。

为了系统性地量化模型这种“过度思考”的现象,字节和北航的研究团队定义了一个新指标:

首次正确步骤比率(RFCS)=正确答案首次出现的步骤索引/总推理步骤数。

而大量统计数据显示:在超过一半的样本中,模型在得出正确答案后都生成了大量冗余的内容。

例如,DeepSeek的1.5B轻量级模型在某些问题上只需花费500个token即可得出正确答案,但受限于现有的采样策略,它要继续生成452个冗余token才能结束思考。

看起来,在现有的采样范式下,模型并不知道自己应该何时停止。

然而,研究团队却发现了一个反直觉的事实:

若是扩大采样空间至“Pass@K”,也就是让模型生成K个思维链,看其中是否有一个生成的答案能够正确通过测试用例,结果就截然不同。

为此,论文定义了两个指标和一个符号:

局部置信度(Next-token Probability):模型生成下一个词的概率;

路径置信度(Cumulative Log-Probability,即Φ):模型从头到尾生成这条思维链的平均累计概率;

</think>:思维链的结束标识。

如果模型只根据局部置信度来决定是否该在下一个词输出“</think>”来停止思考,它总是没什么信心,因为每次输出下一个词的概率都比输出结束标识的概率要高。

因此,思维链的长度就这样不断的延伸下去。

但若是根据路径置信度来判断是否该停止思考,则情况完全相反:

当模型探索出了一条非常简洁的正确思维链、到了该结束思考的时候,生成结束标识的概率将超过其他词,瞬间升至第一名,顺利结束思考。

这个现象非常惊人:模型其实非常确定这条简洁的思维链是正确的,而且想要立刻中止思考。

因此,模型并非不知道应该思考到什么时候停止,而是采样策略的短视,掩盖了模型具备全局视野的高效推理潜力。

在顺利找到问题根源和机制后,解决方案也就呼之欲出了。

上述研究表明,只要给予大模型足够的采样空间,让其更自由地探索多种解法,它就能凭借路径置信度准确选出那条“短小精悍”的正确思维链。

字节与北航团队据此提出 SAGE 算法:自我认知引导的高效推理(Self-Aware Guided Efficient Reasoning)。

考虑到词元级(Token-Level)评估的计算成本太高,对每个token都要计算概率直到生成结束符,SAGE算法使出了“降维打击”,改为步骤级(Step-wise)探索:

对于思维链中的每一个步骤,SAGE算法会利用底层的随机采样,让模型向外探索出多个完整的推理步骤;

而这些候选的步骤分支中,只要有一条顺利地以结束标识“</think>”结尾,SAGE立刻降下判决:模型已经想清楚了,可以立即停止思考。

然后,这条思维链路分支就会被作为高置信度结果保留。

为了更直观地展现SAGE算法的有效性,研究团队在论文中列出了对比实验的结果:

让最聪明的模型去做最难的奥数题时,SAGE算法能让模型找到更短的路径,显著提升解答准确率的同时,还避免了冗长的废话带来的幻觉;

让稍弱一些的模型面对较为简单的数据集(比如数字母)时,题目本身就处于模型的能力范围内,SAGE算法能让模型在计算出正确答案后迅速停止思考,大幅提升token利用率。

这就是SAGE算法的价值:

它无需人为强制截断思考过程,避免了模型思维链的无意义延伸,将模型本就具备的“自我认知”转换为实际推理效率的提升。

SAGE算法确实非常好用,但它的实质仍然是推理阶段的一种策略。

每次推理仍然需要生成多个思维链路分支,算力开销问题仍然存在。

算法终究是论文中的内容,只有把它应用到大模型真实的训练过程中,才会产生实际价值。

目前,对于DeepSeek等推理模型,业界最前沿的训练方法是以GRPO为代表的基于可验证奖励的强化学习。

用一个论文中的例子来说明标准GRPO的训练过程:

给模型一道题,让模型随机生成8个互不相同的解答,其中正确的解答将会得到奖励,以此更新模型的权重。行业内常说的“奖励模型”就是用来做这件事的。

不过,由于这8个解答都是通过标准的随机采样而产生的,“反复思考”的现象自然无法避免。最后的结果就会是:模型能够做对题目,但也学会了说一大堆废话。

为了让SAGE算法投入使用,研究团队开始对现有的GRPO算法进行替换:

同样是生成8个解答,其中的6个使用原有的随机采样,剩下的2个使用SAGE算法生成。

我们已经知道,SAGE算法给出的回答既正确,又简练,强化学习的奖励机制虽然不知道哪两个解答是SAGE算法生成的,却总是会给它们打高分。

如此循环下去,SAGE算法生成的答案逐渐成为“榜样”,模型逐步更新权重后就会一点点改正自己说废话的毛病,思维链的生成模式也逐渐向SAGE算法的高效模式转变。

这样一来,SAGE算法就成功烙印在大模型的DNA中,成为SAGE-RL运行机制。

最后,研究团队选择了MATH-500、AIME 2025等6个极高难度的AI数学基准测试来评估SAGE-RL的效果:

现有的一些缩减推理长度的算法为了压缩token消耗量会降低模型回答的准确率。

而基于GRPO的SAGE-RL却能实现“降本增效”。研究团队在7B级别模型的测试中发现,加入SAGE能将模型的平均回复长度从3219个token压缩至2141个,大约减少了1/3的计算量。

同时,模型在MATH-500上的Pass@1准确率从92%提升到了93%,Token效率更是断崖式领先。

而此前介绍的新定义指标:首次正确步骤比率(RFCS)也显示,无效冗余步骤的比例大幅下降,模型终于改掉了“过度思考”的习惯,学会了“点到为止”。

目前,市场上的AI企业普遍采用API计费模式。表面上,增加token的输出看似能够增加收入。

实际上,头部AI厂商做梦都想实现降低冗余token的消耗。能让服务器接收更多的并发请求获得的利润,远比让单个请求多说几句废话要多。

在AI智能代理投入实际工作流的今天,延迟已经成为产品的“斩杀线”,响应速度慢的模型无法实时满足用户的需求,必然会被用户无情地抛弃。

DeepSeek在一年前震惊硅谷,不仅是因为开源了强大的技术和先进的算法,更是因为他们把推理成本打到了不可思议的低价。

现有的模型若是无法改变生成答案时伴随大量冗余token的现状,API的综合成本就永远降不下来。

而掌握了类似SAGE这种高效推理技术的厂商,就可以凭借极少的算力达到相同甚至更高的准确率。在顶尖模型提升智能程度的边际收益锐减的情况下,这正是降价打价格战的底气。

以后,大模型也无需再靠长篇大论证明自己。最高级的智能,其实就藏在那个恰到好处的“</think>”中。

本文来源:硅基星芒

风险提示及免责条款
市场有风险,投资需谨慎。本文不构成个人投资建议,也未考虑到个别用户特殊的投资目标、财务状况或需要。用户应考虑本文中的任何意见、观点或结论是否符合其特定状况。据此投资,责任自负。