A厂承认opus降智了,巧合的是降智报告发布和GPT-5.5发布是同一天,确认降智就是从3月4号开始的,Mythos这个模型2月就练好了,秒天秒地,没有用这个模型来找降智原因?网上各种怨声载道,一个多月过去了,才终于承认了?可能是感受了OpenAI的这几天发布强度!

Claude Code最近一个月的降智,Anthropic终于给出了完整解释。

A厂说不是模型本身出了问题,而是三个相互独立的工程变更,分别在不同时间点影响了不同版本的Claude,叠加在一起,造成了看似"全面退化"的假象。

三个问题均已在4月20日(v2.1.116)修复。以下是完整经过。当然了这个报告肯定是经过粉饰的,大家看看就好,真实的原因肯定不止这些问题。

2月,Anthropic在Claude Code中上线了Opus 4.6,默认推理强度(reasoning effort)设为高档。

随后收到用户反馈,说Opus 4.6在高强度模式下偶尔会想太久,界面看起来像卡死,延迟和token消耗都严重超预期。

Anthropic内部测试显示,中档推理强度在大多数任务上智能水平略有下降,但延迟显著减少,也不容易出现极端的超长推理情况,同时还能帮用户节省更多使用额度。基于这个判断,3月4日,Anthropic把默认推理强度从高档改成了中档,并通过产品内弹窗说明了理由。

但很快,用户开始反映Claude Code感觉变笨了。Anthropic做了几轮界面改动,试图让当前推理强度的设置更显眼——比如启动时提示、内联切换器、重新支持ultrathink——但大多数用户还是维持了中档默认值。

听取了更多用户反馈后,Anthropic于4月7日撤销了这个决定。目前Opus 4.7默认使用xhigh强度推理,其他模型默认使用high。

Claude在推理过程中,历史思考内容通常会保留在对话记录里,方便后续每轮对话都能看到自己之前为什么做出某些操作和工具调用。

3月26日,Anthropic上线了一项效率优化:如果一个会话空闲超过一小时,就在用户恢复时清除旧的思考内容,减少缓存未命中的开销,之后再恢复发送完整推理历史。具体实现用了 clear_thinking_20251015 API header 配合 keep:1 参数。

设计很简单,但实现有Bug。

正确逻辑应该是:跨越空闲阈值后,只清除一次旧思考内容。实际结果是:之后每一轮对话都在清除,告诉API只保留最近一个思考块、丢掉之前所有的。这个效果还会叠加——如果你在Claude正在进行工具调用时发了一条消息,新的一轮对话也在这个错误标记下启动,连当前轮的推理也被丢掉了。

结果就是Claude在持续执行,但越来越不记得自己为什么要这么做。这就是用户反映的健忘、重复、奇怪工具选择等问题的根源。

由于思考块被持续丢弃,后续请求也持续发生缓存未命中。Anthropic认为,这正是部分用户反映使用额度比预期消耗更快的原因。

还有两个无关的实验干扰了复现:一个是服务端仅内部使用的消息队列实验;另一个是改变了思考内容显示方式的变更,在大多数CLI会话中掩盖了这个Bug,导致测试外部版本时也没发现。

这个Bug处于Claude Code上下文管理、Anthropic API、扩展思考三者的交叉地带,通过了多轮人工和自动化代码审查、单元测试、端到端测试、自动化验证和内部狗粮测试,仍然没被发现。加上只在陈旧会话这个边缘场景触发,复现困难,花了超过一周才找到并确认根因。

事后,Anthropic用Opus 4.7对相关PR做了回溯测试,提供了完整代码库上下文后,Opus 4.7发现了这个Bug,Opus 4.6没有。为防止类似问题再发生,Anthropic正在为代码审查工具增加对更多代码仓库的上下文支持。

该Bug已在4月10日v2.1.101中修复。

最新的Claude Opus 4.7有一个明显的行为特点:相比上一代,输出更为冗长。这让它在难题上更聪明,但也产生了更多输出token。

在Opus 4.7发布前几周,Anthropic开始针对新模型调优Claude Code。每个模型行为略有不同,发布前都需要专门优化。

为了控制输出长度,Anthropic有多种手段:模型训练、提示词优化、改进产品中的思考内容展示体验。这些方法最终都用上了,但其中一条加入系统提示词的指令,对Claude Code的智能水平造成了超预期的负面影响:

工具调用之间的文字保持在25个词以内,最终回复保持在100个词以内,除非任务本身需要更多细节。

经过多周内部测试、评估集没有发现退化,Anthropic认为足够稳妥,随Opus 4.7于4月16日一起上线。

事后进行消融测试(逐行删除系统提示词以评估每行影响)时,用了更广泛的评估集,发现这行指令让Opus 4.6和4.7的某项评估指标下降了3%。Anthropic立刻回滚,作为4月20日版本的一部分。

每个变更影响的流量切片不同、时间段不同,叠加起来就像广泛的、不一致的退化。Anthropic从3月初就开始调查相关反馈,但起初很难和正常的用户反馈波动区分开,内部使用情况和评估集也没有第一时间复现这些问题。

Anthropic宣布了几项后续措施。

让更大比例的内部员工使用与公众完全相同的Claude Code正式版本,而不是用于测试新功能的内部版本。

改进内部使用的Code Review工具,并向用户开放升级后的版本。作为调查的一部分,Anthropic已经用Opus 4.7回溯测试了相关PR;提供完整代码库上下文后,Opus 4.7找到了Bug,Opus 4.6没有。

对系统提示词变更实施更严格的管控——每次系统提示词变更都要对每个模型跑全套评估,继续做消融测试,并构建了新的工具方便审查和审计提示词变更。同时在CLAUDE.md中添加了指引,确保针对特定模型的变更只对该模型生效。对于任何可能牺牲智能水平的变更,将增加浸泡期、更广泛的评估集和分阶段灰度,尽早发现问题。

此外,Anthropic在X上创建了 @ClaudeDevs 账号,用于深入解释产品决策和背后的思考逻辑,同样的更新也会在GitHub的集中帖中同步。

最后,Anthropic宣布为所有订阅用户重置使用额度。

本文来源:AI寒武纪

风险提示及免责条款
市场有风险,投资需谨慎。本文不构成个人投资建议,也未考虑到个别用户特殊的投资目标、财务状况或需要。用户应考虑本文中的任何意见、观点或结论是否符合其特定状况。据此投资,责任自负。