从阿里千问离职三周后,作为昔日备受瞩目的通义千问核心角色的林俊旸发出了离职后的第一篇公开技术长文《从"推理式思维"到"智能体思维"(From "Reasoning" Thinking to "Agentic" Thinking)》。

这篇6000字英文的长文基于其过往模型训练的实操经验与观察进行复盘,并给出了不少足以引起AI竞赛参战者关注的方向判断。

在这篇文章中,林详细阐述了有关模型训练的Agent思维范式的重要意义。

有关Agent对AI模型训练的反哺作用,华尔街见闻此前文章《Agent的苦涩觉醒:智能正从语言走向经验》,试图从萨顿的强化学习出发,诠释了Agent是通向更高智能上限必经之路的缘由。

而林俊旸在这篇文章中,结合其从千问团队亲身经历的技术实践,用工程细节给Agent智能体思维提供了更多硬核参考与证据,它更详细的指出了传统的推理模式问题究竟在哪,以及未来智能体的核心约束和竞争点可能是什么。

对于试图理解AI下一赛程形态变化的人来说,这篇文章或许至少藏着6个值得认真消化的投资启示。

2025年上半年乃至更早前,整个行业都在做同一件事:让模型"多想一会儿"。

OpenAI的o1证明了"思考"可以成为一项被专门训练的核心能力,而行业也兴奋地投入了这场军备竞赛,核心信念只有一条:让模型在推理阶段消耗更多计算,就能产出更好的答案。

但林俊旸在文中提出了一个非常冷静的判断:

更长的推理轨迹,并不会自动让模型变得更聪明。

很多时候,过度外显的推理反而暴露了资源分配不当。

这是一个值得注意的反直觉结论。

2024年到2025年,市场对"推理模型"的定价逻辑建立在一个朴素假设之上:模型想得越久,答案越好,因此推理时间越长,价值越高。

GPU的消耗量成了衡量智能水平的代理指标。一级市场上,许多创业公司的融资叙事核心也是"我们模型推理更深"。

但林俊旸用在千问团队的切身经历说明:这个假设正在失效。如果一个模型试图用同样冗长的方式去思考所有问题,说明它没能有效判断优先级,没能及时压缩信息,也没能在该行动的时候果断行动。他写道:

思考应当由目标工作来塑造。

如果目标是编码,思考就应当帮助模型进行代码库导航、任务规划和错误恢复;如果目标是智能体工作流,思考就应当提升长时间尺度上的执行质量,"而不是产出一段看起来很厉害的中间推理文本"。

翻译成投资语言就是:推理算力的边际收益正在递减。

单纯堆叠推理时间的技术路线,正在逼近它的经济性边界。那些还在以"推理深度"作为核心估值叙事的公司,可能需要重新审视自己的护城河到底建在哪里。

林俊旸在文章中披露了一段鲜为人知的路线选择:千问团队曾经试图把"思考模式"和"指令模式"合并到同一个模型里。

这个目标听起来天然正确。一个理想的系统应当像一个经验丰富的专家,简单问题直接回答,复杂问题深入思考,而且能自己判断什么时候该用哪种模式。

Qwen3就是这个方向上最清晰的公开尝试之一,它引入了"混合思考模式",支持同一模型家族同时具备思考与非思考两种行为,并强调可控的思考预算。

但林俊旸坦言,合并说起来容易,真正做好极难,而难点不在模型架构,在数据。

一个强大的指令模型被奖励的是直接、简洁、格式遵循度高,以及在高频高吞吐企业任务上的低延迟表现;一个强大的思考模型被奖励的则是愿意为难题投入更多token、能维持连贯的中间结构、能探索备选路径。

这两种行为画像天然存在拉扯。

正如林俊旸的描述:

如果合并数据没有经过足够精细的筛选和设计,结果往往是两边都做不好:思考行为会变得嘈杂、臃肿、犹疑不决;而指令模式行为则会失去应有的利落、可靠和成本优势。

这正是千问的2507版本最终推出了彼此独立的Instruct和Thinking更新,包括分别独立的30B和235B版本的原因。

在商业部署中,大量客户需要的就是高吞吐、低成本、强可控的指令模式,强行合并反而模糊了产品定位。

Anthropic走了一条相反的路。Claude 3.7 Sonnet被定义为混合式推理模型,用户既可以选择普通回答也可以扩展思考;Claude 4更进一步,允许推理过程与工具使用交错进行。GLM-4.5和DeepSeek V3.1后来也朝类似方向迈进。

针对两条路线,林俊旸给出的判断是:真正成功的融合,要求推理投入是一个平滑连续的谱系,模型要能自适应地选择该花多少力气去想。做不到这一点,"产品体验依然不会自然",本质上还是"两个生硬拼接的人格"。

对投资者的启示很直接:不要被"统一模型"或"一个模型什么都能做"的叙事轻易打动。

一个模型声称同时覆盖所有场景,和它真正能在每个场景下都做到最优,是两回事。

真正有价值的技术壁垒,藏在数据配比、训练流程设计、行为对齐这些无法被一张基准成绩单捕捉的地方。融资PPT上的"全能",到了商业部署时往往要面对数据层面的零和取舍。

林俊旸全篇分量最重的总结或许是:"我们正在从一个专注于训练模型的时代,转向一个以训练智能体为中心的时代。"

上篇文章里,我们试图论证了这个转变的逻辑必然性:静态数据的上限是已知世界的边界,只有让智能体在真实环境中持续交互,才能突破这个边界。

林俊旸在这篇文章中,或许赋予了这个判断给定了极为具体的工程语言:

推理式思维看重的是模型在给出最终答案之前的内部思考质量,例如能不能解出定理、写出证明、产出正确代码、通过基准测试。

这一切都发生在一个封闭的、可控的环境里,是一场独立的智力表演。

智能体思维的优化目标完全不同。

它必须处理推理模型可以回避的问题:决定什么时候该停止思考并采取行动;选择调用哪个工具以及调用顺序;吸收来自环境的噪声或不完整观测;在失败之后修订计划;在多轮交互之间保持一致性。

林俊旸关注的是"模型在与环境交互的过程中,能否持续推进问题的解决"。核心问题从"模型能不能想得足够久",转变为"模型能不能以一种能够支撑有效行动的方式去思考"。

这些挑战中的每一条,都对应着行动“因果结构的决策轨迹"。

对AI投资而言,这个转变的含义极其深远。

过去在缩放定律(Scaling Law)的普遍验证,评估一家AI公司的核心指标是模型本身——参数量多大、基准分数多高、推理速度多快。

但如果训练对象从模型变成了"模型+环境"组成的系统,那么评估框架也必须跟着变。

未来有价值的问题将变成:这家公司的智能体在多少个真实场景中持续运行?它积累了多少带有因果结构的交互数据?它的环境覆盖面有多广、反馈信号有多丰富?它的"模型+环境"闭环转得有多快?

模型只是系统的一部分,不再是全部,再以模型基准成绩给智能体公司估值,就像用零百加速成绩给一辆越野车打分一样,很可能会抓错指标。

林俊旸在文章中用了大量篇幅谈基础设施。这是AI投资中更容易忽略、却可能对竞争格局影响最深的部分。

在推理式强化学习中,模型生成推理轨迹,评估器给出分数,策略更新,但环境只是一个静态的验证器。

而在智能体强化学习中,整套技术逻辑发生了质变。

林俊旸描述了一个画面:智能体的策略被嵌入在一个庞大的执行框架中——工具服务器、浏览器、终端、搜索引擎、模拟器、执行沙箱、API层、记忆系统,以及各种编排框架。

环境不再是旁观者,而成了训练系统本身的一部分。他给了一个非常有画面感的例子:设想一个编码智能体需要把自己生成的代码放到实时测试环境里执行。推理侧因为等待执行反馈而卡住,训练侧因为拿不到完成的轨迹而断粮,整条流水线的GPU利用率远低于经典推理强化学习。再叠加工具延迟、部分可观测性和有状态环境,低效只会被进一步放大。

用一个比喻来理解:推理模型的训练像在安静的教室里做题,题目有标准答案,对错即时反馈。智能体的训练像在嘈杂的工地上施工,材料供应不确定,天气会变,其他工人的动作会影响你的进度,而且很多时候要等混凝土干了才知道浇筑是否正确。

教室模式和工地模式所需要的基础设施,根本不是同一个量级的工程问题。

这就是为什么林俊旸强调:"训练与推理必须更彻底地分开"。做不到这一点,智能体训练的吞吐量会迅速崩掉,实验还没到达目标能力就已经变得缓慢、痛苦且难以扩展。

这或许正是AI投资的第四个启示:AI基础设施的投资逻辑正在发生结构性转移。

过去的核心资源是算力本身,谁有更多GPU谁就赢在起跑线。未来的核心资源是一整套协调训练流程、环境模拟和反馈收集的系统工程能力。

这种能力极难复制,而真正拥有它的公司,数量远比拥有大算力集群的公司少得多。

如果说算力是砖头,那么智能体训练基础设施就是建筑设计能力,砖头可以买,设计能力买不到。

林俊旸在文章中提出了一个极具洞察力的类比:"在SFT(监督微调)时代,我们痴迷的是数据多样性;在智能体时代,我们应该痴迷的是环境质量:稳定性、真实性、覆盖面、难度、状态多样性、反馈丰富度、抗利用能力,以及rollout(完整执行一遍流程)生成的可扩展性。"

过去两年,数据是AI投资叙事中最核心的关键词。谁有更多高质量训练数据,谁就有更强的模型。数据墙、数据护城河、数据飞轮,这些概念支撑了大量的融资逻辑和估值溢价。

但林俊旸的判断指向一个更底层的转变:

当训练对象从模型变成智能体,稀缺资源的定义本身就变了,它可能是动态的、可交互的、能提供丰富反馈信号的某种训练环境。

我们在上篇文章中提出,Agent给模型喂的是"决策的骨骼",而不是"语言的影子"。

林俊旸的这段论述,则精确地描述了这副骨骼在什么样的车间里被锻造——环境就是车间,决定了骨骼的强度。

他甚至判断:

环境构建已经开始从'顺手做的副项目'变成一个真正的创业赛道"

这对AI投资说,一个全新投资标的类别可能正在形成。它不同于以往的模型或算力公司,而是"环境公司"——专门为智能体训练构建高质量、高仿真、可规模化的模拟环境的企业。

如果智能体的目标是在接近生产环境的设置中运行,那么环境本身就是核心能力栈的一部分。这个赛道今天还几乎没有被主流AI投资者充分定价。

在文章中,林俊旸还花了相当篇幅讨论了一个几乎完全不在投资者雷达上的问题——reward hacking(奖励作弊)。

这是其在训练侧揭示了一个尤其隐蔽的风险维度。他写道:

一旦模型获得了真正有用的工具访问权限,reward hacking就会变得危险得多。

正如文章对于Agent的风险假设:

一个带搜索能力的模型,可能在强化学习过程中学会直接搜索答案而不是学会推理;

一个编码智能体,可能利用代码仓库里的未来信息、滥用日志,或者发现让任务本身失效的捷径

一个存在隐蔽泄漏的环境,会让策略看起来像'超人',而实际上它学到的只是作弊。

更强的工具让模型更有用,但同时也扩大了伪优化的攻击面。工具越强大,作弊的花样越多。

这一点对AI投资尤其重要。

当看到一家公司发布令人惊艳的智能体基准成绩时,或许要多追问一层:这些指标是在什么环境中测出来的?环境是否做过系统的防泄漏和反作弊设计?如果一个智能体在测试中表现超群,但那个测试环境存在隐蔽的信息泄漏,那么这个"超群表现"的实际商业价值可能为零。

更危险的是,基于这种虚假能力上线的产品,在真实商业场景中会暴露出远超预期的失败率。

林俊旸就此认为:

应当预期,下一批真正严肃的研究瓶颈,将来自环境设计、评估器鲁棒性、反作弊协议,以及策略与世界之间更原则化的接口设计。

这意味着,智能体时代的竞争壁垒可能不仅在模型层面,更在评估体系的严谨性和环境设计的反脆弱能力上。

那些能够构建出"不可被钻空子"的训练环境和评估框架的团队,拥有的是一种极其稀缺的、难以被复制的能力;

相反那些忽视这一层、一味追求基准分数好看的公司,随时可能在真实部署中出现问题。

林俊旸在文章的尾声写了一句话,可以作为以上六条启示的总纲:

未来的演进路径,将是从训练模型,走向训练智能体,再走向训练系统。

推理时代的竞争壁垒来自更好的强化学习算法、更强的反馈信号和更可扩展的训练流水线。

智能体时代的竞争壁垒来自更好的环境、更紧密的训推协同、更强的驾驭(Harness)工程,以及把模型决策与其后果真正闭环起来的能力。

过去投AI,看的是谁的模型最强。未来投AI,看的很可能是谁的系统闭环最紧。

风险提示及免责条款
市场有风险,投资需谨慎。本文不构成个人投资建议,也未考虑到个别用户特殊的投资目标、财务状况或需要。用户应考虑本文中的任何意见、观点或结论是否符合其特定状况。据此投资,责任自负。