更快更有判断力的GPT-5系列模型GPT-5.3 Instant问世才一天,美东时间5日周四,OpenAI就发布了全新的旗舰基础模型GPT-5.4,在ChatGPT、API以及开发工具Codex中同步上线。

OpenAI称GPT-5.4是“迄今能力最强、最高效的专业工作前沿模型”,重点面向企业办公与复杂知识工作场景。相比此前版本,GPT-5.4的最大变化在于强化AI智能体(Agent)的能力。在API和Codex中,GPT-5.4首次实现了原生级“电脑操作”功能,支持智能体跨软件执行复杂工作流。

GPT-5.4不仅能生成文本或代码,还首次将原生电脑操控能力引入通用模型,能直接操作电脑软件、浏览网页、控制鼠标和键盘完成任务,并可与电子表格、金融分析工具等企业应用深度整合,深度嵌入微软Excel和谷歌表格。

在ChatGPT中,GPT-5.4支持“提前展示思维过程”,允许用户在模型响应过程中调整任务方向,并提升了深度网页搜索与长逻辑语境下的上下文保持能力。

业内认为,GPT-5.4的一系列升级标志着AI模型正从“对话工具”走向自动化执行任务的数字代理系统,进一步渗透企业生产力软件与专业知识工作。

OpenAI本周四同时推出两个版本,包括更擅长复杂推理的GPT-5.4 Thinking以及高性能的GPT-5.4 Pro,分别面向付费用户和高端企业用户。

在计算机操控基准测试OSWorld-Verified中,GPT-5.4以75.0%的成功率超越人类平均水平72.4%,较前代GPT-5.2的47.3%大幅跃升。同期发布的财务服务套件显示,GPT-5.4在OpenAI内部投行基准测试中的得分从GPT-5的43.7%跃升至88.0%。

早期测试机构给出积极反馈。投资公司Walleye Capital的AI解决方案主管Daniel Swiecki表示,GPT-5.4在内部财务和Excel评估中准确率提升了30个百分点。AI人才平台Mercor的CEO Brendan Foody称其为该公司“迄今尝试过的最佳模型”,并表示GPT-5.4已在Mercor面向专业服务工作的APEX-Agents基准测试中排名第一。

GPT-5.4最具突破性的能力在于其原生电脑操控功能,这也是OpenAI首次在通用模型中内置该能力。通过API和Codex,该模型可像人类一样操控计算机,跨应用完成多步骤工作流程。

具体而言,GPT-5.4既可通过Playwright等库编写代码来操控计算机,也可直接响应截图发出鼠标和键盘指令,开发者还可配置自定义确认策略以适配不同风险容忍度场景。

基准测试数据支撑了这一能力的实质性进步:在测试桌面导航能力的OSWorld-Verified中,GPT-5.4成功率达75.0%,不仅超过GPT-5.2的47.3%,也超越了人类基准水平72.4%;在浏览器操控测试WebArena-Verified中,成功率为67.3%,高于GPT-5.2的65.4%;在Online-Mind2Web中,仅凭截图即实现92.8%的成功率。

在网络搜索能力方面,BrowseComp测试显示GPT-5.4较GPT-5.2提升17个百分点,GPT-5.4 Pro更以89.3%的成绩创下该基准测试的最高评分纪录。

地产科技公司Mainstay的CEO Dod Fraser表示,在覆盖约3万个房产税门户的测试中,GPT-5.4首次尝试成功率达95%,三次内成功率达100%,相比此前的计算机操控模型(成功率约73%至79%)大幅提升,同时完成速度加快约3倍,tokens消耗减少约70%。

随着工具生态规模扩大,如何高效管理工具调用成为制约代理系统落地的瓶颈。GPT-5.4在API中引入"工具搜索"(Tool Search)机制,从根本上改变了工具定义的传递方式。

此前,模型在每次请求时均需在提示词中预加载全部工具定义,在工具数量庞大的系统中,这会在每次请求中额外消耗数千乃至数万tokens,推高成本、增加延迟并稀释上下文。新机制下,模型仅接收工具的轻量化列表,仅在实际需要使用某工具时才按需检索其完整定义。

OpenAI以具体数据佐证效果:在使用Scale的MCP Atlas基准测试的250项任务中,启用全部36个MCP服务器的配置下,工具搜索模式相较将全部MCP功能直接暴露于上下文的模式,在保持相同准确率的前提下,总token用量减少47%。

Zapier的CEO Wade表示,GPT-5.4在该公司横跨数百个高级真实工作流的工具使用基准测试中表现优异,"是迄今为止最具持续性的模型"。

与GPT-5.4同步发布的还有面向企业和金融机构的“OpenAI金融服务”套件,核心产品是ChatGPT for Excel和Google Sheets(测试版)——ChatGPT将直接嵌入电子表格单元格,支持构建、分析和更新复杂财务模型。

该套件还整合了FactSet、MSCI、Third Bridge和Moody's等数据合作伙伴,并推出可复用的Skills功能,覆盖盈利预览、可比公司分析、DCF估值分析及投资备忘录撰写等高频金融工作场景。

在内部投行基准测试中,GPT-5.4 Thinking的得分从GPT-5的43.7%跃升至88.0%;在模拟初级投行分析师电子表格建模任务的测试中,GPT-5.4平均得分87.3%,远高于GPT-5.2的68.4%。

法律AI平台Harvey的应用研究主管Niko Grupen表示,GPT-5.4在该公司BigLaw Bench评估中得分91%,"在结构化复杂交易分析、跨长篇合同保持准确性以及提供法律从业者所需的高度细节方面,目前优于其他模型"。

OpenAI在多个衡量真实职场输出的基准测试上展示了GPT-5.4的能力边界。在GDPval测试中——该测试涵盖44个职业的知识工作任务,包括销售演示、会计表格、制造业图表等真实工作产出——GPT-5.4在83.0%的比较中达到或超越行业专业人士水平,高于GPT-5.2的71.0%。

在演示文稿质量评估中,人类评审在68.0%的情况下更偏好GPT-5.4的输出,原因包括更强的视觉美感、更丰富的视觉多样性以及更有效的图像生成应用。

在幻觉和事实错误控制方面,OpenAI表示GPT-5.4是其"迄今最具事实准确性的模型":在用户此前标记过事实错误的去标识化提示词测试集上,GPT-5.4的单项陈述错误率较GPT-5.2降低33%,完整回应中出现任意错误的概率降低18%。

在编程能力方面,GPT-5.4在SWE-Bench Pro上的表现与GPT-5.3-Codex持平或更优,且在各推理强度设置下延迟更低。Codex的/fast模式可为GPT-5.4带来最高1.5倍的token生成速度提升,该模式使用相同模型与相同智能,仅在速度层面进行优化。GitHub首席产品官Mario Rodriguez表示,GPT-5.4在逻辑推理及执行复杂多步骤工具依赖工作流方面表现突出,"是企业第一天就应该采用的模型"。

GPT-5.4 Thinking面向需要深度推理的通用专业场景,GPT-5.4 Pro则专为最复杂任务设计,追求性能上限。

在ChatGPT端,GPT-5.4 Thinking从本周四起向Plus(月费20美元)、Team及Pro用户开放,取代此前的GPT-5.2 Thinking,GPT-5.2 Thinking将在三个月后于2026年6月5日正式退役。

GPT-5.4 Pro仅限Pro(月费200美元)及Enterprise计划用户使用。免费用户亦可在系统自动路由时有限接触GPT-5.4。企业和教育计划用户可通过管理员设置提前开启访问权限。

在API端,GPT-5.4以gpt-5.4标识符提供,GPT-5.4 Pro以gpt-5.4-pro提供,两者均可在Codex开发平台使用。API最大输出为12.8万token,与此前模型保持一致。API及Codex同时支持最高100万token的上下文窗口,是OpenAI迄今提供的最大上下文容量,适合跨步骤长链路任务的规划、执行与验证。

在API定价上,GPT-5.4的价格相较GPT-5.2有所上调。具体如下:

  • GPT-5.4:输入2.50美元/百万token,输出15美元/百万token(GPT5.2的定价为输入1.75美元/百万token、输出14美元/百万token)
  • GPT-5.4 Pro:输入30美元/百万token,输出180美元/百万token(GPT5.2 Pro为输入21美元/百万token、输出168美元/百万token)
  • Batch及Flex定价享半价优惠,Priority(优先)处理则按标准价格的两倍计费

值得注意的是,当单次输入超过27.2万token时,超出部分将按两倍标准费率计费。在Codex中,默认压缩上限为27.2万token,开发者可手动上调上限以处理更大提示词,超出部分方触发较高计费。

OpenAI对较高定价给出三点解释:一是在编程、计算机操控、深度研究、高级文档生成及工具调用等复杂任务上能力更强;二是来自研究路线图的重大技术进步;三是更高效的推理机制在相同任务上消耗更少推理tokens,一定程度上抵消了单价上升的影响。OpenAI同时表示,即便提价,GPT-5.4的定价仍低于同等能力的竞品前沿模型。

风险提示及免责条款
市场有风险,投资需谨慎。本文不构成个人投资建议,也未考虑到个别用户特殊的投资目标、财务状况或需要。用户应考虑本文中的任何意见、观点或结论是否符合其特定状况。据此投资,责任自负。