新一轮大模型要来了!Blackwell加持下,AI能力更强了?
AI大模型竞争正迈入新的技术节点。以英伟达Blackwell架构训练的首批旗舰模型即将亮相,花旗研究将其定性为当前行业竞争格局中“最重要的近期技术催化剂”,而在此之前,多家头部AI实验室已密集推出或预告新品,新一轮能力跃迁正在加速兑现。
Anthropic本周正式发布Claude Opus 4.8,在智能体协作、可控推理与诚实度方面全面升级,发布时间较外界此前预期明显提前;马斯克在X平台披露,参数量高达1.5万亿的Grok-5训练已完成,预计2至3周内发布,参数规模是现役Grok-4的三倍;MiniMax工程主管同期发布预告,暗示采用全新稀疏注意力机制的MiniMax-M3即将登场。与此同时,OpenAI的GPT-6.0、谷歌的Gemini 3.5 Pro等新一代模型也已排入发布日程。
据追风交易台消息,花旗研究5月22日报告指出,当前AI需求呈现OpenAI首席财务官Sarah Friar所称的"垂直的需求之墙"态势:谷歌每月处理的tokens量已达3.2千万亿(Q),同比增长7倍;Anthropic预计二季度末年化收入(ARR)约达500亿美元,较3月底的300亿美元大幅跳升,二季度收入预测为109亿美元,环比增幅约130%;OpenAI一季度单季收入57亿美元,已超去年上半年约43亿美元的总和。然而,供给侧增速更为渐进,算力与推理成本双双走高,供需错配格局正在重塑整个行业的定价逻辑。

上述动态意味着AI平台商业化路径正沿两个方向演进:能力竞赛驱动前沿推理的持续溢价,供给约束则推动算力服务走向类云计算的预留定价模式。Blackwell训练模型能否真正带动能力跃迁,将是检验这一逻辑的关键节点。
花旗研究把"首批基于Blackwell架构训练的模型"列为近期AI竞争中最关键的技术催化剂,逻辑很直接:目前所有排在前沿模型榜单上的产品,包括OpenAI GPT-5.5(花旗AI智能指数60)、谷歌Gemini 3.1 Pro Preview(57)、Anthropic Claude Opus 4.7(57),全部是用上一代算力训练出来的。
换句话说,Blackwell的算力优势到现在还没有真正体现在模型能力上。市场普遍预期,一旦首批Blackwell训练模型落地,将与现有产品之间形成明显的能力断层。
这也是为什么花旗特别强调Mythos的节点意义——Anthropic的Claude Mythos预览版,是目前已知的"前Blackwell时代"最后一批顶级模型之一,其对齐性和推理能力已被视为当前架构的天花板。Mythos之后,下一批重磅模型将是首批真正吃到Blackwell红利的产品。
花旗模型发布日历显示,未来数月发布节点密集:谷歌Gemini 3.5 Pro、Anthropic Claude Sonnet 4.7等预计二季度内落地;Claude Opus 5、Sonnet 5及DeepSeek V5等定档四季度;OpenAI GPT-6.0则排期三季度。其中哪些将成为首批由Blackwell算力全程训练的产品,是市场当前最核心的关注点。

GPU算力租赁市场数据同样印证了这一预期。花旗追踪的Blackwell系列芯片((G)B200/(G)B300等)租赁价格自2025年下半年以来持续攀升,直接反映出市场对下一代训练算力需求的强劲升温。
在距Claude Opus 4.7发布仅约一个月后,Anthropic本周发布Claude Opus 4.8,时间较此前外界根据代码泄露推测的"6月中旬"窗口明显提前。在OpenAI、谷歌等厂商持续推进智能体与推理模型竞争的背景下,Anthropic正以更快的迭代频率押注高端企业AI市场。
此次升级的核心变化有三:一是新增"投入控制"(effort control)机制,用户可主动调节模型推理资源的投入强度,在速度、成本与推理深度之间灵活取舍;二是推出"动态工作流"(Dynamic Workflows)研究预览版,整合进Claude Code,支持协调数百个并行子智能体完成大规模复杂任务——Anthropic举例称,新系统可端到端处理覆盖数十万行代码的大型代码库迁移;三是着力提升"诚实度"(honesty),内部评估显示,Opus 4.8允许代码缺陷未加提示通过的概率,仅为Opus 4.7的约四分之一,且对齐性已达到与Claude Mythos预览版相媲美的水平。
在基准测试上,Claude Opus 4.8在衡量浏览器智能体能力的Online-Mind2Web中获得84%,Anthropic称其优于Opus 4.7和GPT-5.5。
定价维持与Opus 4.7一致:每百万输入token 5美元、每百万输出token 25美元。新增"快速模式"(Fast Mode),定价为每百万输入token 10美元,速度为标准模式的2.5倍,成本据称仅为此前模型的三分之一。模型已在亚马逊AWS、谷歌云及微软Foundry同步上线。
Anthropic还在公告中透露,少数机构已开始在网络安全场景中试用Claude Mythos预览版(Glasswing项目),并预计"在未来数周内"将Mythos级别模型向全部客户开放。
Blackwell训练模型即将登场的背景下,多家头部实验室正密集预告新品,试图在新一轮能力竞赛正式开始前抢占位置。
马斯克本周在X平台披露,1.5万亿参数的Grok V9-Medium(Grok-5)训练已完成,预计2至3周内向公众发布。

相比之下,当前xAI全部生产流量运行在参数约0.5万亿的Grok-4上,新模型参数规模一举扩至三倍。马斯克特别提到,来自AI编程工具Cursor的大量编程数据已被纳入补充训练,后续还有更多数据将跟进。Cursor当前年经常性收入(ARR)已达20亿美元,三个月内翻倍,开发者在其上产生的代码补全、重构、调试交互数据,提供了完整的思维链训练素材,对编程能力建模的价值明显高于直接爬取代码仓库。
在此前战略布局中,SpaceX已于4月21日宣布与Cursor达成合作,Cursor可使用Colossus超算训练模型,SpaceX获得以600亿美元收购Cursor的期权,否则需支付100亿美元合作费用。这一架构下,Grok-5针对编程场景的升级,将在与OpenAI Codex、Anthropic Claude Code的竞争中进一步加码。
MiniMax方面,工程主管本周发布预告图,暗示采用全新稀疏注意力机制的MiniMax-M3即将推出,据市场解读,预填速度可提升9.7倍、解码速度提升15.6倍。据花旗前沿模型排行榜,当前MiniMax-M2.7以每百万tokens仅0.22美元的极低定价在市场中占据一席,M3落地后,其在性价比赛道的优势有望进一步延续。

此外,DeepSeek V4 Pro(4月24日发布,花旗AI智能指数52)以及来自中国多家机构的Qwen3.6 Plus、Kimi K2.6等产品也相继入场,前沿模型竞争格局的多极化趋势愈发清晰。
花旗研究用"垂直的需求之墙"来描述当前AI需求的增长态势——这个词最早来自OpenAI首席财务官Sarah Friar,意思很直白:需求增速几乎是垂直拉升的。
具体数据印证了这一判断:谷歌每月tokens处理量同比增长7倍,达到每月3.2千万亿(Q);Anthropic预计二季度末年化收入(ARR)约达500亿美元,较3月底的300亿美元大幅跳升,二季度收入预测为109亿美元,环比增幅约130%;OpenAI一季度单季收入57亿美元,已超去年上半年约43亿美元的总和。
花旗认为,这些数据背后更重要的信号是:企业端AI采用加速仍处于早期阶段,需求的天花板远未到来。
与此同时,Intuit、Meta及Cisco相继宣布裁员,花旗将这些行动解读为AI加速冲击传统生产效率场景的潜在信号,并指出一个核心问题仍悬而未决:AI带来的生产力红利,究竟将流向AI平台、软件厂商、企业客户还是劳动力市场?这一问题正随着基础设施容量的边际收紧而日益紧迫。
花旗研究的定价跟踪数据显示,AI定价体系正形成明显的双轨格局:接入层面竞争趋于激烈,但前沿推理定价几乎未见下行压力。
谷歌将AI Ultra订阅价格从每月250美元下调至200美元,并于5月19日推出100美元/月新档位,面向专业个人用户,提供5倍于Pro套餐的使用限额,并捆绑YouTube Premium。相比之下,GPT-5.5相较GPT-5.4的价格约上涨2倍,叠加AI实验室加速淘汰旧款模型的趋势,显示出头部厂商正通过订阅分层与前沿推理溢价对用户群体进行更精细化的市场切割。
企业端采用在边际上亦承受一定成本压力。据OpenRouter 5月4日对GPT-5.5的成本分析,不同工作负载下成本增幅为49%至92%,部分被输出tokens减少19%至34%所抵消。

供给增速跟不上需求,直接推动了AI算力服务模式的变革。
算力不够用怎么办?前沿AI实验室开始像云服务商一样“预售算力”。OpenAI于5月20日推出 “保证容量”方案:企业签1到3年合约锁定算力,承诺消费越多、token折扣越大。Anthropic近期也签下多项类似协议。花旗指出,这本质上是把AI算力当“云资源”卖——预留实例、算力即服务,提前锁定稀缺产能。
分析师还特别指出,前沿能力供给中最严峻的约束,依然在于人才层面。比芯片更难抢的是人。顶尖AI研究员Andrej Karpathy刚刚加入Anthropic——这类顶级人才的流向,往往比算力更能预示前沿能力的下一站。
~~~~~~~~~~~~~~~~~~~~~~~~
以上精彩内容来自追风交易台。
更详细的解读,包括实时解读、一线研究等内容,请加入【追风交易台▪年度会员】

