本报告旨在提供一个推理算力需求从用户渗透到Token调用、再到硬件支出的分析框架,我们通过对Google与微软(OpenAI)未来Token调用量、算力总需求和未来硬件支出节奏的测算,得出结论:推理算力需求增长速度快于单位算力成本的降低。我们持续看好推理端算力需求的加速增长。

推理算力需求增长或快于算力单位成本下降

总算力支出受到算力需求与成本的共同影响。随AI应用用户数量的不断增长及Agent的渗透不断提升,推理端算力需求不断上升;同时,由于硬件的迭代与infra算法的不断改进,模型推理的单位成本不断下降,模型推理价格目前已下降到2023年初的1/100以下,目前市场对未来推理端算力支出节奏存在分歧。本报告旨在提供一个推理算力需求从用户渗透到Token调用、再到硬件支出的分析框架,我们通过对Google与微软(OpenAI)未来Token调用量、算力总需求和未来硬件支出节奏的测算,得出结论:推理算力需求增长速度快于单位算力成本的降低。我们持续看好推理端算力需求的加速增长。

海内外大厂Token调用量增长迅速,推理算力需求快速增长

海外CSP厂商来看,根据25年5月Google I/O大会数据,Google的Token月均调用量从24年4月的9.7万亿增长至25年4月的480万亿,增长50倍。根据微软FY25Q3电话会数据,Azure AI基础设施在25年一季度处理了超100万亿Token,较去年同期增长5倍,其中3月份单月Token调用量达50万亿。国内互联网大厂来看,25年5月字节火山引擎Token日均调用量为16.4万亿(月均508T),是24年5月的137倍。我们认为,海内外大厂Token调用量已出现明显加速拐点,推理端算力需求快速增长。

考虑到单位算力成本下降后,Google算力支出仍有望高增

AI搜索的渗透是Google Token调用量增长的主要驱动,通过对AI Overview、AI Mode、Gemini 2C应用和其他推理需求的测算,我们预测Google 25年第二季度Token总量有望达到2009万亿,环比增长223%,相较于24Q2的71万亿Token增长接近30倍。单位算力成本 = 单位价格 / 算力,受软件算法优化与新版本芯片的部署影响,单位算力成本呈现下降趋势,根据我们测算,4/5/6月单位算力成本分别环比下降14%/13%/13%,下降幅度小于4/5/6月算力需求提升的环比增速56%/38%/32%。根据我们测算结果,Google 25年二季度推理算力开支仍有望环比增长100%以上。

用户使用量与Deep Research的渗透有望驱动微软算力需求高增

微软Token调用量的提升主要源于OpenAIChatGPT网页的访问量上升及Deep Research功能的渗透。考虑到以上两因素的影响,在我们的预测框架下,微软25年第二季度的总Token调用量有望达到205万亿,环比增长约100%。算力成本角度,算法优化带来模型浮点运算利用率的提升,即同样数量的芯片能带来更多的有效算力。根据我们测算,考虑到算法优化带来的算力成本下降后,微软年底的推理算力卡需求量仍约为3月的两倍有余,我们预测微软的算力硬件需求仍将维持高速增长。

海内外大厂Token调用量增长迅速,推理算力需求加速放量

大厂Token调用量增长迅速,推理算力需求加速放量。根据25年5月Google I/O大会,24年4月,Google的产品和API每月处理的Token总量为9.7万亿;25年5月这个数字已超过480万亿,足足成长了50倍。根据微软FY25Q3电话会表述,Azure AI基础设施在本季度处理了超100万亿Token,较去年同期增长5倍,其中3月份单月Token调用量达50万亿。

图片

国内来看,以字节为代表的互联网大厂Token调用量同样增长迅速。根据字节火山引擎春季大会披露,字节火山引擎上5月底日均Token调用量为16.4万亿(月均508T),是24年5月的137倍,12月的4倍,与Google 4月份披露的月均480T Token调用基本持平。今年5月与去年12月Token调用分布对比来看,AI工具类Token消耗快速增长,其中AI搜索增长10倍,AI编程增长8.4倍。其他场景方面,K12在线教育场景五个月内Token消耗数增长12倍;视觉理解模型也推动了Token增长,新场景如智能巡检、视频检索等也实现日均百亿Token突破。我们认为,随应用场景的不断丰富,国内推理需求有望加速增长。

图片

图片

图片

北美大厂Token调用量与算力需求测算

Google Token调用量与算力需求测算

Google Token调用量增长,主要源于AI搜索的拓展

Google Token量快速上涨的原因:AI搜索(AI Overview)

1) Google与微软Token调用量差异并不源自于Chatbot类产品:Gemini 和 ChatGPT在调用层面存在一定的相似性,Gemini在用户数量方面只有ChatGPT的1/3左右,但Token量却是微软的6倍,因此两者的Token差距并不来自Chatbot类应用。

2) Google Token调用量高增的驱动主要来自于AI搜索(AI Overview):搜索是Google相比微软最有优势的部分,Google搜索占市场份额约90%,年搜索量达到5万亿,24年5月推出的AI Overview最有可能是导致Google和微软之间Token巨大差异的原因。今年第一季度,Google的Token调用量曲线上扬,25Q1/Q2分别环比增长81%/56%,根据Google电话会,25年一季度AI Overview迎来史上最大规模扩张,包括用户数量的增长和对问题回答的丰富,AI Overview的扩张是驱动Token快速增长的核心。

图片

图片

Google Token调用量测算

根据我们测算,25年5月和6月推理Token量将分别达到659/870万亿,环比增长37%/32%。25年第二季度Token总量将达到2009万亿,环比增长223%,相较于24Q2的71万亿Token增长接近30倍。

谷歌的推理Token主要包含三部分:AI搜索、Gemini 2C应用和其他推理需求。对于Token量变化,关键指标测算如下:

1) AI搜索: AI搜索Token量 = 月度AI搜索次数 单次搜索Token消耗

月度AI搜索次数 = 月度Google搜索次数 AI搜索渗透率。根据Google在25年3月的披露,Google每年搜索量达到5万亿次,以此预估3月份Google搜索量。从用户角度,3月份AI Overview的月活跃用户已达15亿,谷歌搜索月活约20亿。从关键词触发角度,根据Semrush,所有搜索关键词中触发AI Overview的比例约为13.14%。因此按实际所有搜索中的AI Overview所占的比例来看,渗透率应低于75%,假设3月渗透率为55%。

单次搜索Token消耗:搜索的Token消耗在Chat和Agent之间,假设每次AI Overview消耗为1200个Token。AI mode在25年3月推出,能够将原问题拆成多个子问题进行搜索,其Token消耗量应为普通AI Overview的数倍,假设消耗为5000Token。

2) Gemini:Gemini Token量 = 30DAU人均每日使用次数单次使用Token数

DAU = MAU (DAU/MAU)。25年3月Gemini的月活和日活分别为3.5亿和3500万,根据Google I/O大会披露,4月的月活为4亿。

人均每日使用次数:假设3月为10次,按中性增长的趋势推算其他月份情况。

单次使用Token数:由于Agent和Chat单次使用的Token数有显著差异,因此通过假设占比得到Gemini单次使用Token的均值。假设25年3月Agent的占比为1%。

3) 其他推理需求:假设占整体Token的比例基本不变。

影响Token量变化的核心指标:

1) AI搜索渗透率:月度Google搜索量超过4000亿,因此AI搜索渗透率的增长将带动Token调用量快速增加。

2) AI Mode的占比:AI Mode在25年3月测试,25年5月正式向美国用户推出。相比于传统搜索,AI Mode运行多个相关搜索,预测用户感兴趣的子问题并生成全面的整合性答案,因此AI Mode的Token调用量为AI Overview的数倍,AI Mode占比的增加可以成倍增长AI搜索Token总量。

3) Gemini Agent占比:Agent的Token调用量可能达到Chat的数百倍,Agent功能应用占比的增加将大幅带动Gemini Token的增长。

图片

Google Token量快速增长有望带来资本开支持续高增

我们预计,Google二季度推理算力需求环比+223%。假设Gemini Pro和Gemini Flash在Token中占比保持50%/50%,推理过程所需要的算力可以由公式C≈2NBS来估算,算得25年第二季度总算力需求较一季度环比增长223%。

影响推理算力变化的核心指标:模型参数量和大参数模型调用占比:在Token数占比相近的情况下,模型参数量直接影响最终的算力需求,单位Token下Gemini Pro的算力需求是Gemini Flash的17倍。如果未来大参数模型的应用占比增长或模型参数增长,都会直接带动推理算力需求的增长。

图片

我们预计,二季度推理算力资本开支环比+159%:根据我们测算,25年第二季度,Token量的增长将带给Google额外14.5亿美元的芯片资本开支,环比增长159%,主要原因是Token量的大幅增长。整体推理算力资本开支的增长意味着推理需求的增长(Token量增长)抵消了芯片迭代和算法优化导致的推理成本下降,我们看好算力资本开支的持续增长。

单位算力成本是影响推理资本开支变化的核心指标。单位算力成本 = 单位价格 / 算力,计算得算力成本呈现下跌趋势,4/5/6月单位算力成本分别环比下降14%/13%/13%。影响单位算力成本的因素主要有:

1) 新款芯片的迭代:可以量化为 新款芯片算力 占比 / 价格。以TPU迭代为例,TPU v7的FP16算力相比TPU v6的增长151%,价格增幅低于算力增幅的情况下,单位算力成本下降。

2) 算法迭代:目前假设每年算法导致推理成本下降为1/4,如果算法迭代的速度放缓,将导致需要的芯片数增长。

图片

图片

微软Token调用量与算力需求测算

OpenAI Token调用量增长主要源于用户数量增长与Deep Research功能的渗透

不同于Google的传统搜索中AI功能的渗透,OpenAI的Token调用量的提升主要源于ChatGPT网页的访问量上升及Deep Research功能的渗透。

1. ChatGPT部分:根据Semrush数据,OpenAI截至2025年3月的总月访问量约为6亿次,平均访问时长约为12min,假设用户平均每2min与ChatGPT进行一次问题交互,则对应12min的访问时长的单次访问问题总数为6个。假设单问题消耗的Token数量为1000个,则OpenAI的ChatGPT部分的Token调用总数为总访问量x(单次访问时长/单问题时长)x单问题Token数量=35.9 T Token。目前ChatGPT的总访问量与单次平均访问时长仍在快速增长,假设总访问量以10%左右的环比增速增长,则预计2025年第二季度的ChatGPT总Token调用量达153T,较第一季度环比增长85%。具体测算如下表所示:

2. Deep Research部分:OpenAI的Deep Research功能于2025年2月2日正式发布,完整版功能首先面向Pro版用户开放,而后进一步开放给了更多等级的订阅用户。其中,Plus、Team、教育和企业用户每月10次查询机会,Pro用户每月120次查询机会。本文测算将OpenAI的付费用户视作为Deep Research功能的核心用户群体。根据OpenAI披露OpenAI的2024年12月的WAU(周活跃用户)数量为3亿人,2025年2月的WAU为4亿人,4月WAU为5亿人,约环比增速10%以上。据OpenAI披露2025年5月的付费订阅用户数量达3万人,约占总WAU的0.6%。Deep Research单次回答问题推理时长一般在5-10min,输出文字长度与参考网页数量一般为单次交互的几十倍以上,据此我们假设单次Deep Research的Token数为单次交互的50倍,即5万Token。依据付费用户数量每月的Deep Research次数额度,我们假设每月每用户使用Deep Research的次数为40次。测算2025年3月Deep Research Token数量=付费用户数量x单次Deep Research的Token数x每月每用户使用Deep Research的次数=4.8T Token。

图片

综上,根据我们测算,OpenAI 3月的总Token调用量约为40.7 T Token。OpenAI的Token调用为微软的Token消耗总数最大的部分,假设OpenAI Token调用占微软总Token数量的85%,据此计算微软3月份总Token调用量约为48T,这与微软披露的3月份Token数量基本吻合(根据微软电话会披露,2025年一季度微软总Token调用量约为100T Token,3月单月的Token调用量为50T)。根据我们预测,微软25年第二季度的总Token调用量有望达到205T,环比增长约100%。

根据我们测算,微软二季度推理算力需求环比增长99%。OpenAI未公布模型参数量数据,假设与Google一样,一半使用300B左右大参数模型(GPT o3),一半使用20B左右小参数模型(GPT o4-mini)。利用公式C≈2NBS来估算Token量增长对于算力需求的影响,计算出2025年3月整体推理算力需求为15.3 Trillion TFLOPs。我们预测微软2025年第二季度总算力需求为65.6 Trillion TFLOPs,环比增长99%,具体测算过程如下:

图片

根据测算微软年底的推理算力卡需求量约为3月的两倍有余。根据英伟达官网,H100在FP16精度下单芯片算力为989 TFLOPs。随infra算法的优化与改进,推理过程的MFU(Model FLOPs Utilization,模型浮点运算利用率)呈上升趋势,中性假设每月提升1%,根据测算2025年3月份微软在推理部分的等效H100算力需求为4.3万张,未来月同比增速约为10%左右,根据测算微软年底的推理算力卡需求量约为3月的两倍有余。

图片

结论:推理算力需求增长速度快于单位算力成本的降低

由于单位推理成本的不断下降,算力支出存在分歧。算力支出的影响因素可以拆分为算力需求和算力成本两项。AI应用用户数量的不断增长及Agent的渗透驱动算力需求不断上升,同时,由于硬件的迭代与算法改进,驱动推理成本的不断下降,根据Artificial Analysis数据,模型推理价格目前已下降到2023年初1/100以下,因此对整体的算力支出存在分歧。

图片

根据我们测算,推理算力需求增长速度快于单位算力成本的降低。下图展示了Google 25年4月对比25年3月的情况,25年4月对比3月算力需求环比上升56%,算力成本环比下降14%,算力需求增长的影响高于算力成本下降的影响,未来算力支出将持续增长。同时,目前Agent还处于初期阶段,除Deep Research以外,更高级的Agent应用目前还未纳入测算范围。随更多General Agent的落地带来交互次数、任务复杂度、使用频率的提升,同时如屏幕识别等多模态的场景进一步加大Token的消耗,我们持续看好推理端算力需求的加速增长。

图片
本文来源于:华泰睿思,作者:谢春生等,原文标题:《计算机:从Token角度,测算AI算力需求》

风险提示及免责条款
市场有风险,投资需谨慎。本文不构成个人投资建议,也未考虑到个别用户特殊的投资目标、财务状况或需要。用户应考虑本文中的任何意见、观点或结论是否符合其特定状况。据此投资,责任自负。