被广泛视为第四次工业革命的AIGC浪潮,正在给人类的生产方式带来颠覆性的变革。凭借堪比黄金紧俏的GPU,英伟达荣膺AI“卖水人”,年内股价大涨240%。

然而,多方抢购之下,英伟达GPU已经陷入产能瓶颈。最新的H100芯片早已全部卖空,现在下单要等2024年Q1甚至Q2才能用上。

根源在于,GPU零部件产能严重不足,继而影响供应。

以H100芯片为例,其最关键的零部件主要是:1)逻辑芯片;2)HBM存储芯片;3)CoWoS封装

核心的逻辑芯片尺寸为814平方毫米,主要由台积电最先进的台南18号工厂供应,使用的工艺节点则是“4N”,实际是5nm+。由于PC、智能手机和非AI相关数据中心芯片市场疲软,目前台积电5nm+产能利用率不到70%。因此逻辑芯片供应没有问题。

在H100最中心的逻辑芯片旁边,是6块HBM(High Bandwidth Memory),它一种基于3D堆叠工艺的DRAM内存芯片,像摩天大厦中的楼层一样可以垂直堆叠,将多个DDR芯片堆叠在一起,通过硅通孔(TSV)连接,并使用 TCB 键合,实现更高带宽、更高位宽、更低功耗、更小尺寸。

内存芯片对GPU性能至关重要,尤其是训练AI所用的高性能GPU。推理和训练工作负载是内存密集型任务。随着AI模型中参数数量的指数级增长,仅权重一项就将模型大小推高到了TB级。因此,从内存中存储和检索训练和推理数据的能力决定了GPU性能的上限

作为HBM的先驱,HBM供应几乎由韩国内存芯片厂商SK海力士一家垄断,市占率超过95%,也是唯一有能力生产H100各型号上所使用的HBM3的厂商

HBM3供应目前也相当紧俏,此前有媒体报道称,英伟达和AMD要求SK海力士提供尚未量产的下一代HBM3E芯片的样品。英伟达已要求SK海力士尽快供应HBM3E,并愿意支付“溢价”

不过,随着存储芯片大厂纷纷投入重金提升HBM3产能,供应紧张的状况或在今年有所缓解。近期有媒体报道称,在通过最终质量测试后,三星电子8月31日与英伟达签署了协议,将向后者供应HBM3。最早将于下周开始供应。

早些时候,花旗亦在报告中透露,三星将在四季度开始向英伟达供应HBM3。

另一大产能瓶颈,在于CoWoS封装。

HBM和CoWoS封装两种技术相辅相成。HBM对焊盘数量和短线迹长度的要求很高,这就需要CoWoS先进封装技术来实现PCB甚至封装基板上无法实现的高密度、短连接。

目前,几乎所有的HBM都采用CoWoS封装技术。英伟达GPU CoWoS封装的主力供应商是台积电。但由于需求爆炸式增长,台积电产线即便开足马力也难以填补供需鸿沟。为此,台积电已经新开竹南、龙潭和台中三座工厂,其中竹南工厂占地14.3公顷,比其他封装厂的总和还要大。

有市场分析认为,台积电正积极加码先进封装产能,以满足市场对其先进封装解决方案的更多需求。

另外,英伟达首席财务官Colette Kress近期透露,英伟达在CoWoS封装等关键制程已开发并认证其他供应商产能,预期未来数季供应可逐步攀升,英伟达持续与供应商合作增加产能。

风险提示及免责条款
市场有风险,投资需谨慎。本文不构成个人投资建议,也未考虑到个别用户特殊的投资目标、财务状况或需要。用户应考虑本文中的任何意见、观点或结论是否符合其特定状况。据此投资,责任自负。