作者:周源/华尔街见闻

从行业的情况看,GenAI(生成式人工智能:Generative Artificial Intelligence)的核心要件有两个:GPU和HBM,后者提供了当今可能的最高内存带宽,而GPU的性能并非由主频决定,而是受制于内存带宽。

GPU领导公司英伟达在过去一年获得了令人惊讶的市值增长速度,但英伟达所有AI加速卡仍不能缺少HBM公司的支持。三星半导体业务主管 Kyung Kye-hyun 说,“HBM的领导地位正在向我们袭来。”

带宽的作用与容量直接相关,容量大而带宽窄,就会影响GPU性能。目前,HBM最高容量型号是三星在今年2月推出的HBM3E 12H,堆栈数达到了12层。

最近,三星电子在内存芯片部门内成立高带宽内存(HBM)团队,以提高产量。这是三星继今年1月成立HBM特别工作组后,建立的第二个HBM专门团队。2019年,三星电子误判HBM的市场前景,故而解散当时该公司的HBM团队。

现在,三星电子决心改正这个错误,对现在成立的HBM团队寄予厚望:抢占在HBM领域的领导地位。

由ChatGPT和Sora带来的GenAI应用需求正在改变世界。

这刺激了AI PC、AI服务器、AI手机和AI处理器的巨大需求。这些处理器中的大多数(包括AMD和英伟达的计算GPU、英特尔的Gaudi、AWS的Inferentia和Trainium等专用处理器及FPGA)都使用了HBM,因为HBM提供了当前最高的内存带宽。

与GDDR6/GDDR6X或LPDDR5/LPDDR5X相比,HBM在带宽需求大的应用程序中如此受欢迎的原因,在于HBM每个堆栈的速度高达1.2 TB/s,这是任何商业内存都达不到的带宽速度。

但如此优异的表现,代价就是成本过高,技术难度过大。HBM现在实际上是先进封装的结果,这限制了供应并增加了成本。

用于HBM的DRAM设备,与用于商用内存(如DDR4和DDR5)的典型DRAM IC完全不同。内存生产商必须制造8或12个DRAM设备并完成测试;之后,将之封装在预先测试的高速逻辑层之上,接着再测试整个封装。这个过程,既昂贵又漫长。

用于HBM的DRAM设备,必须具有宽接口,因此其物理尺寸更大,故而比常规DRAM IC更昂贵。

正因为如此,所以要满足AI服务器的需求,同步增加HBM内存产量,将影响所有DRAM类型的供应规模。

从物理结构看,HBM成品是将很多个DDR芯片堆叠起来,再和GPU封装在一起,实现大容量、高位宽的DDR组合阵列。

HBM在AI加速卡的物理结构中,处于左右两侧,由DDR颗粒堆叠而成,中间是GPU。

由于HBM的成本制约,故而给了DDR、GDDR和LPDDR等类型的商业内存一线生机。这些品类也被用于对高带宽有需求的应用,像AI、HPC、图形和工作站。美光科技曾对外表示,那些在容量和带宽方面有优化的商业内存的技术开发正在加速推进,因为AI硬件开发公司对之有明确需求。

美光计算和网络业务部高级经理Krishna Yalamanchi对HBM的看法看似多余。

“HBM非常有应用前景,市场未来增长潜力巨大。”Yalamanchi说,“目前,对HBM的应用主要集中在AI、HPC(高性能计算)等需要高带宽、高密度和低功耗的领域。随着越来越多的处理器和平台采用HBM,该市场预计将快速增长。”

这在当下,这样的看法并不有何新奇。但是这实际上代表了美光的看法,而美光是如假包换的行业巨头,虽然排名在三星和海力士之后。

据Gartner预测,对HBM的需求预计将从2022年的1.23亿GB,激增至2027年的9.72亿GB。这意味着HBM需求预计将从2022年占DRAM整体的0.5%,增加到2027年的1.6%。

如此规模的增长,主要是因为标准AI和生成AI应用中对HBM的需求在持续加速升级。

Gartner分析师认为,HBM的整体市场规模将从2022年的11亿美元增至2027年的52亿美元,HBM价格相对2022年的水平也将下降40%。

由于技术进步和GenAI的应用需求不断膨胀,HBM堆栈的密度也将随之增加:从2022年的16 GB增加到2027年的48GB。

据美光预计,2026年能推出64GB HBM Next(HBM4,第六代)堆栈。HBM3(第四代)和HBM4规范允许构建16-Hi堆栈,因此可以使用16个32GB器件构建64GB HBM模块。

HBM如此难做而如此昂贵,故而在ChatGPT问世之前,就连巨头公司也出现了需求误判。

三星电子,目前在HBM领域市占率位居第二,落后于SK海力士。这或许与三星电子在2019年误判HBM技术需求前景有关。那年,三星电子“竟然”解散了其HBM业务和技术团队。

为了把同属韩国的“友商”SK海力士拉下马,称霸HBM市场,三星电子于今年1月和3月先后成立两个HBM团队,部分成员来自设备解决方案部门,主要负责DRAM和NAND闪存的开发和销售;领导人是三星执行副总裁兼DRAM产品和技术主管Hwang Sang-joon。

为了赶上并超越SK海力士,三星HBM团队计划于今年下半年量产HBM3E,并于2025年生产后续型号HBM4。

值得注意的是,4月1日,三星电子DS部门负责人庆桂显宣布,为提升在AI领域的竞争力,公司内部实施了双轨AI半导体战略,专注研发AI用存储芯片和AI算力芯片的发展。HwangSang-joon领导的HBM团队,将同时加速AI推理芯片Mach-2的开发进程。

庆桂显指出,市场对AI推理芯片Mach-1的需求日益增长,部分客户已表达了使用Mach系列芯片处理超过1000B参数的大型模型推理的需求。这一趋势促使三星电子加快下一代Mach-2芯片的研发步伐,以满足市场对高效能AI芯片的迫切需求。

Mach-1目前正在开发中,预计今年年内将推出原型产品。这款芯片采用SoC(片上系统)形式,用于AI推理加速,可减少GPU与HBM的瓶颈。

Mach-1是一种高能效AI推理芯片。三星电子计划于2024年末、2025年初投入应用,韩国IT巨头Naver考虑大批量购入,交易金额有望达1万亿韩元(约合7.41亿美元)。

HBM3E是HBM3的扩展版本,内存容量144GB,提供每秒1.5TB的带宽,相当于1秒能处理230部5GB大小的全高清电影。作为一种更快、更大的内存,HBM3E可加速生成式AI和大型语言模型,同时能推进HPC工作负载的科学计算。

2023年8月9日,黄仁勋发布GH200 Grace Hopper超级芯片,这是HBM3E的首次亮相。因此,GH200 Grace Hopper成为全球首款HBM3E GPU。

目前,HBM3E是AI应用中性能最佳的DRAM,技术代际为五代。HBM代际共分五代:首代为HBM,第二代是HBM2,HBM2E属于第三代,第四代则为HMB3。

据三星电子的半导体业务负责人Kyung Kye-hyun(池庆贤),想要HBM4的客户正在与之做联合开发定制,但他没有透露合作方是哪家公司。庆桂显则表示,多家客户有意与三星电子合作开发定制版的下一代HBM4(第六代际)内存。

3月26日,在加利福尼亚州圣何塞举行的全球芯片制造商聚会Memcon 2024上,三星电子预计,该公司今年的HBM存储器产量将比2023年的产量增加2.9倍。

风险提示及免责条款
市场有风险,投资需谨慎。本文不构成个人投资建议,也未考虑到个别用户特殊的投资目标、财务状况或需要。用户应考虑本文中的任何意见、观点或结论是否符合其特定状况。据此投资,责任自负。