电子行业深度报告:HBM,训练侧/推理侧需求的共同焦点-突破存算协同范式下的“存储墙”困境

—— HBM,训练侧/推理侧需求的共同焦点突破存算协同范式下的“存储墙“困境证券分析师:唐仁杰 S0370524080002证券研究报告电子/行业深度报告2025年3月26日行业评级:增持摘要•AI算力倍增背景下,“算力墙”日益凸显。在AI训练和推理中,大量矩阵计算需快速内存访问。当内存无法跟上计算速度时,GPU利用率下降,系统性能无法线性随算力提升。内存带宽不足已成为AI领域亟待解决的关键瓶颈•HBM(High Bandwidth Memory)采用3D堆叠DRAM和宽总线并行访问设计,相较于传统平面DRAM、GDDR有着高带宽、低功耗、小封装/集成体积的特点•堆栈层数定容量,引脚数量、数据传输速率定带宽。从HBM1至HBM3e,单堆栈堆叠层数由最高8层至16层,单DRAM容量上限由16Gb(2GB)至32Gb(4Gb),单颗HBM芯片容量由16GB扩展至64GB。相比于容量扩充,存储带宽上限由于总IO数量扩充至1024,单PIN数据船速速率由1Gbps提升至最高9.6Gbps,单颗HBM存储带宽上限提升至1.2TB/s•HBM制造核心工艺涉及TSV、微凸点的垂直互连,TSV工艺约占堆叠封装成本的37%。TSV达到通孔高深宽比理论极限,需通过DRIE+BOSCH工艺以形成垂直通孔;镀铜前,需沉积绝缘层及扩散阻挡层,等离子体增强化学气相沉积(PECVD)+正硅酸乙酯气体(TEOS)+硅烷(SiH4)在AR过高(如15:1)时侧壁薄膜变薄或中断,因此业界探索使用原子层沉积 (ALD) 来获得更佳的膜覆盖。但ALD的缺陷在于沉积速率慢,设备及材料成本较高。刻蚀完成TSV通孔后,需要进行金属填充以形成垂直导通。目前高性能HBM应用多采用电化学镀铜(ECP)填充TSV。最终,需要通过化学机械平坦化抛光(CMP)去除多余铜并露出TSV铜柱顶面,使其与表面平齐。CMP工艺要精确控制露铜 (dishing)程度•键合工艺实现多层堆叠,成本敏感度较高;传统回流焊+毛细底填充工艺在随着HBM堆叠层数增加和凸点间距减小(芯片间隙可低至20µm),毛细流动变得困难,容易残留空隙导致应力集中。TCP+NCF通过预先涂布底填充材料来进行键合,由于助焊剂底部清洗难度较大,业界开发出fluxless(无助焊剂)工艺。但热压键合工艺效率较低,无法批量操作。液态模塑底填充使用低粘度、高渗透性的树脂以保证在窄间隙中无死角充填,并且可批量,效率较高或成为主流。混合键合仍处于初步阶段,但高I/O优势显著。D2W方式可以在裸芯良率较低背景下提高封装良率,但效率较低;未来可能出现DRAM层间采用MR-MUF键合工艺,而通过D2W或W2W与基底逻辑Die键合的组合键合方式•HBM市场现状及市场规模:根据TrendForce数据,从HBM供应市场角度,SK海力士、三星、美光独占HBM市场,且SK海力士、三星的集中度较高,且相关设备国产化率较低。IDTechEX预测,高性能计算(HPC)硬件市场2025-2035期间将保持13.6%的年化增长率,市场规模将超5810亿美元。其中,95%的HPC将使用HBM技术以满足性能需求,HBM单位销售额预计至2035年,将较2024年增长15倍•相关公司:拓荆科技(688072.SH):薄膜沉积设备+混合键合、盛美上海 (688082.SH):电镀设备达到国际水平、华海清科(688120.SH):磨削、CMP及清洗一体化•风险提示:HBM工艺复杂,涉及产业链设备及产业链仍以海外企业为主,地缘影响较大;AI产业链发展不及预期,对高性能存储需求下降。目录一、“存储墙” - 在算力倍升背景下,存储带宽成为“阿姆达尔短板”二、HBM:高带宽/高集成密度内存的核心优势三、HBM核心要素:垂直互连-TSV及微凸点、UBM工艺四、键合工艺:实现多层堆叠,多种键合工艺及混合键合风险提示:HBM工艺复杂,涉及产业链设备及产业链仍以海外企业为主,地缘影响较大;AI产业链发展不及预期,对高性能存储需求下降五、HBM现阶段市场规模及工艺趋势六、相关公司“存储墙” - 在算力倍升背景下,存储带宽成为“阿姆达尔短板”•冯·诺依曼架构下,存储器带宽、容量成为了硬件算力效率的“阿姆达尔短板”,处理器性能提升被内存传输速率所制约,内存带宽年增速仅约15%。随着GPU/AI加速器算力猛增,内存无法及时“喂饱”计算单元,导致性能受限。在AI训练和推理中,大量矩阵计算需快速内存访问。当内存无法跟上计算速度时,GPU利用率下降,系统性能无法线性随算力提升。内存带宽不足已成为AI领域亟待解决的关键瓶颈。图:峰值算力 2 年增长 3 倍,而存储带宽及互连带宽仅增长 1.6、1.4 倍 数据来源:《AI and Memory Wall》,金元证券研究所 图:A100 存储架构与 CPU 类似,均配备私有缓存、共享缓存(HBM) 数据来源: NVIDIA,金元证券研究所 “存储墙”对AI训练/推理的影响•大模型受制于内存容量:百亿/万亿级参数模型训练和推理需要数百GB到数TB内存。当前GPU搭载的高带宽显存容量增长有限,很多模型无法全部加载到单卡内存,不得不拆分到多卡,增加通信开销。•带宽瓶颈限制Inference性能:即使GPU峰值算力很高,但若内存带宽不足,实际性能大打折扣。经典屋顶檐模型(Roofline Model)详细阐述了“存储墙”及“算力墙”。Facebook研究人员在PaLM论文中引入了模型FLOPs利用率(MFU)来衡量训练中算力的饱和程度,但对于推理,更相关的指标是模型带宽利用率(MBU)。MBU定义为实际消耗的内存带宽除以硬件峰值带宽。在纯memory-bound情况下,MBU接近100%,此时进一步增加算力无济于事,只有提高带宽或减少数据量才能加速。很多大模型推理场景下MBU都很高,而MFU偏低。例如Llama-2 70B在批量1时GPU计算利用较低,但HBM带宽几乎被吃满。工程上会采用批处理等手段提高每次计算处理的token数,从而用额外吞吐换取更高效率。但在极端情况下(如单用户长文本生成),序列步骤无法并行,此时很难摆脱带宽瓶颈。Databricks实测H100集群相比A100在相同模型上Batch Size 1 延迟降低36%,在Batch Size 16延迟降低52%,但简单“堆砌算力”(增加更多卡)效果并不显著。图:MBU、MFU 的 Roofline 模型 图:4x、8x 系统并不会显著降低延迟,但带宽增大延迟降低明显 数据来源:Databricks、金元证券研究所 HBM:高带宽/高集成密度内存的核心优势•高带宽:HBM(High Bandwidth Memory)采用3D堆叠DRAM和宽总线并行访问设计,每颗HBM堆叠存储器拥有1024-bit总线,相比传统DDR/GDDR显存带宽大幅提升。例如HBM2提供>256GB/s带宽,HBM3可达819GB/s以上•低功耗:HBM通过降低工作频率、提高总线并行度,实现更高能效。每比特传输能耗显著低于GDDR等显存(约降低30-50%)。这意味着在提供同等带宽下,HBM耗电更少,有利于控制高性能芯片的功耗和发热•集成密度提升:HBM采用硅中介层(Int

立即下载
信息科技
2025-03-31
金元证券
唐仁杰
36页
4.28M
收藏
分享

[金元证券]:电子行业深度报告:HBM,训练侧/推理侧需求的共同焦点-突破存算协同范式下的“存储墙”困境,点击即可下载。报告格式为PDF,大小4.28M,页数36页,欢迎下载。

本报告共36页,只提供前10页预览,清晰完整版报告请下载后查看,喜欢就下载吧!
立即下载
本报告共36页,只提供前10页预览,清晰完整版报告请下载后查看,喜欢就下载吧!
立即下载
水滴研报所有报告均是客户上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作商用。
相关图表
中国台湾加权指数和中国台湾电子行业指数对比
信息科技
2025-03-31
来源:消费电子行业研究周报:苹果官宣WWDC时间,看好折叠屏创新及供应链
查看原文
道琼斯工业平均指数和纳斯达克综合指数对比
信息科技
2025-03-31
来源:消费电子行业研究周报:苹果官宣WWDC时间,看好折叠屏创新及供应链
查看原文
中国大陆液晶面板厂商将利用 8.5 代线和 10.5 代线工厂生产超大尺寸电视面板
信息科技
2025-03-31
来源:消费电子行业研究周报:苹果官宣WWDC时间,看好折叠屏创新及供应链
查看原文
中国大陆液晶面板厂商新增三种套切生产方式示意图
信息科技
2025-03-31
来源:消费电子行业研究周报:苹果官宣WWDC时间,看好折叠屏创新及供应链
查看原文
京东方(BOE)采用新的电视面板 MMG 套切方法示意图
信息科技
2025-03-31
来源:消费电子行业研究周报:苹果官宣WWDC时间,看好折叠屏创新及供应链
查看原文
ios19 系统图
信息科技
2025-03-31
来源:消费电子行业研究周报:苹果官宣WWDC时间,看好折叠屏创新及供应链
查看原文
回顶部
报告群
公众号
小程序
在线客服
收起