电子行业:AI应用侧深度渗透,驱动国产先进封装技术寻求突破
请务必仔细阅读本报告最后部分的免责声明 曙光在前 金元在先 -1- ⚫ DeepSeek 在算法层面实现三大突破——通过低秩键值压缩(MLA)将注意力计算内存占用降低 80%,动态稀疏 MoE 架构使每个 Token 仅激活 5.5%参数,以及 GRPO 强化学习框架驱动模型自主进化多步推理能力。千亿参数模型在通用任务上达到与密集模型相当的精度,同时降低 37%推理延迟。模型的高效运行仍依赖硬件层面的三重能力支撑:高并行计算、高存储带宽、超低延迟互连。 ⚫ 效率提升≠需求下降:本质上,算法优化并非削弱算力产业价值,而是通过重构需求结构打开更大市场空间——从集中式训练向分布式推理延展,从通用计算向场景专用架构升级,最终形成万亿级算力市场的多级增长引擎。"降本→普及→增量"的螺旋上升效应将推动 Post-training 微调算力激增、云端推理并发量指数增长、边缘侧长尾需求爆发带来总算力需求。 ⚫ 模型参数量、训练数据持续扩充,高性能算力芯需求仍高:单纯倚仗传统芯片设计与制造通过缩小 FET 尺寸去提高芯片性能的方式效率降低,且规模化边际减弱。更重要的是,对于不同场景化需求不同,高带宽,低延迟,高能效比有更高要求,系统级线宽/线距瓶颈限制了高速数据在芯片之间、芯片与外部存储器之间高效传输,严重制约了 AI 芯片性能的充分释放。先进封装是“More Than Moore”(超越摩尔)时代的解决方案。 ⚫ 封装技术正逐步从 PCB 的层面,向芯片内部(即 IC 层面)转变:采用 2.5D和 3D 封装技术,不再依赖传统的 PCB 作为主连接平台,而是直接将多个 IC芯片通过转接板(interposer,如硅转接板、玻璃转接板等)进行集成。2.5D封装技术的核心在于 TSV、Interposer、RDL、Bumps,各大厂商基于这些组装以达到不同客户需求。据 YOLE 预测,2023 年全球先进封装营收约 378 亿美元,占半导体封装市场的 44%;2024 年增长至 425 亿美元,至 2029 年,先进封装营收有望增长至 695 亿美元,年复合增长率 11%,其中 2.5D/3D 封装渗透率最快。 ⚫ 投资建议:关注 2.5D/3D 封装技术核心前道设备厂商、基板材料及 OSAT 厂商。 ◼ 设备厂商:北方华创、拓荆科技、盛美上海、中微公司 ◼ 基板材料厂商:兴森科技 ◼ OSAT 厂:长电科技、通富微电 ⚫ 风险提示: 1、2.5D\3D 封装及其他先进封装难度较大,良率有待改善,或影响利润;2、前期设备投入及研发成本较高;3、AI 应用落地速度不及预期 行业指数相对沪深 300 表现 证券分析师:唐仁杰 执业证书编号:S0370524080002 公司邮箱:tangrj@jyzq.cn 联系电话:0755-83025184 电子行业 评级:增持(首次) 2025 年 2 月 27 日 AI 应用侧深度渗透,驱动国产先进封装技术寻求突破 行业深度研究 证券研究报告 2025 年 2 月 请务必仔细阅读本报告最后部分的免责声明 曙光在前 金元在先 -2- 一、DeepSeek 架构上的突破-算法层面解决算力效率问题 DeepSeek 从模型的输入处理阶段到计算阶段再到模型的输出阶段进行深层次优化,显著提升算力效率,使得其在训练阶段以及推理阶段在保持模型性能的同时,减少冗余计算,从而塑造出更高性价比模型。 传统 Transformer 模型的自注意力机制存在显著的计算瓶颈:处理 n 长度序列时需构建 n²规模的注意力矩阵,导致内存和计算复杂度均呈𝑂(𝑛2)增长。以 1024 长度序列为例,单头注意力矩阵即需 4MB 存储,叠加多头多层结构后硬件资源极易耗尽。在推理场景中,由于需实时逐 Token 生成文本,重复计算历史 Token 的键值数据会引发指数级资源消耗。 DeepSeek 通过引入 KV 缓存机制实现突破性优化:将历史 Token的键值向量存储复用,仅计算新 Token 的查询向量进行匹配。该策略使推理阶段复杂度从𝑂(𝑛2)降至𝑂(𝑛),大幅减少冗余计算。KV 缓存快速存取,以及更强的并行计算能力处理动态增长的序列数据,仍对高性能算力芯片吞吐量有一定要求。 2025 年 2 月 请务必仔细阅读本报告最后部分的免责声明 曙光在前 金元在先 -3- 图表 1: With KV cache VS without KV cache 数据来源:Transformers KV Caching Explained,金元证券研究所 DeepSeek V2 通过 Multi-Head Latent Attention(MLA)技术突破现有注意力机制瓶颈:传统多头注意力(MHA)需存储完整键值矩阵,导致 KV 缓存空间随序列长度线性膨胀。主流改进方案如MQA(多查询注意力)和 GQA(分组查询注意力)虽能降低缓存需求,但存在显著性能损失——MQA 缓存需求最小但精度最弱,GQA则在缓存与性能间折中。 MLA 创新性地引入低秩键值联合压缩:将原始高维键值矩阵映射至低秩潜在空间,仅需存储压缩后的潜在向量。该方法使 KV 缓存空间较 MHA 减少 90%以上(对标 GQA 水平),同时保持与 MHA相当的性能表现。 2025 年 2 月 请务必仔细阅读本报告最后部分的免责声明 曙光在前 金元在先 -4- 图表 2: MHA vs GQA vs MQA vs MLA 数据来源:DeepSeek V2 tech report ,金元证券研究所 DeepSeek-V3 的混合专家(MoE)架构实现超大规模高效计算 相较于传统 Dense 模型(如 Llama3),DeepSeek-V3 作为 6710 亿参数的 MoE 模型,通过动态稀疏计算突破算力瓶颈:每个 Token仅激活约 5.5%参数(37B/671B),在保持模型规模优势的同时显著降低计算负载: ⚫ 动态路由机制:通过门控网络为每个 Token 选择 1-2 个专家(小型前馈神经网络),替代传统 Transformer 中全参数参与的固定计算模式。 2025 年 2 月 请务必仔细阅读本报告最后部分的免责声明 曙光在前 金元在先 -5- ⚫ 稀疏计算流:仅被选中的专家执行正向传播,其余 90%以上参数处于静默状态。通过细粒度专家+共享专家的组合替换粗粒度的专家,形成更高细粒度的专家池。 训练效率方面: ⚫ 正向传播:单步计算量较 Dense 模型减少 40%-60%(与专家选择数量强相关) ⚫ 反向传播:梯度更新仅作用于被激活的专家及路由网络,参数更新量减少至全量模型的 10%以下 推理效率方面: ⚫ 算力需求解耦:推理延迟与激活参数量(而非总参数量)正相关,长文本处理效率提升 3-5 倍 ⚫ 硬件友好性:稀疏计算模式更适配支持动态路由的 AI 加速芯片 架构使模型在同等算力预算下,可扩展至 10 倍于 Dense 模型的参数量,为"规模决定性能"的大模型发展提供可持续路径。
[金元证券]:电子行业:AI应用侧深度渗透,驱动国产先进封装技术寻求突破,点击即可下载。报告格式为PDF,大小3.03M,页数36页,欢迎下载。
