计算机行业AI%2b专题系列点评(三十):DeepSeek开源周,重塑AI基础设施效率
证 券 研 究 报 告 证监会审核华创证券投资咨询业务资格批文号:证监许可(2009)1210 号 计算机 2025 年 03 月 02 日 AI+专题系列点评(三十) 推荐 (维持) DeepSeek 开源周,重塑 AI 基础设施效率 事项: ❑ 2025 年 2 月 24 日至 2025 年 2 月 28 日,DeepSeek 举行为期五天的“开源周”,连续开源五个软件库,旨在以完全透明的方式与全球开发者社区分享其在通用人工智能(AGI)领域的研究进展。五个软件库向业界展示了一套重塑 AI 基础设施效率的全景方案,涵盖底层加速解码、专家并行通信、核心矩阵运算、分布式训练的流水线优化、数据处理系统的构建,共同构筑了一个面向大规模AI 的高性能基石。 评论: ❑ 显存的“节流阀”:FlashMLA 是一种专为 NVIDIAHopper 架构 GPU 优化的高效注意力解码内核,旨在提升大规模语言模型(LLM)在推理阶段的性能,尤其在处理可变长度序列时表现突出。FlashMLA 能自行调配计算资源,通过动态资源分配优化显存使用,在 H800 集群上达到 3000GB/s 的内存限制性能和580TFLOPS 的计算限制性能,实现了 3 倍显存利用率提升。 ❑ 通信的“智能交通系统”:DeepEP 是首个用于 MoE(混合专家模型)训练和推理的开源 EP 通信库,它解决了 MoE 的通信瓶颈,支持优化的全对全通信模式,使数据能够在各个节点间高效传输。 ❑ 矩阵运算的“编译器”:DeepGEMM 作为矩阵乘法加速库,为 V3/R1 的训练和推理提供支持。DeepGEMM 采用了 DeepSeek-V3 中提出的细粒度 scaling 技术,将 FP8 引入 GEMM 内核,仅用 300 行代码就实现了简洁高效的 FP8 通用矩阵乘法。DeepGEMM 支持普通 GEMM 以及专家混合(MoE)分组 GEMM,在 HopperGPU 上最高可达到 1350+FP8TFLOPS(每秒万亿次浮点运算)的计算性能,在各种矩阵形状上的性能与专家调优的库相当,甚至在某些情况下更优,且安装时无需编译,通过轻量级 JIT 模块在运行时编译所有内核。 ❑ 并行训练的“指挥”:DualPipe 和 EPLB 旨在解决大模型分布式训练中的并行调度和负载均衡问题。DualPipe 是一种用于 V3/R1 训练中计算与通信重叠的双向管道并行算法,通过实现向前与向后计算通信阶段的双向重叠,将硬件资源利用率提升超 30%,减少资源浪费。EPLB 是一种针对 V3/R1 的专家并行负载均衡器。基于混合专家(MoE)架构,它通过冗余专家策略复制高负载专家,并结合启发式分配算法优化 GPU 间的负载分布,减少 GPU 闲置现象。 ❑ AI 专属的分布式文件系统:3FS 是一个专为 AI 训练和大数据处理设计的高性能并行分布式文件系统,能实现高速数据访问,提升 AI 模型训练和推理的效率。性能方面,3FS 在 180 节点集群中实现了 6.6TiB/s 的聚合读取吞吐量;在25 节点集群的 GraySort 基准测试中达到 3.66TiB/min 的吞吐量;每个客户端节点在 KVCache 查找时可达到 40+GiB/s 的峰值吞吐量。 ❑ 投资建议:Deepseek 代码公布助力应用端加速落地,建议关注以下标的:1)办公:金山办公、合合信息、福昕软件、迈富时;2)金融:京北方、宇信科技、天阳科技、神州信息、同花顺、恒生电子、新致软件;3)大模型:科大讯飞、三六零、第四范式;4)工业:中控技术、索辰科技、鼎捷数智;5)端侧/穿戴/玩具:萤石网络、云天励飞、中科创达、汉王科技;6)医疗:润达医疗、卫宁健康、晶泰控股;7)法律:金桥信息、华宇软件、通达海;8)邮箱:彩讯股份; 9)创意:万兴科技、美图公司、虹软科技;10)教育:佳发教育、欧玛软件、新开普;11)电商:焦点科技;12)ERP:金蝶国际、用友网络;13)OA:泛微网络、致远互联;14)安全:深信服、永信至诚;15)部署: 卓易信息、优刻得、 星环科技、网宿科技、汉得信息;16) 算力:海光信息、寒武纪、景嘉微等。 ❑ 风险提示:商业化后表现不及预期,用户付费意愿低,行业技术迭代速度较快。 证券分析师:吴鸣远 邮箱:wumingyuan@hcyjs.com 执业编号:S0360523040001 联系人:张宇凡 邮箱:zhangyufan1@hcyjs.com 行业基本数据 占比% 股票家数(只) 336 0.04 总市值(亿元) 47,487.62 4.81 流通市值(亿元) 40,636.02 5.17 相对指数表现 % 1M 6M 12M 绝对表现 15.9% 82.7% 45.7% 相对表现 14.0% 64.3% 32.9% 相关研究报告 《计算机行业周报(20250217-20250221):AI+军用:新时代智权争夺赛,重塑战场生态》 2025-02-23 《计算机行业重大事项点评:AI+央企:国资各行业商业落地提速》 2025-02-23 《AI+专题系列点评(二十九):DeepSeek 发布最新论文:大模型长文本推理革命》 2025-02-19 -28%-4%20%44%24/0324/0524/0724/1024/1225/022024-03-04~2025-02-28计算机沪深300华创证券研究所 AI+专题系列点评(三十) 证监会审核华创证券投资咨询业务资格批文号:证监许可(2009)1210 号 2 目 录 一、 FlashMLA:显存的“节流阀” .................................................................................... 4 二、 DeepEP:通信的"智能交通系统" ................................................................................. 5 三、 DeepGEMM:矩阵运算的“编译器” ......................................................................... 7 四、 DualPipe 和 EPLB:并行训练的“指挥” ................................................................... 9 五、 3FS:AI 专属的分布式文件系统 ................................................................................. 11 AI+专题系列点评(三十) 证监会审核华创证券投资咨询业务资格批文号:证监许可(2009)1210 号 3 图表目录 图表 1 DeepSeek 开源 FlashMLA ......................
[华创证券]:计算机行业AI%2b专题系列点评(三十):DeepSeek开源周,重塑AI基础设施效率,点击即可下载。报告格式为PDF,大小2.19M,页数15页,欢迎下载。
