科技行业动态点评:DeepSeek NSA,算法创新或加速训练与CUDA解耦
免责声明和披露以及分析师声明是报告的一部分,请务必一起阅读。 1 证券研究报告 科技 DeepSeek NSA:算法创新或加速训练与 CUDA 解耦 华泰研究 计算机 增持 (维持) 计算机应用 增持 (维持) 研究员 谢春生 SAC No. S0570519080006 SFC No. BQZ938 xiechunsheng@htsc.com +(86) 21 2987 2036 研究员 袁泽世,PhD SAC No. S0570524090001 yuanzeshi@htsc.com +(86) 21 2897 2228 行业走势图 资料来源:Wind,华泰研究 2025 年 2 月 20 日│中国内地 动态点评 DeepSeek 发布论文 NSA(原生稀疏注意力,Native Sparse Attention),继续在 Transformer 架构的重要环节——Attention 进行优化,不仅在效果上和传统的 Full Attention 可比/领先,而且在解码、前向/后向传播上有 6-12x 的速度提升。结合 xAI 发布的 Grok-3 来看,目前海外和国内在大模型迭代思路上采取的是不同的思想,海外虽也引入 MoE 路线降低训练成本,但总体仍以充足的算力优势,追求 Top 1 的极致模型性能;而国内则在算法和硬件上极致优化,重点以有限的算力搏得更高的性能,追求推理效率。我们认为,两者并不冲突,而是共同从训练和推理两方面带动算力整体需求的提升。 NSA:继续优化 Transformer Attention,通过稀疏 KV 的方式提升效率 与 DeepSeek V2/V3 用 MLA(Multi-head Latent Attention)优化方向类似,NSA 依然是在优化 Attention 上下功夫,以减少 Attention 的复杂度。区别在于,MLA 是把 KV Cache 进行压缩,NSA 是把 KV 进行了“三层级”划分,并从中有选择性的舍弃掉一部分,达到“稀疏”效果,提高效率。1)粗层级:做大规模压缩,例如 8 个 KV 压成 1 个;2)细层级:从粗层级中找到重要的部分,再细粒度的选择重要的 KV,丢掉不重要的 KV;3)小窗口层级:通过滑窗的形式,聚焦当下的局部上下文 KV 信息。这“三层级”算法融合后输出,得到最终的 Attention 结果。 软件优化叠加硬件优化,两手都要硬 NSA 不仅优化软件算法,还优化了硬件 Kernel,以配合 NSA 的稀疏Attention,实现更高效的软硬件编排。具体 Kernel 的优化方法是,按照分组注意力 GQA(Grouped Query Attention),从 HBM 中加载 Q(uery)到SRAM 中,并在 SRAM 中计算 Q(uery)K(ey)V(alue)注意力,然后将结果放回到 HBM 中。结合 DeepSeek-V3 来看,V3 同样进行了计算通信重叠、内存占用等硬件优化,我们认为,未来国内对于 LLM 优化的相当一部分重点将在于硬件编排优化,本质是提高硬件的 MFU(model FLOPS utilization)。 海外靠大算力突破边界,国内靠细优化提升效率 结合 xAI 发布的 Grok-3,xAI 已经将 10 万卡集群扩展到 20 万,确实带来了当下全球最领先的预训练/推理模型性能。对比 xAI 和 DeepSeek,10 万卡 vs 万卡,Grok-3 相比 R1 在某些测评集上提高了 20%左右效果,是否有性价比?我们认为,这并不冲突。1)海外要的是技术路径领先和商业化闭源,只有靠堆算力才能试错,才能突破边界,才能保持领先。2)国内要的是在已知路径上实现最优解,用有限的卡实现更高的效率,“精耕细作”的软硬件优化是必修课。我们认为,这是国内外路径的选择问题,而整体看,训练/推理算力都是较为确定的增量。 DeepSeek 有望加速模型训练与 CUDA 解耦 DeepSeek 在 V3 中使用了相比 CUDA 更底层的 PTX 来优化硬件算法,PTX是 CUDA 编译的中间代码,在 CUDA 和最终机器码之间起到桥梁作用。而 NSA 则使用了 OpenAl 提出的 Triton 编程语言高效编写 GPU 代码,Triton 的底层可调用 CUDA,也可调用其他 GPU 语言,包括 AMD 的 rocm 以及国产算力芯片语言,如寒武纪的思元 590 芯片和海光信息的深算一号(DCU)内置的 HYGON ISA 指令集。LLM 的训练短期内虽未完全脱离 CUDA 生态,但 DeepSeek NSA 的推出使其初步呈现出与 CUDA 解耦的趋势,并为后续适配更多类型的算力芯片奠定基础。以异腾为代表的国产算力已经很好的适配了 DeepSeek-R1 等国产模型,并取得了高效推理的效果。我们认为,伴随海外算力的受限,针对国产算力的优化或将有持续进展,值得重视。 风险提示:AI 技术迭代不及预期,AI 商业化落地不及预期。 (20)0204060Feb-24Jun-24Oct-24Feb-25(%)计算机计算机应用沪深300 免责声明和披露以及分析师声明是报告的一部分,请务必一起阅读。 2 科技 图表1: NSA 相比 Full Attention,效果和效率均有提升 资料来源:《Native Sparse Attention: Hardware-Aligned and Natively Trainable Sparse Attention》、华泰研究 图表2: NSA 相比 Full Attention 的通用基准测试结果 资料来源:《Native Sparse Attention: Hardware-Aligned and Natively Trainable Sparse Attention》、华泰研究 图表3: NSA LongBench 基准测试结果 资料来源:《Native Sparse Attention: Hardware-Aligned and Natively Trainable Sparse Attention》、华泰研究 图表4: NSA 相比 Full Attention 思维链推理评估结果 资料来源:《Native Sparse Attention: Hardware-Aligned and Natively Trainable Sparse Attention》、华泰研究 免责声明和披露以及分析师声明是报告的一部分,请务必一起阅读。 3 科技 图表5: NSA 相比 Full Attention 解码速度对比 资料来源:《Native Sparse Attention: Hardware-Aligned and Natively Trainable Sparse Attention》、华泰研究 图表6: NSA 采取的“三层级”Attention 优化 资料来源:《Native Sparse Attention: Hardware-Aligne
[华泰证券]:科技行业动态点评:DeepSeek NSA,算法创新或加速训练与CUDA解耦,点击即可下载。报告格式为PDF,大小1.21M,页数7页,欢迎下载。
