计算机行业:DEEPSEEK~V3发布,技术创新和商业化落地的共振
计算机 / 行业专题报告 / 2024.12.28 请阅读最后一页的重要声明! DeepSeek-V3 发布,技术创新和商业化落地的共振 证券研究报告 投资评级:看好(维持) 最近 12 月市场表现 分析师 杨烨 SAC 证书编号:S0160522050001 yangye01@ctsec.com 相关报告 1. 《OpenAI 12 天直播带来的几点产业思考》 2024-12-23 2. 《AI 眼镜或将成为下一代终端》 2024-12-22 3. 《智驾月报:车市延续景气,FSDv13开始测试》 2024-12-20 核心观点 ❖ DeepSeek-V3 正式发布,性能对齐海外头部模型:12 月 26 日,深度求索 DeepSeek 发布了其 DeepSeek-V3 模型。该模型是一款强大的混合专家(MoE)语言模型,拥有 671B 参数,激活 37B,在 14.8T token 上进行了预训练。在多种任务中表现卓越,训练高效且成本效益显著。DeepSeek-V3 在多项基准测试中表现优异,比肩世界顶级模型。 ❖ 国内头部自研开源模型,创新引入训练新策略: DeepSeek-V3 的基础架构仍在 Transformer 架构内,同时采用了多头潜在注意力 (MLA)和DeepSeekMOE(DeepSeek 混合专家)机制,以实现更高效推理和更具经济性价比的训练。DeepSeek-V3 本次创新在于额外引入了无辅助损失的负载均衡策略(auxiliary-loss-free load balancing strategy)和多 token 预测策略(MTP),两者对模型训练过程进行了创新性的优化。在 DeepSeek-V3 后训练过程中,DeepSeek 结合了监督微调(SFT)和强化学习(RL),使得模型可以更好的与人类偏好对齐,增强其泛化能力,并更好地处理未见过的数据和任务。 ❖ 完整训练仅需 278.8 万 H800GPU 小时,高性价比追求普惠 AGI: DeepSeek-V3 的完整训练仅需 278.8 万 H800GPU 小时,包含预训练、上下文长度扩展和后训练。同时,DeepSeek-V3 采用了 FP8 混合精度训练框架,这是首次在超大规模模型上验证 FP8 训练的可行性和有效性。综合评估表明,DeepSeek-V3 是目前最强的开源模型,性能可与闭源模型如 GPT-4o-0513 和Claude-3.5-Sonnet-1022 相媲美。另外,随着性能更强、速度更快的 DeepSeek-V3 更新上线,DeepSeek-V3 模型 API 服务定价也将调整为每百万输入 tokens 0.5 元(缓存命中)/ 2 元(缓存未命中),每百万输出 tokens 8 元,是当前模型性能/价格比最优的模型服务。 ❖ 风险提示:技术迭代不及预期的风险;商业化落地不及预期的风险;政策支 持不及预期风险;全球宏观经济风险。 -32%-21%-10%2%13%25%计算机沪深300上证指数 谨请参阅尾页重要声明及财通证券股票和行业评级标准 2 行业专题报告/证券研究报告 1 DeepSeek-V3 正式发布,性能对齐海外头部模型 ............................................................................... 3 2 国内头部自研开源模型,创新引入训练新策略 ................................................................................... 4 2.1 引入无辅助损失的负载均衡策略,提高模型性能 .......................................................................... 4 2.2 设立多 token 预测训练目标 MTP,增加训练信号的密度 ............................................................. 5 2.3 结合监督微调和强化学习后训练,性能比肩领先闭源模型 .......................................................... 6 2.3.1 SFT 和 RL 帮助模型调整生成策略,新任务适应能力提升 .......................................................... 6 2.3.2 SFT 和 RL 的结合,显著提升多个基准测试性能 .......................................................................... 8 3 完整训练仅需 278.8 万 H800GPU 小时,高性价比追求普惠 AGI .................................................... 8 4 风险提示 ................................................................................................................................................... 9 图 1. DeepSeek 发布 DeepSeek-V3 模型 ....................................................................................................... 3 图 2. DeepSeek-V3 及其同类产品的基准性能比较 ...................................................................................... 3 图 3. DeepSeek-V3 的基本架构 ...................................................................................................................... 4 图 4. 无辅助损失的平衡策略的消融结果 ..................................................................................................... 5 图 5. 多 token 预测(MTP)策略的消融结果 ............................................................................................ 6 图 6. DeepSeek-V3 展示解题时的 CoT ..
[财通证券]:计算机行业:DEEPSEEK~V3发布,技术创新和商业化落地的共振,点击即可下载。报告格式为PDF,大小2.1M,页数11页,欢迎下载。