DeepSeek-R1Kimi1.5及类强推理模型开发解读

DeepSeek-R1 \ Kimi 1.5 及类强推理模型开发解读北大对齐小组陈博远北京大学2022级“通班”主要研究方向:大语言模型对齐与可扩展监督https://cby-pku.github.io/https://pair-lab.com/2Outline➢ DeepSeek-R1 开创RL加持下强推理慢思考范式新边界➢ DeepSeek-R1 Zero 及 R1 技术剖析➢ Pipeline 总览 \ DeepSeek-V3 Base \ DeepSeek-R1 Zero 及 R1 细节分析➢ RL 算法的创新:GRPO及其技术细节➢ DeepSeek-R1 背后的Insights & Takeaways:RL加持下的长度泛化 \ 推理范式的涌现➢ DeepSeek-R1 社会及经济效益➢ 技术对比探讨➢ STaR-based Methods vs. RL-based Methods 强推理路径对比 (DS-R1 \ Kimi-1.5 \ o-series) ➢ 蒸馏 vs. 强化学习驱动:国内外现有各家技术路线对比分析及Takeaways ➢ PRM & MCTS 的作用➢ 从文本模态到多模态➢ 其他讨论:Over-Thinking 过度思考等➢ 未来方向分析探讨➢ 模态穿透赋能推理边界拓展:Align-DS-V➢ 合成数据及Test-Time Scaling: 突破数据再生产陷阱➢ 强推理下的安全:形式化验证 Formal Verification \ 审计对齐 Deliberative Alignment➢ 补充拓展:DeepSeek-V3 解读3DeepSeek-R1 开创RL加持下强推理慢思考范式新边界➢ OpenAI o1 开启后训练 Post-Training 时代下的RL新范式:后训练扩展律 Post-Training Scaling Law➢ DS-R1 独立发现了一些通往o1路上的核心理念,并且效果还好到受到了OpenAI 的认可➢ 如何通过有效的 Test-Time Scaling 和 Train-Time Scaling 提升模型的推理能力?➢ 得益于纯大规模强化学习,DeepSeek-R1 具备强大推理能力与长文本思考能力,继开源来备受关注。➢ DeepSeek R1-Zero 和 R1的出现再次证明了强化学习的潜力所在:➢ R1-Zero 从基础模型开始构建,完全依赖强化学习,而不使用人类专家标注的监督微调(SFT);➢ 随着训练步骤增加,模型逐渐展现出长文本推理及长链推理能力;➢ 随着推理路径增长,模型表现出自我修复和启发式搜索的能力;4DeepSeek-R1 开创RL加持下强推理慢思考范式新边界➢ 得益于强大的推理能力与长文本思考能力,DeepSeek R1在复杂任务上表现卓越,成为开源领域的又一里程碑,标志着开源社区在与闭源大模型(如 OpenAI o1 系列)的竞争中迈出了关键性一步。➢ DeepSeek-R1 在数学代码任务上表现突出➢ Deepseek R1在AIME2024上获得了79.8%的成绩,略高于OpenAI-o1-1217。在MATH-500上,获得97.3%的惊人成绩,表现与OpenAI-o1-1217相当。➢ 在编码相关的任务中表现出专家水平,在Codeforces上获得了2029 Elo评级,在竞赛中表现优于96.3%的人类参与者➢ DeepSeek-R1 在知识类问答上推动科学探索边界:➢ MMLU \ MMLU-Pro \ GPQA Diamond 等 STEM-related 榜单上取得良好表现➢ R1 展现出强推理模型在 AI-Driven Research 的潜力➢ 在长文本依赖任务如 FRAMEs 和 事实性推断任务 Simple-QA上表现突出5回顾:Pre-Training Scaling Law➢ Pre-Training Scaling Laws: 预训练模型上广泛观察到的现象,协调了计算量C、模型参数量N和数据大小D之间的关系6回顾:Post-Training Scaling Law➢ Post-Training 阶段,随着训练时计算量(来自RL的Training阶段)和 Test-Time 计算量(例如Test-Time Search)的增长,模型性能(例如数学推理能力)也会随之提升➢ Post-Training Scaling Laws 下 训练时计算量 多了一个新的变量:Self-Play 探索时 LLM Inference 的计算量[1] https://openai.com/index/learning-to-reason-with-llms/7回顾:Post-Training Scaling Law为什么我们需要后训练 Scaling-Law ?➢ 随着模型尺寸逐渐增大,预训练阶段参数 Scaling Up 带来的边际收益开始递减;如果想要深度提升模型推理能力和长程问题能力,基于RL的 Post-Training 将会成为下一个突破点。➢ 自回归模型在数学推理问题上很难进步的一点在于没有办法进行回答的自主修正,如果仅是依靠生成式方法和扩大参数规模,那么在数学推理任务上带来的收益不会太大。所以需要寻找额外的 Scaling Laws [1]。[1] Training Verifiers to Solve Math Word Problems https://arxiv.org/pdf/2110.14168[2] Scaling LLM Test-Time Compute Optimally can be More Effective than Scaling Model Parameters8DeepSeek-R1 技术剖析:DeepSeek-R1 Zero DeepSeek-R1 Zero: 无需监督微调SFT,纯强化学习驱动的强推理模型DeepSeek-v3-Base(671B)DeepSeek-R1-Zero基于规则的奖励 Rule-Based Reward推理为中心的大规模强化学习Large-Scale Reasoning-Oriented RL大规模推理为中心的强化学习,提升模型数学代码能力RL驱动下自然涌现长文本推理能力9DeepSeek-R1 技术剖析:DeepSeek-R1 Zero DeepSeek-R1 Zero: 无需监督微调SFT,纯强化学习驱动的强推理模型➢ 奖励建模:基于规则的奖励 (Rule-Based Reward) : 准确率奖励 + 格式奖励➢ 准确率奖励 Accuracy Rewards: 判断答案是否是正确的➢ 格式奖励Format Rewards: 规劝模型生成答案的过程是 <think> 和 </think> ➢ 没有使用Reward Model, 因为ORM和PRM等基于神经网络的都可能遭受reward hacking而retraining reward model 需要大量的计算资源,可能会复杂化整个流程 ➢ 训练模板:选择最简单的 Thinking Process,直接观察到最直接的RL过程下的表现基于规则的奖励 (Rule-Based Re

立即下载
信息科技
2025-03-05
北京大学
陈博远
76页
9.02M
收藏
分享

[北京大学]:DeepSeek-R1Kimi1.5及类强推理模型开发解读,点击即可下载。报告格式为PDF,大小9.02M,页数76页,欢迎下载。

本报告共76页,只提供前10页预览,清晰完整版报告请下载后查看,喜欢就下载吧!
立即下载
本报告共76页,只提供前10页预览,清晰完整版报告请下载后查看,喜欢就下载吧!
立即下载
水滴研报所有报告均是客户上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作商用。
相关图表
费城半导体指数(截至 2.28) 图10:台湾半导体指数(截至 2.28)
信息科技
2025-03-05
来源:电子行业研究周报:英伟达发布季报,存储供需有望好转
查看原文
万得半导体概念指数上周(2.24-2.28)涨跌幅 图8:万得半导体概念指数年初至今(1.1-2.28)涨跌幅
信息科技
2025-03-05
来源:电子行业研究周报:英伟达发布季报,存储供需有望好转
查看原文
电子子行业本月(2.1-2.28)涨跌幅 图6:电子子行业年初至今(1.1-2.28)涨跌幅
信息科技
2025-03-05
来源:电子行业研究周报:英伟达发布季报,存储供需有望好转
查看原文
电子子行业上周(2.24-2.28)涨跌幅
信息科技
2025-03-05
来源:电子行业研究周报:英伟达发布季报,存储供需有望好转
查看原文
申万一级行业年初至今(1.1-2.28)涨跌幅
信息科技
2025-03-05
来源:电子行业研究周报:英伟达发布季报,存储供需有望好转
查看原文
申万一级行业本月以来(2.1-2.28)涨跌幅
信息科技
2025-03-05
来源:电子行业研究周报:英伟达发布季报,存储供需有望好转
查看原文
回顶部
报告群
公众号
小程序
在线客服
收起