计算机行业:s1和LIMO带来的产业启示
请阅读最后一页的重要声明! s1 和 LIMO 带来的产业启示 证券研究报告 投资评级:看好(维持) 最近 12 月市场表现 分析师 杨烨 SAC 证书编号:S0160522050001 yangye01@ctsec.com 相关报告 1. 《AI 编程对软件行业意味着什么?》 2025-02-04 2. 《Kimi 发布多模态思考模型 k1.5,对标 OpenAI o1》 2025-01-26 3. 《豆包大模型更新至 1.5-pro,更真实、更懂你 》 2025-01-24 核心观点 ❖ s1-32B 模型:知识蒸馏技术实现小样本高性价比训练:TechCrunch 于 2月 5 日报道,斯坦福大学与华盛顿大学联合研究团队在李飞飞的带领下,成功以低于 50 美元的训练成本开发出高性能 AI 推理模型 s1-32B。该模型在数学推理和编程能力测试中展现出与 OpenAI 的 o1 模型及 DeepSeek 的 R1 模型相匹敌的优异表现。李飞飞团队运用“测试时缩放”技术,选择开源预训练模型 Qwen2.5-32B-Instruct 作为基座模型,并使用包含 1000 个样本的 s1K 数据集进行监督微调,最终获得了 s1-32B 模型。训练过程仅使用了 16 块英伟达H100 GPU 进行 26 分钟的核心训练。我们认为,高质量数据是模型训练的基石,尽管 s1K 数据集样本量较小,但其中蕴含的丰富推理信息为 Qwen2.5-32B-Instruct 语言模型的监督微调提供了有力支持,这也充分表明了训练数据集质量的重要性。同时,未来产业的发展依然离不开基座模型能力的持续迭代,我们在看到 s1-32B 模型带来高性价比路径的同时,也不可忽视基座模型能力上的前期投入。 ❖ LIMO:从“更大即更强”到“少即是多”:2025 年 2 月 5 日,上海交大团队提出颠覆性观点 LIMO“少即是多”,认为大模型的推理能力本质上是“潜伏”的,而非“缺失”的。LIMO 认为,推理能力“潜伏”于预训练模型中,关键在于如何通过精确的认知模板来“激活”这些内在能力。这一突破直接挑战了“监督式微调主要导致记忆而非泛化”的传统观点,证明了高质量、小规模的数据,远比低效的海量数据训练更能激发 LLM 的真正推理能力。 ❖ 产业启示:高质量数据与强大基座模型,缺一不可: s1-32B 与 LIMO 模型的研究共通之处:利用高质量数据集微调预训练模型,在小样本条件下实现高性能的模型推理能力。两个研究都不仅挑战了“更大即更强”的传统认知,更揭示了大模型推理能力的潜在机制。通过少量高质量的训练样本,成功激活了模型的“潜伏”能力,展示了“少即是多”的惊人效果。这些研究表明 AI领域正在经历一场深刻的变革,不仅揭示了高效能、低成本开发路径的可能性,同时也指出了未来 AI 发展的关键方向——高质量数据集与强大的基座模型。在这一框架下,研究的重点从单纯追求更大规模的数据和计算资源转向优化数据质量和挖掘现有模型的潜在能力。 ❖ 投资建议:见正文。 ❖ 风险提示:技术迭代不及预期的风险;商业化落地不及预期的风险;政策支 持不及预期风险;全球宏观经济风险。 -14%0%14%28%42%56%计算机沪深300上证指数 谨请参阅尾页重要声明及财通证券股票和行业评级标准 2 行业专题报告/证券研究报告 1 s1-32B 模型:知识蒸馏技术实现小样本高性价比训练 ...................................................................... 3 1.1 “预算强制”策略优化“测试时缩放” .......................................................................................... 3 1.2 高效推理数据集叠加强大开源基座模型成就 s1-32B ..................................................................... 5 2 LIMO:从“更大即更强”到“少即是多” ........................................................................................ 7 2.1 从对齐到推理,“少即是多”开拓“激活”推理能力新方向 ........................................................ 8 2.2 高质量数据集与预训练知识,助力“激活”推理潜能 ................................................................ 10 3 产业启示:高质量数据与强大基座模型,缺一不可 ......................................................................... 12 4 投资建议 ................................................................................................................................................. 13 5 风险提示 ................................................................................................................................................. 14 图 1. s1-32B 的测试时缩放策略下表现 ......................................................................................................... 3 图 2. s1K 数据集和 s1-32B 模型 .................................................................................................................... 4 图 3. s1-32B 的预算强制(budget forcing)策略示例 ................................................................................ 5 图 4. 来自 OlympicArena 天文学子集的 s1K 样本示例 ............................................................................. 6 图 5. s1-32B 模型
[财通证券]:计算机行业:s1和LIMO带来的产业启示,点击即可下载。报告格式为PDF,大小2.29M,页数15页,欢迎下载。
