大语言模型在投研中的应用:DeepSeek、QwQ-32B与Manus技术解析、投研场景与量化应用

证券研究报告金融工程|深度研究报告DeepSeek、QwQ-32B与Manus技术解析、投研场景与量化应用大语言模型在投研中的应用——马自妍S1190519070001证券分析师:分析师登记编号:刘晓锋S1190522090001证券分析师:分析师登记编号:2025/03/15P2请务必阅读正文之后的免责条款部分 守正 出奇 宁静 致远1. 概述:AI赋能投研应用2. 模型技术架构3. 投研场景适配性分析4. 量化研究中的技术适配5. 本地部署6. 大语言模型在投研中的应用未来演进方向目录P3请务必阅读正文之后的免责条款部分 守正 出奇 宁静 致远➢ 传统投研面临两大核心瓶颈:非结构化数据处理效率低下与量化模型信号维度单一。•分析师花费大量时间处理财报、新闻、电话会议记录等文本数据,且人工提取关键指标存在一定误差率。•量化策略依赖结构化数据(如价格、财务指标),难以捕捉政策变化、市场情绪等文本隐含信号。➢ DeepSeek、QwQ-32B与Manus等大语言模型先后发布,为投研场景带来新的技术支持。•DeepSeek-R1:6710亿参数的混合专家(MoE)模型,专注深度推理与跨模态分析;•QwQ-32B:阿里开源的320亿参数推理模型,以强化学习突破参数限制,性能比肩DeepSeek;•Manus:Monica公司的多代理架构模型,通过任务分解与工具调用实现端到端流程自动化。本报告将深入解析三者的技术差异,并结合投研与量化研究的核心需求,提出场景适配框架与实施路径。1、概述:AI赋能投研应用1.1 概述P4请务必阅读正文之后的免责条款部分 守正 出奇 宁静 致远DeepSeek-R1采用稀疏混合专家(Sparse MoE)架构,包含1个共享专家和256个领域专家,每次推理仅激活6%参数(约370亿)其核心技术突破体现在:➢双流编码器:文本流(处理自然语言)与代码流(执行逻辑运算)通过跨模态注意力矩阵实现动态融合(如非结构化文本转化为估值模型处理速度提升)。➢多头潜在注意力(MLA):通过低秩压缩技术将KV缓存占用降低至传统架构的5%-13%,支持12万字长文本处理(如完整上市公司年报分析)。➢冷启动数据策略:引入数千条高质量数学/代码样本进行预训练微调,解决纯强化学习导致的“语言混合”问题,提升模型稳定性。2、模型技术架构2.1 DeepSeek-R1架构设计创新P5请务必阅读正文之后的免责条款部分 守正 出奇 宁静 致远2.2 DeepSeek-R1训练流程图DeepSeek-V3DeepSeek-R1-Zero强化学习:GRPO•准确性奖励:数学、逻辑、代码•格式奖励数k个长CoT冷启动数据第一次 SFT第一次强化学习增强推理能力•准确性奖励:数学、逻辑、代码•语言一致性奖励60w推理数据第二次 SFT第二次强化学习DeepSeek-R120w非推理数据全场景强化学习•有用性、无害性、精细推理、人类偏好•为RL提供稳定基础•结构化推理过程•通用能力•防止任务过拟合•DeepSeek-V3的通用能力数据•人工标注示例•RL生成的多样化内容•RL阶段的拒绝采样资料来源:太平洋证券整理图表1: DeepSeek-R1训练流程图P6请务必阅读正文之后的免责条款部分 守正 出奇 宁静 致远2、模型技术架构2.3 DeepSeek-R1历代模型核心差异图表2:DeepSeek-R1演进过程中历代模型核心差异对比资料来源:太平洋证券整理模型V3R1-ZeroR1R1-Distill架构重点MLA+MoE优化,通用多任务处理纯MoE架构,无SFT阶段V3基座+冷启动SFT+两阶段RL基于Qwen/Llama架构的蒸馏模型训练方法预训练+SFT+DPO纯强化学习(GRPO)SFT+两阶段强化学习知识蒸馏+合成数据微调数据依赖14.8万亿通用数据无标注数据,规则奖励驱动冷启动数据+RL生成混合数据R1生成数据应用场景代码生成、多模态任务科研推理、数学竞赛复杂推理与通用任务平衡轻量化推理、本地部署硬件成本需多GPU服务器(如8×A100)同V3,但生成效率低同V3,优化后推理速度提升30%单卡GPU(如RTX 3090)P7请务必阅读正文之后的免责条款部分 守正 出奇 宁静 致远QwQ-32B通过动态稀疏计算与混合精度量化实现轻量高效,其技术核心体现在:➢动态门控网络:根据输入内容动态分配计算资源,在数学推理任务中激活参数量仅为同规模模型的60%。➢FP8+INT4混合量化:激活值采用FP8精度(保持数值稳定性),权重矩阵使用INT4量化(压缩率4:1),单卡A100即可承载完整32B参数推理,提升推理速度的同时显著降低显存占用。➢渐进式蒸馏框架:通过结构->参数->逻辑的三阶段渐进蒸馏,缩短训练周期。➢双阶段强化学习训练策略•严格结果验证器阶段:直接通过代码执行结果和数学答案正确性提供奖励信号。•通用强化学习阶段:引入多维度奖励模型(包括格式规范性、逻辑连贯性),解决单一结果奖励导致的“奖励操纵”问题。2、模型技术架构2.4 QwQ-32B架构设计创新P8请务必阅读正文之后的免责条款部分 守正 出奇 宁静 致远2、模型技术架构2.5 QwQ-32B能力测试结果图表3:QwQ-32B基准测试结果资料来源:QwenQwQ-32B在数学推理能力、代码生成与优化、开放问答与多任务处理、指令理解与执行、工具调用与函数交互等能力测试中获得不错的分数。P9请务必阅读正文之后的免责条款部分 守正 出奇 宁静 致远Manus用多代理架构实现任务闭环,其架构与核心技术体现在:•规划代理:通过思维树(ToT)算法将任务拆解为可执行步骤。•执行代理:支持调用Python解释器(数据处理)、内置浏览器(信息抓取)、文档处理器(PDF解析)等工具,生成报告等结果。•验证代理:通过规则引擎和动态学习机制实现结果校验。➢核心技术创新•沙盒隔离技术:每个任务运行在独立虚拟机环境,支持调用工具链,确保任务隔离和数据安全。•异步云处理机制:支持用户提交任务后离线等待,系统自动分配算力资源并行处理。•工具链动态编排:内置工具链集成,根据任务复杂度自动选择本地执行或云端协同,提升效率。2、模型技术架构2.6 Manus架构设计创新P10请务必阅读正文之后的免责条款部分 守正 出奇 宁静 致远2.7 Manus多代理系统工作流图表4: Manus多代理系统工作流程图资料来源:太平洋证券整理任务输入Manus接收规划模块执行模块验证模块输出结果用户反馈记录用户偏好任务拆解调用工具2、模型技术架构P11请务必阅读正文之后的免责条款部分 守正 出奇 宁静 致远图表5:架构对比资料来源:太平洋证券整理2、模型技术架构2.8 架构对比模型DeepSeek-R1QwQ-32BManus混合专家(MoE)架构 密集Transformer 多Agent架构MLA注意力机制优化 分组查询注意力(GQA) 虚拟机工具链集成两阶段强化学习(RL)训练 分阶段RL(数学+通用任务优化) 内置任务分解与异步处理参数规模6710亿(激活370亿)14320亿26未公开 复杂推理(数学、代码生成) 高性价比 自动化任务执行 长文本生成能力 工具调用与指令遵循 多工具协同硬件

立即下载
信息科技
2025-03-20
太平洋证券
30页
0.8M
收藏
分享

[太平洋证券]:大语言模型在投研中的应用:DeepSeek、QwQ-32B与Manus技术解析、投研场景与量化应用,点击即可下载。报告格式为PDF,大小0.8M,页数30页,欢迎下载。

本报告共30页,只提供前10页预览,清晰完整版报告请下载后查看,喜欢就下载吧!
立即下载
本报告共30页,只提供前10页预览,清晰完整版报告请下载后查看,喜欢就下载吧!
立即下载
水滴研报所有报告均是客户上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作商用。
相关图表
表现最为亮眼,斩获的车型定点最多;2022年11月,发布Flash全固态路线的补盲雷达E1;2024年1月港股上市;2024年4
信息科技
2025-03-19
来源:激光雷达行业分析简报:城市NOA渗透率提升,激光雷达行业爆发
查看原文
公司 PE 估值低于可比公司平均
信息科技
2025-03-19
来源:公司首次覆盖报告:业绩预期出现反转,多领域重拳出击步入收获阶段
查看原文
2021-2026E 公司分业务拆分
信息科技
2025-03-19
来源:公司首次覆盖报告:业绩预期出现反转,多领域重拳出击步入收获阶段
查看原文
服务器领域长期布局
信息科技
2025-03-19
来源:公司首次覆盖报告:业绩预期出现反转,多领域重拳出击步入收获阶段
查看原文
2024 年服务器出货量约为 1365 万台 图28:2025 年 AI 服务器产值渗透率预计将达到 72%
信息科技
2025-03-19
来源:公司首次覆盖报告:业绩预期出现反转,多领域重拳出击步入收获阶段
查看原文
高等级自动驾驶渗透率逐渐提升
信息科技
2025-03-19
来源:公司首次覆盖报告:业绩预期出现反转,多领域重拳出击步入收获阶段
查看原文
回顶部
报告群
公众号
小程序
在线客服
收起