计算机行业:端到端训练开启Agent新范式,四月国产Agent迎集中发布潮
端到端训练开启Agent新范式,四月国产Agent迎集中发布潮证券研究报告行业动态报告发布日期:2025年3月30日本报告由中信建投证券股份有限公司在中华人民共和国(仅为本报告目的,不包括香港、澳门、台湾)提供。在遵守适用的法律法规情况下,本报告亦可能由中信建投(国际)证券有限公司在香港提供。同时请务必阅读正文之后的免责条款和声明。分析师:于芳博yufangbo@csc.com.cnSAC编号:S1440522030001分析师:庞佳军pangjiajun@csc.com.cnSAC 编号:S1440524110001摘要摘要核心观点:当前预训练大模型边际收益受制于Scaling Law已经逐渐达到瓶颈,更强大的Agent(智能体)成为大模型厂商未来发力的重要方向。我们认为,根据agent的技术框架,其发展基本经历了三个阶段,即工作流框架+预训练模型、工作流框架+推理模型、端到端智能体框架+推理模型。随着以OpenAI Deep Research为代表的第三代智能体的推出,智能体的强大潜力与Scaling Law加速阶段正逐渐显现。我们认为,受益于国产推理模型的强大能力基座,未来国产第三代智能体将展现出巨大的竞争力。AI Agent成为大模型公司发力方向。当前,大模型成本投入过大,预训练边际收益在放缓,数据面临边界,以及以DeepSeek为代表的开源模型崛起,单纯的API模式无法支撑模型厂商盈利。因此,更聪明,能推理,能调用不同工具,能满足个性化需求,在应用层可实现更高价值链的AIAgent成为大模型公司急需发力的方向。端到端强化学习的智能体框架Agent上限更高。围绕架构可以将智能体划分为Workflow(工作流)和端到端的Agent(智能体)两类框架,后者上限更高。其核心突破在于主动决策与动态规划,实现了内化思维链(CoT)与行动链(CoA)生成能力、动态选择最优工具优化API调用、跨会话行为优化等效果。相较于传统工作流,端到端Agent框架标志着AI系统从“流程执行者”向“目标驱动型决策主体”的范式跃迁。而工作流驱动的Agent核心依赖人工设计的规则与提示词通过结构化步骤完成任务,这类工作流的典型特征表现为被动响应机制。我们认为,智能体可以主要分为三类:一是纯基于工作流框架的智能体。二是基于工作流框架,依靠推理模型进而具备长思维链能力的智能体。三是基于端到端智能体框架,实现CoT+CoA双轮驱动任务推进的智能体,这一代智能体最大限度地拓展了自身能力边界。根据大模型Scaling Law,第三代智能体的能力目前还处于加速扩展的阶段,主要受益于推理模型的升级和强化学习技术的快速突破。随着OpenAl Deep Research和Claude 3.7 Sonnet的推出,我们看到针对任务的强化学习在推理过程发挥强大作用,更在工具调用,任务执行方面体现了强大潜力。我们认为,国产模型在强化学习的出色表现,将为下一步Agent的发展打下坚实基础,相信4月开始将陆续有国产优秀的Agent涌现出来,成为AI落地的重要场景。风险提示:大模型技术发展不及预期、商业化落地不及预期、政策监管力度不及预期、数据数量与数据质量不及预期。第一章北美大模型公司困局催化“真Agent”出现21.1.1 大模型困境:成大模型困境:成本投本投入大入大、边、边际收益际收益放缓放缓、商、商业化业化慢 大模型商业化困境:成本与收益的剪刀差扩大:北美头部厂商正面临商业化模式不确定,成本与盈利无法平衡的困境: 1)成本端:GPT-4级模型的单次训练成本已突破1亿美元,Gemini约2亿美元,Grok3约20万张H100训练。而API调用收入增速显著放缓(OpenAI 2024Q4收入增速降至15%),核心原因在于通用场景付费意愿有限、企业端定制化需求未被满足。 2)边际下降:预训练的Scaling Law边际效应递减,仅通过堆叠参数量和数据规模难以实现性能突破,Meta的Llama 4.0预训练成本达5800万美元,但其代码生成能力仅提升12%,GPT-4o在代码、数学等方面能力却逊于低成本的DeepSeek。 3)数据供给危机:大模型面临着高质量数据枯竭预警:根据Epoch AI预测,现存互联网高质量语言数据预计将在2026-2032年耗尽,而大模型训练需求仍以年均2.3倍速度增长,GPT-4级模型单次训练需消耗12T tokens,已占当前高质量数据池的12%。 综合来看,大模型成本投入过大,预训练边际收益在放缓,数据面临边界,单纯的API模式无法支撑模型厂商盈利,需要商业模式转型。资料来源:Epoch AI,中信建投图:预训练的边际收益逐步放缓图:单纯的预训练大模型在复杂问题上的能力提高有限资料来源:新智元,中信建投1.1.1 大模型大模型困境困境:API调用价用价格快格快速下速下降、商降、商业化业化模式模式需改需改善图:OpenAI价格的下降图:国产模型价格与海外大厂有明显差距图:DeepSeek V3 更好更便宜资料来源: GitHub,商业评论整理,DeepSeek,中信建投(统计时间2024年9月16日) 大模型推理降价潮:随着OpenAI在24年4月份GPT-4 Turbo和5月份GPT-4o的降价后,中国云厂商开始大模型推理算力价格战。火山引擎、阿里云、百度智能云、腾讯云先后把大模型推理算力价格下降了90%以上,很多轻量级大模型的价格更是降到了0元,国内模型和OpenAI的同规格模型相比,价格普遍只有其20%-50%。 DeepSeek为代表的开源模型崛起。25年3月24日,DeepSeek更新了新版本V3,多项指标超过了GPT 4.5和Claude 3.7。此前R1模型已在多项能力超过o1模型,背后是更低的成本和更优的工程化能力。DeepSeek采用的MIT开源架构,可以直接商用,对闭源模型冲击严重。 总结来说,API价格下降的背后原因是:1)大模型同质化竞争严重,DS等开源模型冲击严重,benchmark提升对使用感受不明显。2)大模型无法完成长程的完整任务,以问答的聊天机器人为主。3)大模型更偏通用性,无法直接成为个人助理或者企业生产力助理。 因此,更聪明,能推理,能调用不同工具,能满足个性化需求,实现更高价值链的AI Agent成为大模型公司急需发力的方向。1.2 从LLMLLM出发,出发,到Agegentic Workflow,再,再到真到真“AgAgenent”t”资料来源:anthropic.com,中信建投 在早先实践中,AI Agent是一种智能体/个人智能代理,它们能够使用传感器感知周围环境,做出决策,然后使用执行器采取行动。OpenAI应用研究主管LilianWeng提出了重要公式:Agent= LLM(大型语言模型)+ 记忆 + 规划技能+ 工具使用。 而Anthropic在2024年对于Agent给出了最新的定义,即根据较为普世的定义“Agent是一个完全自主的系统,可以在较长时间内独立运行,使用各种工具来完成复杂的任务”,进一步围绕架构将Agent划分为Workflow(工作流)和端到端的Agent(智能体)两类框架。 Workflow 是通过预
[中信建投]:计算机行业:端到端训练开启Agent新范式,四月国产Agent迎集中发布潮,点击即可下载。报告格式为PDF,大小6.25M,页数40页,欢迎下载。
