中文大模型基准测评2025年3月报告-SuperCLUE

中文大模型基准测评2025年3月报告 2025.03.18— 2025中文大模型阶段性进展3月评估SuperCLUE团队精准量化通用人工智能（AGI）进展，定义人类迈向AGI的路线图Accurately quantifying the progress of AGI, defining the roadmap for humanity's journey towards AGI.报告目录一、2025年度关键进展及趋势•2025年大模型关键进展 •2025年值得关注的中文大模型全景图•2025年国内外大模型差距二、年度通用测评介绍•SuperCLUE基准介绍 •SuperCLUE大模型综合测评体系•SuperCLUE通用测评基准数据集及评价方式 •各维度测评说明及示例•测评模型列表三、总体测评结果与分析•SuperCLUE通用能力测评总榜•SuperCLUE模型象限•SuperCLUE推理模型总榜•SuperCLUE推理任务总榜 •SuperCLUE基础模型总榜•性价比区间分布•综合效能区间分布•国内大模型成熟度-SC成熟度指数•评测与人类一致性验证•开源模型榜单•10B级别小模型榜单•端侧5B级别小模型榜单四、DeepSeek系列模型深度分析•DeepSeek-R1及其蒸馏模型对比•DeepSeek-R1和国内外头部推理模型对比•DeepSeek-R1第三方平台联网搜索能力测试（网页端）•DeepSeek-R1第三方平台稳定性测试（网页端、App端、API端）报告摘要（一）•o3-mini(high)稳居第一，推理能力全面领先o3-mini(high) 在 SuperCLUE-3月评测中表现卓越，以 76.01 分和 84.51分稳居总榜和推理任务总榜第一，双榜均领先国内第一近5分，展现出强大的通用推理能力。•推理模型较基础模型优势明显，且国内较海外头部推理模型略有领先国内模型推理DeepSeek-R1在总榜上领先Claude 3.7 Sonnet近2.32分，QwQ-32B在推理任务榜单上领先Gemini-2.0-Flash-Thinking-Exp-01-21近7.65分。•大模型在推理速度和性价比的两级分化逐渐明显国内推理模型DeepSeek-R1和QwQ-32B虽然推理任务上表现出色，但推理时间也随之变长；在性价比方面，DeepSeek、Qwen系列模型具有极高的性价比优势，但Claude 3.7 Sonnet由于高性能仍保持较高的API价格。•小参数模型表现超出预期多款开源小参数量模型展现出惊人潜力。尤其是DeepSeek-R1-Distill系列，其中7B和14B版本在数学推理任务上分别取得了77.23分和79.46分的高分，超越了众多闭源大模型。3报告摘要（二）4数据来源：SuperCLUE，2025年3月18日；推理任务得分为推理任务总分：数学推理、科学推理和代码的平均分。开源模型如QwQ-32B使用方式为API，价格信息均来自官方信息。部分模型API的价格是分别基于输入和输出的 tokens 数量确定的。这里我们依照输入 tokens 与输出 tokens 3:1 的比例来估算其整体价格。价格信息取自官方在3月的标准价格（非优惠价格）。数据来源：SuperCLUE，2025年3月18日。DeepSeek-R1和国内外推理模型能力对比大模型性价比分布第1部分 2025年度关键进展及趋势1. 2025年大模型关键进展 2. 2025年值得关注的中文大模型全景图3. 2025年国内外大模型差距5关键进展时间跃进期自2022年11月30日ChatGPT发布以来，AI大模型在全球范围内掀起了有史以来规模最大的人工智能浪潮。国内外AI机构在过去2年有了实质性的突破。具体可分为：准备期、跃进期、繁荣期和深化期。2025年大模型关键进展2022.122023.062024.062025.032023.12S u p e r C L U E ： A I 大模型 2 0 2 5 年关键进展6深化期准备期•ChatGPT发布，全球范围内迅速形成大模型共识。繁荣期•GPT4发布，进一步掀起大模型研发热潮。•国内快速跟进大模型研发。文心一言1 . 0 、通义千问、讯飞星火、 3 6 0 智脑、ChatGLM等首批模型相继发布。•GPT-4 Turbo、Gemini等海外大模型发布，继续提升模型性能。•国内闭源大模型快速发展。豆包、混元、商量3.0、盘古3.0、AndesGPT、BlueLM、星火3.0等陆续发布。•L l a m a 2 开源，极大助力全球大模型开发者生态。•G P T - 4 o 、 C l a u d e 3 . 5 、G e m i n i 1 . 5 、 L l a m a 3 发布，海外进入“一超多强”的竞争格局。•国内多模态领域进展迅速，在部分领域领先海外。视频生成模型可灵 A I 、海螺视频、vidu、PixVerse等模型陆续发布，并在海外取得较大应用进展。•国内通用模型持续提升。Qwen2.5、文心4.0、GLM4、商量5.5等通用模型陆续更新。•OpenAI发布Sora，极大拓展了AI在视频领域的想象力。•G e m i n i 2 . 0 F l a s h T h i n k i n g 、Claude - 3 . 7 - So nne t 、 G r o k 3 发布，海外推理模型引发热潮，推理性能大幅度提升。•国内推理模型持续跟进。DeepSeek-R 1 、 Q w Q - 3 2 B 、 K i m i k 1 . 5 、讯飞星火 X 1 等推理模型陆续发布，继续突破推理能力的上限。•国内开源生态持续引领模型普惠化。D e e p S e e k - R 1 通过开源与性价比优势持续推动行业技术普惠化进程。•OpenAI发布o3-mini、GPT-4.5 ，前者推动成本效益推理，后者展现出较高的情感智能。•国内开源生态爆发。 B a i c h u a n 、Q w e n 、 I n t e r n L M 、 C h a t G L M 3 、Yi-34B等系列模型引领开源热潮。文本文生图字节豆包AndesGPT通用闭源通用开源多模态文生视频视觉理解行业医疗MindGPT蚂蚁金融大模型轩辕大模型奇智孔明AInno-15BSMore LrMo更多行业部分领域汽车教育金融工业....................................妙想金融大模型GLM-4v百川AI全科医生医联MedGPT百度灵医极氪Kr大模型易车大模型华为盘古工业大模型羚羊工业大模型营销：文化：妙笔大模型法律：深势分子大模型AI4S：实时交互智谱清言星火极速通义APPSenseChat-VisionTeleChat2-35B语音合成/

立即下载

信息科技

2025-03-21

46页

21.56M

中文大模型基准测评2025年3月报告-SuperCLUE，点击即可下载。报告格式为PDF，大小21.56M，页数46页，欢迎下载。

本报告共46页，只提供前10页预览，清晰完整版报告请下载后查看，喜欢就下载吧！

立即下载

本报告共46页，只提供前10页预览，清晰完整版报告请下载后查看，喜欢就下载吧！

立即下载

水滴研报所有报告均是客户上传分享，仅供网友学习交流，未经上传用户书面授权，请勿作商用。

中文大模型基准测评2025年3月报告-SuperCLUE

关于我们

联系我们

中文大模型基准测评2025年3月报告-SuperCLUE

关于我们

联系我们

小程序

公众号