中文大模型基准测评2025年3月报告-SuperCLUE
中文大模型基准测评2025年3月报告 2025.03.18— 2025中文大模型阶段性进展3月评估SuperCLUE团队精准量化通用人工智能(AGI)进展,定义人类迈向AGI的路线图Accurately quantifying the progress of AGI, defining the roadmap for humanity's journey towards AGI.报告目录一、2025年度关键进展及趋势•2025年大模型关键进展 •2025年值得关注的中文大模型全景图•2025年国内外大模型差距二、年度通用测评介绍•SuperCLUE基准介绍 •SuperCLUE大模型综合测评体系•SuperCLUE通用测评基准数据集及评价方式 •各维度测评说明及示例•测评模型列表 三、总体测评结果与分析•SuperCLUE通用能力测评总榜•SuperCLUE模型象限•SuperCLUE推理模型总榜•SuperCLUE推理任务总榜 •SuperCLUE基础模型总榜•性价比区间分布•综合效能区间分布•国内大模型成熟度-SC成熟度指数•评测与人类一致性验证•开源模型榜单•10B级别小模型榜单•端侧5B级别小模型榜单四、DeepSeek系列模型深度分析•DeepSeek-R1及其蒸馏模型对比•DeepSeek-R1和国内外头部推理模型对比•DeepSeek-R1第三方平台联网搜索能力测试(网页端)•DeepSeek-R1第三方平台稳定性测试 (网页端、App端、API端)报告摘要(一)•o3-mini(high)稳居第一,推理能力全面领先o3-mini(high) 在 SuperCLUE-3月评测中表现卓越,以 76.01 分和 84.51分稳居总榜和推理任务总榜第一,双榜均领先国内第一近5分,展现出强大的通用推理能力。•推理模型较基础模型优势明显,且国内较海外头部推理模型略有领先国内模型推理DeepSeek-R1在总榜上领先Claude 3.7 Sonnet近2.32分,QwQ-32B在推理任务榜单上领先Gemini-2.0-Flash-Thinking-Exp-01-21近7.65分。•大模型在推理速度和性价比的两级分化逐渐明显国内推理模型DeepSeek-R1和QwQ-32B虽然推理任务上表现出色,但推理时间也随之变长;在性价比方面,DeepSeek、Qwen系列模型具有极高的性价比优势,但Claude 3.7 Sonnet由于高性能仍保持较高的API价格。•小参数模型表现超出预期多款开源小参数量模型展现出惊人潜力。尤其是DeepSeek-R1-Distill系列,其中7B和14B版本在数学推理任务上分别取得了77.23分和79.46分的高分,超越了众多闭源大模型。3报告摘要(二)4数据来源:SuperCLUE,2025年3月18日;推理任务得分为推理任务总分:数学推理、科学推理和代码的平均分。开源模型如QwQ-32B使用方式为API,价格信息均来自官方信息。部分模型API的价格是分别基于输入和输出的 tokens 数量确定的。这里我们依照输入 tokens 与输出 tokens 3:1 的比例来估算其整体价格。价格信息取自官方在3月的标准价格(非优惠价格)。数据来源:SuperCLUE,2025年3月18日。DeepSeek-R1和国内外推理模型能力对比大 模 型 性 价 比 分 布第1部分 2025年度关键进展及趋势1. 2025年大模型关键进展 2. 2025年值得关注的中文大模型全景图3. 2025年国内外大模型差距5关键进展时间跃进期自2022年11月30日ChatGPT发布以来,AI大模型在全球范围内掀起了有史以来规模最大的人工智能浪潮。国内外AI机构在过去2年有了实质性的突破。具体可分为:准备期、跃进期、繁荣期和深化期。2025年大模型关键进展2022.122023.062024.062025.032023.12S u p e r C L U E : A I 大 模 型 2 0 2 5 年 关 键 进 展6深化期准备期•ChatGPT发布,全球范围内迅速形成大模型共识。繁荣期•GPT4发布,进一步掀起大模型研发热潮。•国内快速跟进大模型研发。文心一言1 . 0 、 通 义 千 问 、 讯 飞 星 火 、 3 6 0 智脑、ChatGLM等首批模型相继发布。•GPT-4 Turbo、Gemini等海外大模型发布,继续提升模型性能。•国 内 闭 源 大 模 型 快 速 发 展 。 豆 包 、 混元、商量3.0、盘古3.0、AndesGPT、BlueLM、星火3.0等陆续发布。•L l a m a 2 开 源 , 极 大 助 力 全 球 大 模 型开发者生态。•G P T - 4 o 、 C l a u d e 3 . 5 、G e m i n i 1 . 5 、 L l a m a 3 发 布 , 海 外 进入“一超多强”的竞争格局。•国 内 多 模 态 领 域 进 展 迅 速 , 在 部 分 领域 领 先 海 外 。 视 频 生 成 模 型 可 灵 A I 、海螺视频、vidu、PixVerse等模型陆续发布,并在海外取得较大应用进展。•国内通用模型持续提升。Qwen2.5、文心4.0、GLM4、商量5.5等通用模型陆续更新。•OpenAI发布Sora,极大拓展了AI在视频领域的想象力。•G e m i n i 2 . 0 F l a s h T h i n k i n g 、Claude - 3 . 7 - So nne t 、 G r o k 3 发布,海外推理模型引发热潮,推理性能大幅度提升。•国内推理模型持续跟进。DeepSeek-R 1 、 Q w Q - 3 2 B 、 K i m i k 1 . 5 、 讯 飞星 火 X 1 等 推 理 模 型 陆 续 发 布 , 继 续 突破推理能力的上限。•国 内 开 源 生 态 持 续 引 领 模 型 普 惠 化 。D e e p S e e k - R 1 通 过 开 源 与 性 价 比 优势持续推动行业技术普惠化进程。•OpenAI发布o3-mini、GPT-4.5 ,前 者 推 动 成 本 效 益 推 理 , 后 者 展 现 出较高的情感智能。•国 内 开 源 生 态 爆 发 。 B a i c h u a n 、Q w e n 、 I n t e r n L M 、 C h a t G L M 3 、Yi-34B等系列模型引领开源热潮。文本文生图字节豆包AndesGPT通用闭源通用开源多模态文生视频视觉理解行业医疗MindGPT蚂蚁金融大模型轩辕大模型奇智孔明AInno-15BSMore LrMo更多行业部分领域汽车教育金融工业....................................妙想金融大模型GLM-4v百川AI全科医生医联MedGPT百度灵医极氪Kr大模型易车大模型华为盘古工业大模型羚羊工业大模型营销:文化:妙笔大模型法律:深势分子大模型AI4S:实时交互智 谱 清 言星 火 极 速通义APPSenseChat-VisionTeleChat2-35B语音合成/
中文大模型基准测评2025年3月报告-SuperCLUE,点击即可下载。报告格式为PDF,大小21.56M,页数46页,欢迎下载。