2025年DeepSeek洞察与大模型应用-人工智能技术发展与应用实践报告
DeepSeek洞察与大模型应用人工智能技术发展与应用实践联通数据智能有限公司史树明2025年-1-目录Contents0203 0104 05 -2-•DeepSeek是私募量化巨头幻方量化旗下的一家大模型企业,成立于2023年5月份。•幻方量化营收:作为中国头部量化对冲基金,曾管理资金规模超160亿美元(2019年),年管理费收入超过3亿美元。DeepSeek公司概况-3-DeepSeek-V3(对标GPT-4o)于2024年12月26日推出,因其显著的性能,用户迅速开始增长•Deepseek-V3仍是基于Transformer架构的模型,是一个强大的混合专家(MoE)模型,总共有 671B 个参数,生成每个token时激活 37B 参数•训练成本比 Llama 405B 低一个量级•DeepSeek-V3所采用的技术:•MLA多头潜在注意力机制(降低显存占用)•MTP多token预测(提升效果、提升推理速度)•FP8混合精度训练、DualPipe流水线、MoE负载均衡(提升训练效率,降低训练成本)DeepSeek-V3多项评测成绩超越了Qwen2.5-72B和Llama-3.1-405B等其他开源模型,并在性能上和世界顶尖的闭源模型GPT-4o以及Claude-3.5-Sonnet不分伯仲。DeepSeek-V3-4-•R1推出后,追平GPT-o1,迅速出圈海外。从DeepSeek在美国下载排名从1月22日的201名,迅速在1月27日登顶第一名;截止1月30日,DeepSeek在168个国家位居下载榜第一名•DeepSeek-R1-Zero:一种通过大规模强化学习(RL)训练的模型,没有监督微调(SFT)作为初步步骤,展示了卓越的推理能力。通过强化学习,R1-Zero自然而然地出现了许多强大而有趣的推理行为;但是,遇到了可读性差和语言混合等挑战•DeepSeek-R1:为了解决这些问题并进一步提高推理性能,DeepSeek团队引入了 R1,它在RL之前结合了多阶段训练和少量冷启动数据。R1在推理任务上实现了与OpenAI-o1-1217相当的性能DeepSeek-R1(对标GPT-o1)于2025年1月20日推出,随后DeepSeek进一步出圈DeepSeek-R1-5-DeepSeek模型效果 (1/2):世界最顶尖模型的对比大模型竞技场 (Chatbot Arena LLM Leaderboard, https://lmarena.ai/?leaderboard)更新日期:2025-2-11n DeepSeek-V3和R1进入到国际顶尖模型行列n DeepSeek-R1是综合效果最好的开源模型,排在众多优秀的开源和闭源模型前面n Qwen2.5-Max、GLM-4-Plus、Step-2-16K-Exp等国产模型也有不俗的表现-6-DeepSeek模型效果 (2/2)n DeepSeek-V3和R1相对于700亿以下开源模型(以千问720亿为代表),,扩充了其能力边界n DeepSeek-R1引入能力,在代码、数学、复杂规划等方面的能力显著增强,使得对于新场景的支持成为可能-7-DeepSeek不同版本对比n V3 vs. R1:R1在普通的中文和英文任务上性能小幅领先,在数学和代码等需要深度推理的场景下明显胜出n R1蒸馏版 vs. R1满血版:在数学、代码等场景下的性能有明显差距,蒸馏版参数量越小,与满血版差距越大n R1蒸馏版 vs. V3满血版:140亿以上参数的R1蒸馏版的深度推理效果显著强于V3满血版;低参数量R1蒸馏版能力落后于V3模型AIME 2024MATH-500GPQA DiamondLiveCodeBenchCodeForcespass@1pass@1pass@1pass@1ratingR1的15亿蒸馏版 (基于千问)28.9 83.9 33.8 16.9 954R1的70亿蒸馏版 (基于千问)55.5 92.8 49.1 37.6 1189R1的140亿蒸馏版 (基于千问)69.7 93.9 59.1 53.1 1481R1的320亿蒸馏版 (基于千问)72.6 94.3 62.1 57.2 1691R1的80亿蒸馏版 (基于Llama)50.4 89.1 49.0 39.6 1205R1的700亿的蒸馏版 (基于Llama)70.0 94.5 65.2 57.5 1633DeepSeek-R179.8 97.3 71.565.92029DeepSeek-V339.2 90.2 59.136.21134模型架构参数量激活参数R1的15亿蒸馏版稠密1.5B1.5BR1的70亿蒸馏版稠密7B7BR1的140亿蒸馏版稠密14B14BR1的320亿蒸馏版稠密32B32BR1的80亿蒸馏版稠密8B8BR1的700亿的蒸馏版稠密70B70BDeepSeek-R1MoE671B37BDeepSeek-V3MoE671B37B模型参数量:显存占用激活参数:推理速度-8-DeepSeek出圈原因分析1. DeepSeek-R1的卓越性能表现2. DeepSeek-V3的超低训练开销OpenAI奥特曼:“DeepSeek是一个令人印象深刻的模型,但我们相信我们会继续开拓前沿并推出出色的产品,所以很高兴能有另一个竞争对手。”Meta扎克伯格:“DeepSeek技术非常先进。这是一场差距很小的竞争。” 虽然DeepSeek已证明研发AI所需的资金和算力比之前预想的要少,但Meta不会因此减少AI支出:“我仍然认为,从长远来看,大力投入资本支出和基础设施建设将成为一种战略优势。”卷积神经网络之父Yann LeCun: “与其说中国AI正在追赶美国,不如说开源模型正在超越闭源”。Anthropic CEO达里奥·阿莫迪:我认为一个公平的说法是“ DeepSeek 生产的模型接近 7-10 个月前美国模型的性能,成本要低得多(但远不及人们建议的比例) ”Scale AI创始人亚历山大·王:“DeepSeek可能改变中美在人工智能竞赛中的格局” 游戏科学创始人冯骥:”DeepSeek,可能是个国运级别的科技成果。”“如果有一个AI大模型做到以下任何一条,都是超级了不起的成就,但DeepSeek全部同时做到了:强大、便宜、开源、免费、联网、本土”面壁智能首席科学家刘知远:“DeepSeek的意义更像Llama。DeepSeek R1相当于是像2023年初的OpenAI ChatGPT一样,让所有人真正地感受到了震撼”V3训练开销&R1效果引发全球热议ChatGPTLlamao1/o3DeepSeek-R1首次提出开源复现★DeepSeek V3效果对标顶级闭源模型,训练成本比LLaMA低一个量级30.82.802040Llama 3.1 405BDeepSeekV3 671B下降一个量级训练耗时单元:万GPU小时DeepSeek-V3MMLU 得分API价格¥/M tokens908286★l Llama3.1-405Bl GPT-4ol Qwen2.5-72Bl Qwen2.5-72Bl Claude 3.5 Sonnetl DeepSeek-2.5l GPT-4o
2025年DeepSeek洞察与大模型应用-人工智能技术发展与应用实践报告,点击即可下载。报告格式为PDF,大小6.3M,页数37页,欢迎下载。