DeepSeek 原理和落地应用

DeepSeek原理与落地应用AI肖睿团队（孙萍、吴寒、周嵘、李娜、张惠军、刘誉）2025年03月01日厦门大学大数据百家讲坛• 北大青鸟人工智能研究院• 北大计算机学院元宇宙技术研究所• 北大教育学院学习科学实验室7 人工智能概念辨析DeepSeek R1大模型原理落地应用目录C O N T E N T S人工智能概念辨析PART 01大模型相关术语l 多模态Ø 文本、图片、音频、视频l AI工具（国内）Ø DeepSeek、豆包、Kimi、腾讯元宝、智谱清言、通义千问、秘塔搜索、微信搜索...l 通用模型Ø 大语言模型（LLM，Large Language Model）Ø 视觉模型（图片、视频）Ø 音频模型Ø 多模态模型Ø ……l 行业模型（垂直模型、垂类模型）Ø 教育、医疗、金融等大模型的前世今生•人工智能：让机器具备动物智能，人类智能，非人类智能（超人类智能）•运算推理：规则核心；自动化•知识工程：知识核心；知识库+推理机•机器学习：学习核心；数据智能（统计学习方法，数据建模）•常规机器学习方法：逻辑回归，决策森林，支持向量机，马尔科夫链，…..•人工神经网络：与人脑最大的共同点是名字，机制和架构并不一样•传统神经网络：霍普菲尔德网络，玻尔兹曼机，…..•深度神经网络：深度学习•传统网络架构：DBN，CNN，RNN，ResNet，Inception，……•Transformer架构：可以并行矩阵计算（GPU），核心是注意力机制（Attention）•编码器（BERT）：多数embedding模型，Ernie早期版本，…….•混合网络：T5、GLM•解码器（GPT）：大语言模型（LLM），也是传统的多模态模型的核心•生成式人工智能（GenAI）：AIGC•DeepSeek、Qwen、GLM、Step、MiniMax、hunyuan、kimi、……•OpenAI GPT（ChatGPT）、Claude、Llama、Grok、……•Diffusion架构：主要用于视觉模型（比如Stable Diffusion、DALLE），现在也开始尝试用于语言模型•Diffusion+Transformer架构：例如Sora的DiT（加入Diffusion的视觉模型），部分新的多模态模型架构大模型的发展阶段生成模型ref:中文大模型基准测评2024年度报告(2025.01.08)推理模型生成模型与推理大模型的对比比较项OpenAI GPT-4o（生成模型）OpenAI o1（推理模型）模型定位专注于通用自然语言处理和多模态能力，适合日常对话、内容生成、翻译以及图文、音频、视频等信息处理、生成、对话等。侧重于复杂推理与逻辑能力，擅长数学、编程和自然语言推理任务，适合高难度问题求解和专业领域应用。一般是在生成模型的基础上通过RL方法强化CoT能力而来推理能力在日常语言任务中表现均衡，但在复杂逻辑推理（如数学题求解）上准确率较低。在复杂推理任务表现卓越，尤其擅长数学、代码推理任务。多模态支持支持文本、图像、音频乃至视频输入，可处理多种模态信息。当前主要支持文本输入，不具备图像处理等多模态能力。应用场景适合广泛通用任务，如对话、内容生成、多模态信息处理以及多种语言相互翻译和交流；面向大众市场和商业应用。适合需要高精度推理和逻辑分析的专业任务，如数学竞赛、编程问题和科学研究；在思路清晰度要求高的场景具有明显优势，比如采访大纲、方案梳理。用户交互体验提供流畅的实时对话体验，支持多种输入模态；用户界面友好，适合大众使用。可自主链式思考，不需要太多的过程指令，整体交互节奏较慢。D e e p S e e k R 1PART 02DeepSeek公司2025年1月20日推出DeepSeek-R1推理模型作为由知名私募巨头幻方量化孕育而生的公司，DeepSeek获得了强大的资金支持和行业影响力，幻方量化与九坤投资、明汯投资、灵均投资并称量化私募领域的“四大天王”，管理资金规模均超过600亿元。这为DeepSeek提供了清晰的市场定位和投资者背景DeepSeek专注于开发先进的大语言模型(LLM)和相关技术，旨在通过这些技术推动人工智能在多个领域的应用和创新DeepSeek，全称杭州深度求索人工智能基础技术研究有限公司，成立于2023年7月17日，是一家创新型科技企业，专注于人工智能基础技术的研究与开发公司成立背景与发展历程大语言模型(LLM)的创新应用投资者背景与市场定位里程碑DeepSeek模型系列DeepSeek最新的生成模型和推理模型版本对比比较方面生成模型（V3）推理模型（R1）设计初衷想要在各种自然语言处理的任务中都能表现好，更通用重点是为了搞定复杂的推理情况，比如深度的逻辑分析和解决问题性能展现在数学题、多语言任务还有编码任务里表现不错，像Cmath能得90.7分，Human Eval编码任务通过率是65.2%在需要逻辑思考的测试里很棒，比如DROP任务F1分数能达到92.2%，AIME 2024的通过率是79.8%应用的范围适合大规模的自然语言处理工作，像对话式AI、多语言翻译还有内容生成等等，能给企业提供高效的AI方案，满足好多领域的需求适合学术研究、解决问题的应用和决策支持系统等需要深度推理的任务，也能拿来当教育工具，帮学生锻炼逻辑思维常见推理模型DeepSeek R1OpenAI o1OpenAI o3-miniGemini 2.0Grok3Kimi 1.518为什么火：能力突破、开源、低成本、国产化DeepSeek以“推理能力+第一梯队性能”为核心基础，叠加：开源开放、超低成本、国产自主研发三大优势，不仅实现技术代际跨越，更推动AI技术普惠化与国产化生态繁荣，成为全球大模型赛道的重要领跑者。核心加分项：开源、低成本、国产化• 开源：技术共享，生态共建全量开源训练代码、数据清洗工具及微调框架，开发者可快速构建教育、金融、医疗等垂直领域应用，推动社区协同创新。• 低成本：普惠企业级AI应用做了大量的模型架构优化和系统工程优化。训练成本仅$557w ：显著低于行业同类模型，打破高价壁垒。推理成本降低83%：千亿参数模型适配中小企业需求，加速商业化落地。• 国产化：技术自主，缩短差距将国产模型与美国的代际差距从3-5年缩短至3-5个月，突破“卡脖子”技术瓶颈。构建多行业专属模型矩阵，全面支持国内产业智能化升级。基础能力：进入推理模型阶段，跻身全球第一梯队推理能力跃升：DeepSeek大模型核心技术突破，实现复杂推理任务的精准处理与高效执行，覆盖多模态场景应用。国际竞争力对标：模型综合性能跃居全球第一梯队，技术指标与国际顶尖水平（如GPT系列、Claude等）直接对标，奠定国产大模型的行业标杆地位。19 19•DeepSeek R1达到了跟o1相当、或者至少接近的推理能力，且将推理过程可视化•它做到这个水平只用到少得多的资源，所以价格十分便宜•它是完全开源的并且还发布论文，详细介绍了训练中所有的步骤和窍门•DeepSeek深度求索公司是一家纯粹的中国公司混合专家MOE多头潜在注意力MLA强化学习GRPODeepseek官网地址：http://ai.comhttps://chat.deepseek

立即下载

综合

2025-03-03

北京大学

57页

11.62M

[北京大学]:DeepSeek 原理和落地应用，点击即可下载。报告格式为PDF，大小11.62M，页数57页，欢迎下载。

本报告共57页，只提供前10页预览，清晰完整版报告请下载后查看，喜欢就下载吧！

立即下载

本报告共57页，只提供前10页预览，清晰完整版报告请下载后查看，喜欢就下载吧！

立即下载

水滴研报所有报告均是客户上传分享，仅供网友学习交流，未经上传用户书面授权，请勿作商用。

DeepSeek 原理和落地应用

关于我们

联系我们

DeepSeek 原理和落地应用

关于我们

联系我们

小程序

公众号