2025大模型原理、技术与应用：从GPT到DeepSeek-哈工大

车万翔哈工大计算学部人工智能学院社会计算与交互机器人研究中心（HIT-SCIR）2025年2月28日大模型原理、技术与应用从GPT 到 DeepSeek从GPT 到 DeepSeek为什么是语言？大模型又称大语言模型（Large Language Models）语言是人类交流思想、表达情感最自然、最深刻、最方便的工具“语言是继真核细胞之后最伟大的进化成就”—— 社会生物学之父爱德华·威尔逊“语言本身就是人类有史以来最大的技术发明”—— 詹姆斯·格雷克《信息简史》人类历史上大部分知识是以语言文字形式记载和流传的运算智能能存储会计算感知智能能听会说能看会认认知智能能理解会思考什么是自然语言处理？自然语言指的是人类语言，特指文本符号，而非语音信号“自然语言处理是人工智能皇冠上的明珠”自然语言处理成为制约人工智能取得更大突破和更广泛应用的瓶颈“如果给我10亿美金，我会建造一个NASA级别的自然语言处理研究项目”——美国双院院士、世界知名机器学习专家Michael I. Jordan“下一个十年，懂语言者得天下”——美国工程院士、微软前全球执行副总裁沈向洋“深度学习的下一个大的进展应该是让神经网络真正理解文档的内容”——诺贝尔奖得主、图灵奖得主、深度学习之父Geoffrey Hinton“深度学习的下一个前沿课题是自然语言理解”——图灵奖得主、Meta AI负责人Yann LeCun自然语言处理的发展历史自然语言处理技术已经经历了五次范式变迁小规模专家知识1950~1990浅层机器学习算法1990~2010深度学习2010~20172023~2024大模型预训练语言模型2018~2023GPTGPTGPT-3：大模型早已有之GPT-3的不足GPT-3测试样例Question: Which is heavier, a toaster or pencil?(烤箱和铅笔哪个更重？)GPT-3 : A pencil is heavier than a toaster. (铅笔比烤箱重。)Question: How many eye does my foot have? (我的脚有几只眼睛？) GPT-3 : Your foot has two eyes. (你的脚有两只眼睛。)GPT-3原文指出，在故事结尾选择任务上比哈工大丁效等所提出的具有知识推理能力的模型低4.1%！预训练语言模型并不能真正克服深度学习模型鲁棒性差、可解释性弱、推理能力缺失的瓶颈，故在深层次语义理解上与人类认知水平还相去较远！缺乏知识推理与可解释性解决方案：ChatGPT (OpenAI, 2022.11)https://chat.openai.com/ ChatGPT 的关键核心技术（2/3）：有监督学习ChatGPT 的关键核心技术（3/3）：强化学习引爆“百模大战”Open ResourceModel SourceClose ResourceEncoder-onlyEncoder-DecoderDecoder-only20202021202220232024GPT3InstructGPTChatGPTGPT42025O1CriticGPT20192018BERTErnieRoBERTaALBERTDistillBERTElectraDeBERTaSpanBERTDeBERTav3BGEE5Ada-002text-embedding-3T5BARTmT5Ernie3.0umT5GLMmT0CPM-2T0SwitchChatGLMTkFLanUL2UL2FlanT5ST-MoEGPTGPT-2TransformerXLNetDeepSeek-v3Step-Reason-miniSkywork-o1GLM-ZeroFlanPaLMOPTBLOOMWeLMSkyworkJurassic-1GopherChinchillaBaichuanXGLMLLaMABLOOMzDeepSeek-LLMVicunaVicuna-v1.5AlpacaQwen2.5Baichuan2InternLMJurassic-2QwenHuoziMossPaLM2Yi-1.5YiMixtralInternLM2.5Gemini-1.5SparrowDeepSeek-v2Step-1InternLM2OLMoLLaMA3Mistral LargeStep-2Mistral Large 2Qwen2OLMo2DeepSeek-v2.5LLaMA2GeminiQwen1.5MistralGPTNeoXPaLMMPTGemini-ThinkingGemini-2InternLM3DeepSeek-R1QwQSimCSEModel TypeCNNMLPRNNDeepSeek-R1 的横空出世Nature News 报道:“中国的廉价且开源的大型语言模型震撼了科学界！”由中国研发的DeepSeek-R1大模型是一种既具备高性价比又完全开源的 “推理” 模型，其性能可与OpenAI的 o1模型媲美。通过模仿人类推理过程，这些模型能够逐步生成响应，在解决科学问题时表现得比早期大模型更为出色，可能对科研工作产生深远的影响…从DeepSeek-V1到R1发布时间：2024.1核心技术：类LLaMA架构+SFT+RLHF训练数据量：2T训练稳定程度：不稳定最大参数量：67B发布时间：2024.12核心技术：基于bias 负载均衡 + MTP (多词元预测)训练数据量：14T训练稳定程度：稳定最大参数量：671B（激活37B）训练成本：2788KGPU小时/ $5.58M发布时间：2024.5核心技术：MoE (更多共享专家) + MLA (多头潜在注意力)训练数据量：8T训练稳定程度：较稳定最大参数量：236B（激活21B）训练成本：172.8K GPU小时发布时间：2025.1核心技术：只使用RL学会推理能力 + 将RL引入基模型架构训练稳定程度：很稳定最大参数量：671B（激活37B）发布时间：2025.1核心技术：SFT学习推理格式+ RL学习推理能力训练稳定程度：很稳定最大参数量：671B（激活37B）V1V2V3R1-ZeroR1★ GRPO (DeepSeekMath, 2024.2)- 无须价值网络- 提高学习稳定性- 降低学习开销DeepSeek的核心贡献只使用强化学习（RL），模型自主学习到推理能力，性能接近o1模型训练、推理速度更快，远超o1类模型，极大节约硬件成本DeepSeek坚持开源精神，开放了 R1模型及其蒸馏出的子模型只用RL习得推理能力自然语言处理的发展历史小规模专家知识1950~1990浅层机器学习算法1990~2010深度学习2010~20172023~2024大模型预训练语言模型2018~20232025~？推理DeepSeek-R1 引发自然语言处理的第六次范式变迁推理（Reasoning）是指根据已知的信息、事实、规则或前提，通过一定的思维过程和方法，推导出新的结论、判断或知识的认知活动。它是人类思维和智能的核心组成部分，也是人工智能、科学研究和日常决策中的关键能力。推理采用的核心技术思维链（Chain-of-T

立即下载

信息科技

2025-04-15

67页

17.32M

2025大模型原理、技术与应用：从GPT到DeepSeek-哈工大，点击即可下载。报告格式为PDF，大小17.32M，页数67页，欢迎下载。

本报告共67页，只提供前10页预览，清晰完整版报告请下载后查看，喜欢就下载吧！

立即下载

本报告共67页，只提供前10页预览，清晰完整版报告请下载后查看，喜欢就下载吧！

立即下载

水滴研报所有报告均是客户上传分享，仅供网友学习交流，未经上传用户书面授权，请勿作商用。

2025大模型原理、技术与应用：从GPT到DeepSeek-哈工大

关于我们

联系我们

2025大模型原理、技术与应用：从GPT到DeepSeek-哈工大

关于我们

联系我们

小程序

公众号