2024年大模型轻量化技术研究报告(技术的详细讲解)-天津大学
大模型轻量化技术张 鹏2024.8.24目录01大语言模型轻量化的技术需求02大语言模型轻量化的技术概览03大语言模型轻量化技术的详细讲解04大语言模型轻量化技术的未来展望l 语言模型是自然语言处理任务中的核心技术,大语言模型的发展取得突破性进展l 自然语言处理是国家重大战略需求国务院新一代人工智能发展规划自然语言自然语言处理技术自然语言处理信息检索数字媒宣多模态内容理解算力资源消耗大可解释性差语言模型背景语义计算 维数灾难模型设计 不可解释应用部署 参数量大语义概率空间条件概率:𝑝(𝑤!|𝑤". . . 𝑤!#")发展阶段关键难题联合概率:𝑝(𝑤", 𝑤$. . . 𝑤!)总体思路:用轻量化的方式解决大模型实际应用部署过程中遇到的问题语言模型的发展历史和关键难题大模型参数规模Param: ~ 0.3BBERTT5GPT-3PaLMChatGPT/GPT 4Param: ~ 11BParam: ~ 540BParam: ~ 1800 B2018.102019.102020.052022.102023.03大语言模型涌现高存储成本和计算成本推理速度受限Param: ~ 170B196ms/token73ms/token但是大模型轻量化目标轻量化技术体积更小跑的更快预训练语言模型压缩后的预训练语言模型压缩大模型轻量化的细粒度解析RMS NormEmbeddingSelf-Attention (Grouped Multi-Query Attention) with KV CacheRMS NormFeed Forward⊕⊕𝑄𝐾𝑉Rotary Position Embedding𝑁ר 参数量占比较大,对存储及显存计算造成压力Ø 多头注意力计算造成大量的计算成本,影响计算速度,参数量占比较大。此外,KV Cache部分使用空间换取时间,造成缓存压力。Ø QKV作为中间表示存于内存中,也会对存储造成压力Ø Embedding层,语义表示的初始化,影响效果,占据一定的参数量LLaMA2 为例大模型轻量化技术为模型在实际应用和发展中带来更多便利和机遇大模型轻量化技术模型压缩推理加速硬件模型手机应用智能家居大模型轻量化技术的意义手机端侧大模型应用:将大模型应用于移动端,进行家居控制智能驾驶舱应用:将大模型应用于智能车仓,提升个性化服务医疗大模型医疗文书决策辅助患者管理医师培训医疗大模型工业大模型应用:辅助医疗应用:解决生产效率问题等目录01大语言模型轻量化的技术需求02大语言模型轻量化的技术概览03大语言模型轻量化技术的详细讲解04大语言模型轻量化技术的未来展望轻量化技术总览大模型轻量化技术量化知识蒸馏稀疏化低秩分解减少模型计算复杂度和内存占用,同时尽可能保持性能和泛化能力结构化稀疏非结构化稀疏矩阵分解张量分解其它技术参数共享硬件加速参数量化激活量化减少计算量目标保留泛化能力减少计算量高效训练推理加速减少模型参数量本报告来源于三个皮匠报告站(www. sgpj bg. com), 由用户I d: 107695下载, 文档I d: 180385, 下载日期: 2024- 11- 09轻量化相关理论u轻量化的优化目标Ø 降低参数数量更多的参数数量通常意味着模型更复杂通过提高参数压缩比,可以降低存储和计算需求Ø 减少占用存储空间大小模型参数越多,模型文件需要的存储空间越大压缩存储空间可以降低部署成本,提高模型在存储设备上的传输效率Ø 降低浮点运算数(FLOPs) 模型参数越多,通常意味着在一次前向传播中所需的浮点运算数量越多 降低FLOPs可以为模型带来更快的推理速度模型参数数量模型大小LLaMA3-8B8B>16GBLLaMA3-70B70B>145GB轻量化相关理论u轻量化模型减轻硬件压力Ø 显存(GPU Memory)用于存储训练、推理中的模型参数、梯度和激活值减少显存占用可降低对显卡设备的要求,增加训练批次大小,减少训练时间。Ø 带宽(Bandwidth)代表数据在处理器和内存之间的传输速度降低带宽占用可以减少因数据传输带来的延迟,提高计算速度。Ø 内存(RAM)用于存储训练数据、模型参数和中间计算结果降低内存空间需求可以减少磁盘交换操作,提升训练效率。性能有限设备上LLM难以部署轻量化相关理论u轻量化模型评估指标Ø 吞吐量(Throughput)单位时间内模型输出token的数量高吞吐量表示模型能够更高效地处理大批量数据,适用于需要高处理能力的应用。Ø 内存占用(Memory Footprint)模型在运行过程中占用的内存大小。较小的内存占用有助于在内存受限的设备上高 效运行模型。模型推理视频编码数据传输其他总内存参数压缩比(Compression Rate): 轻量化后模型的参数占原始参数的比例虚拟用户个数每个虚拟用户请求生成的Token数服务所用的总时间𝑠𝑎𝑚𝑝𝑙𝑒!"#$%&"'%! = V% ∗ 𝑅𝑇轻量化相关理论u轻量化模型评估指标Ø 推理速度(Inference Speed)模型每次推理所需的时间,通常以毫秒(ms)为单位。高推理速度对于实时应用和用户体验非常重要。Ø 延迟(Latency)模型从接收到输入到输出结果所需的时间。低延迟对于实时应用(如语音识别、自动驾驶)尤为重要。在LLM推理中,计算公式如下:𝑇 = 𝑇() + 𝑇*++,-+()- + 𝑇..-用户输入模型推理模型输出推理时间延迟轻量化相关理论u轻量化模型评估指标Ø 推理效果(performance)压缩后模型在各类任务上的表现,如精准度(ACC),困惑度(PPL), BLEU值等。维持压缩后模型的推理效果是轻量化的重要的目标之一。指标适⽤任务说明ACC分类任务准确率(Accuracy),衡量模型正确预测的样本占总样本的比例PPL生成任务困惑度(Perplexity),衡量语言模型预测下一个词的不确定性,值越低表示模型预测能力越强。BLEU机器翻译、文本生成双语评估的不确定性(Bilingual Evaluation Understudy),用于评估机器翻译或文本生成任务的质量。F1分类任务F1分数是精确率和召回率的调和平均数,用于衡量不平衡数据集上的分类性能。EM信息抽取精确匹配(Exact Match),用于评估信息抽取任务中模型输出与真实标签的完全一致性。…………目录01大语言模型轻量化的技术需求02大语言模型轻量化的技术概览03大语言模型轻量化技术的详细讲解04大语言模型轻量化技术的未来展望轻量化技术总览减少模型计算复杂度和内存占用,同时尽可能保持性能和泛化能力大模型轻量化技术量化知识蒸馏稀疏化低秩分解结构化稀疏非结构化稀疏矩阵分解张量分解其它技术参数共享硬件加速参数量化激活量化减少计算量目标保留泛化能力减少计算量高效训练推理加速减少模型参数量量化技术u量化基本理论大模型量化是一种将深度学习模型的参数从高精度(16位浮点数,FP16)转换为低精度(如8位整数,INT8)的方法。Ø 量化过程:以INT8对称量化为例,在存储权重参数时,将16位浮点数组成的矩阵𝑊!"#$经量化存储为8位整数矩阵为𝑊%&'(:其中,𝑟𝑜𝑢𝑛𝑑()为近似取整函数,scale为缩放因子:𝑊%&'(内所有值均为[−127,1
2024年大模型轻量化技术研究报告(技术的详细讲解)-天津大学,点击即可下载。报告格式为PDF,大小13.4M,页数125页,欢迎下载。