2024大模型训练数据白皮书-阿里研究院
LARGE LANGUAGEMODEL'S TRAINING DATAWHITE PAPER专家委员会安筱鹏 阿里云智能副总裁袁 媛 阿里研究院执行副院长宋志刚 数字中国研究院 ( 福建 ) 院长编写组主要成员傅宏宇 王 峥 赵志远 郑达真 张 荣 陈岳峰 李天宇 徐 强 编写单位阿里巴巴集团数字中国研究院(福建)阿里云智能集团大模型训练数据白皮书欢迎关注 “阿里研究院” 公众号关于我们阿里研究院是阿里巴巴集团的内设智库机构,多年来扎根于阿里巴巴丰富的数字科技商业生态,依托前沿的产业实践和大量的创新案例,围绕集团 “用户为先,AI 驱动” 的战略重心,聚焦于科技创新、数据和算法治理等领域的研究。联系我们aliresearch2023@service.alibaba.com训练数据对大模型发展的重要性 .......................................................................... 02模型训练所需的数据类型 ..................................................................................... 032.1 训练大语言模型的数据 .................................................................................. 032.2 训练多模态模型的数据 .................................................................................. 042.3 训练数据的常见疑问和误解 ........................................................................... 042.3.1 大模型训练并不依赖用户个人信息 ...................................................... 042.3.2 中文语料短缺不是制约我国大模型发展的重要因素 ............................. 05科学理解高质量数据的含义与作用 ...................................................................... 063.1 高质量数据的重要性 ...................................................................................... 063.2 高质量数据的标准 .......................................................................................... 073.2.1 高质量数据类型的三重不确定性 .......................................................... 073.2.2 同类数据的评估标准并不完全一致 ...................................................... 08目录CONTENTS010203大模型训练数据白皮书合成数据作为解决训练数据供给不足的新方案 .................................................... 094.1 训练数据供给不足带来的思考 ........................................................................ 094.2 合成数据的定义 ............................................................................................. 104.3 合成数据的必要性 .......................................................................................... 104.4 合成数据的生成方法及分类 ........................................................................... 114.5 合成数据在模型训练中的作用 ........................................................................ 124.5.1 预训练语料的新物种 ............................................................................ 124.5.2 提升对齐语料获取效率的加速器 .......................................................... 134.6 解决训练数据供给不足的新方案 .................................................................... 144.7 在发展中治理的合成数据 ............................................................................... 16对大模型训练数据治理的思考 .............................................................................. 175.1 大模型对训练数据的使用特点 ........................................................................ 175.2 大模型训练数据合规的治理之智 .................................................................... 18政府与社会力量协同的训练数据生态 ................................................................... 196.1 美国的现状 .................................................................................................... 196.2 中国的现状 ..........................
2024大模型训练数据白皮书-阿里研究院,点击即可下载。报告格式为PDF,大小15.98M,页数32页,欢迎下载。
