人工智能系列之十六:再论时序交叉验证对抗过拟合

谨请参阅尾页重要声明及华泰证券股票和行业评级标准 1 证券研究报告金工研究/深度研究 2019年02月18日 林晓明 执业证书编号:S0570516010001 研究员 0755-82080134 linxiaoming@htsc.com 陈烨 执业证书编号:S0570518080004 研究员 010-56793942 chenye@htsc.com 李子钰 0755-23987436 联系人 liziyu@htsc.com 何康 联系人 hekang@htsc.com 1《金工: 人工智能选股之卷积神经网络》2019.02 2《金工: 二十载昔日重现,三四年周期轮回》2019.01 3《金工: 因子合成方法实证分析》2019.01 再论时序交叉验证对抗过拟合 华泰人工智能系列之十六从基线模型设置和样本精确切分两个角度对时序交叉验证提出改进 华泰金工《对抗过拟合:从时序交叉验证谈起》研究发现,对于时间序列数据,传统 K 折交叉验证选择的模型存在过拟合风险,时序交叉验证能减轻过拟合。本文从基线模型(baseline model)的设置和训练集验证集的精确切分两个角度,对原有时序交叉验证方法提出改进。通过对比时序交叉验证、分组时序交叉验证以及四种基线模型,我们发现分组时序交叉验证表现优于时序交叉验证,两者均优于其余基线模型。针对时序数据进行机器学习模型调参时,推荐使用分组时序交叉验证方法以对抗过拟合。 从模型性能和单因子测试看,时序和分组时序交叉验证能减轻过拟合 从模型性能来看,将六种交叉验证方法按样本内表现排序:时序 < 分组时序 < 三种新的基线模型 < K 折。从模型性能和单因子测试结果来看,将各方法按测试集表现排序:分组时序 > 时序 > 三种新的基线模型 > K折。上述结果表明,K 折交叉验证选出的模型表现出较强的过拟合,时序和分组时序交叉验证能够一定程度上减轻过拟合。 时序和分组时序交叉验证带来的提升主要源于时序信息的保留 新基线模型的引入使得我们能够对时序为何优于 K 折进行归因分析。首先,和 K 折相比,三种新的基线模型使用更少样本,其表现略优于 K 折,说明模型表现的提升确实部分源于使用更少样本。其次,和三种新的基线模型相比,时序和分组时序交叉验证保留了时序信息,其表现优于三种新的基线模型,说明模型表现的提升主要源于时序信息的保留。 分组时序交叉验证确保验证集于时序上严格在训练集后,能提升模型表现 原始时序交叉验证对训练集和验证集的切分不够精细,可能出现同一月份样 本 一 部分 属 于训 练集一 部 分 属于 验 证集 。 通过 对 scikit-learn 库model_selection 包进行改造,我们得以实现样本的精确切分,确保验证集在时序上严格位于训练集之后。相比于原始时序交叉验证,改造后的分组时序交叉验证在模型表现上有小幅提升。 风险提示:时序和分组时序交叉验证方法是对传统模型调参方法的改进,高度依赖基学习器表现。该方法是对历史投资规律的挖掘,若未来市场投资环境发生变化导致基学习器失效,则该方法存在失效的可能。时序和分组交叉验证方法存在一定欠拟合风险。 相关研究 金工研究/深度研究 | 2019 年 02 月 18 日 谨请参阅尾页重要声明及华泰证券股票和行业评级标准 2 正文目录 本文研究导读 .................................................................................................................... 4 时序交叉验证的改进 ......................................................................................................... 5 K 折和时序交叉验证 .................................................................................................. 5 改进思路 1——更合理的基线模型............................................................................. 6 改进思路 2——更精细的切分方法............................................................................. 7 方法 ................................................................................................................................... 8 人工智能选股模型测试流程 ....................................................................................... 8 单因子测试 .............................................................................................................. 10 回归法和 IC 值分析法 ...................................................................................... 10 分层回测法 ...................................................................................................... 10 结果 ................................................................................................................................. 11 最优超参数 .............................................................................................................. 11 模型性能 .................................................................................................................. 12 单因子测试 ...........................................................................................................

立即下载
信息科技
2019-02-27
华泰证券
23页
3.79M
收藏
分享

[华泰证券]:人工智能系列之十六:再论时序交叉验证对抗过拟合,点击即可下载。报告格式为PDF,大小3.79M,页数23页,欢迎下载。

本报告共23页,只提供前10页预览,清晰完整版报告请下载后查看,喜欢就下载吧!
立即下载
本报告共23页,只提供前10页预览,清晰完整版报告请下载后查看,喜欢就下载吧!
立即下载
水滴研报所有报告均是客户上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作商用。
相关图表
图 5 医 疗 人 工 智 能 平 台
信息科技
2019-02-27
来源:专业化医疗人工智能平台:驱动医疗AI从实验到实用
查看原文
图 4 医 疗 人 工 智 能 生 态 图 谱
信息科技
2019-02-27
来源:专业化医疗人工智能平台:驱动医疗AI从实验到实用
查看原文
图 3 已 经 部 署 的 医 疗 A I 系 统 的 类 别
信息科技
2019-02-27
来源:专业化医疗人工智能平台:驱动医疗AI从实验到实用
查看原文
科沃斯 IPO 募投项目
信息科技
2019-02-26
来源:扫地机器人行业深度研究:“明天产品”扫地机,明天已来,机会何在?
查看原文
科沃斯渠道体系示意图
信息科技
2019-02-26
来源:扫地机器人行业深度研究:“明天产品”扫地机,明天已来,机会何在?
查看原文
科沃斯机器人事业部研发中心设置
信息科技
2019-02-26
来源:扫地机器人行业深度研究:“明天产品”扫地机,明天已来,机会何在?
查看原文
回顶部
报告群
公众号
小程序
在线客服
收起