“学海拾珠”系列之二百二十六:风险规避型强化学习模型在投资组合优化中的应用

敬请参阅末页重要声明及评级说明 证券研究报告 风险规避型强化学习模型在投资组合优化中的应用 ——“学海拾珠”系列之二百二十六 [Table_RptDate] 报告日期:2025-03-05 [Table_Author] 分析师:吴正宇 执业证书号:S0010522090001 邮箱:wuzy@hazq.com 分析师:严佳炜 执业证书号:S0010520070001 邮箱:yanjw@hazq.com [Table_CompanyReport] 相关报告 1. 《贝塔异象的波动性之谜——“学海拾珠”系列之二百二十五》 2. 《ETF 的资产配置与再平衡:样本协方差对比 EWMA 与 GARCH 模型——学海拾珠系列之二百二十四》 3. 《市场对投资者情绪的反应——学海拾珠系列之二百二十三》 4. 《基于语境的财务信息解读——学海拾珠系列之二百二十二》 5. 《跟踪误差的构成成分、中期交易与基金业绩——学海拾珠系列之二百二十一》 6. 《基于混合转移分布的投资组合优化方法——学海拾珠系列之二百二十》 7. 《模糊性会引发处置效应吗?——学海拾珠系列之二百一十九》 主要观点: [Table_Summary] 本文提出了一种风险厌恶型强化学习算法,用于最优投资组合分配。 具体而言,作者提出了一种结合贝叶斯神经网络(BNN)和 Dirichlet 分布策略的强化学习框架,用于最优投资组合分配。在该框架中,评价网络采用贝叶斯神经网络来估计行动值函数,并通过引入 KL 散度作为正则化项。策略网络则通过 Dirichlet 分布策略实施,以探索不同的行动选择。 ⚫ 融合了贝叶斯神经网络和 Dirichlet 分布策略的强化学习框架 本文提出了一种创新的强化学习框架,该框架融合了贝叶斯神经网络和 Dirichlet 分布策略,旨在解决最优投资组合分配问题。在模型构建上,评价网络采用贝叶斯神经网络结构,通过引入 KL 散度正则化项,衡量后验分布与近似器之间的差异。Dirichlet 策略可以解决深度确定性策略梯度模型(DDPG)在受限行动空间上的一些问题。在模型训练上,该框架通过多个回合(episodes)的训练,智能体与环境进行交互,学习并优化投资策略。同时,引入 VaR 作为风险度量,通过惩罚机制调整策略网络,确保在不确定环境中做出稳健决策。 ⚫ 风险厌恶型强化学习模型在大多数时候表现更佳 将本文的强化学习模型表现与其他强化学习算法进行了比较,如近端策略优化(PPO)、信任区策略优化(TRPO)以及启发式金融投资组合选择理论。在相同的 1000 步(天)测试期间,本文的算法大多数时候都优于其他模型。此外,作者的算法相较于其他算法盈利能力更强。 核心内容摘选自 Bayaraa Enkhsaikhan , Ohyun Jo 于 2024 年 4 月在《ICT Express》上发表的论文《Risk-averse Reinforcement Learning for Portfolio Optimization》。 ⚫ 风险提示 文献结论基于历史数据与海外文献进行总结;不构成任何投资建议。 [Table_StockNameRptType] 金融工程 专题报告 [Table_CommonRptType] 金融工程 敬请参阅末页重要声明及评级说明 2 / 14 证券研究报告 正文目录 1 引言 ...................................................................................................................................................................................................... 4 2 文献综述 .............................................................................................................................................................................................. 5 3 理论背景 .............................................................................................................................................................................................. 5 3.1 组合优化 ...................................................................................................................................................................................... 5 3.2 DIRICHLET 分布策略 .................................................................................................................................................................... 6 3.3 贝叶斯神经网络 ......................................................................................................................................................................... 6 3.4 不确定性估计 ............................................................................................................................................................................. 7 3.5 风险评估方法 ..........................................................

立即下载
综合
2025-03-10
华安证券
14页
1.13M
收藏
分享

[华安证券]:“学海拾珠”系列之二百二十六:风险规避型强化学习模型在投资组合优化中的应用,点击即可下载。报告格式为PDF,大小1.13M,页数14页,欢迎下载。

本报告共14页,只提供前10页预览,清晰完整版报告请下载后查看,喜欢就下载吧!
立即下载
本报告共14页,只提供前10页预览,清晰完整版报告请下载后查看,喜欢就下载吧!
立即下载
水滴研报所有报告均是客户上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作商用。
相关图表
2025 年 3 月将发布的重要数据和事件
综合
2025-03-10
来源:图说全球月报:欧日景气度有所修复,美国高位下行
查看原文
12 月美国、日本 PPI 均同比回升 图表40: 2 月美国 10 年期 TIPS 隐含的真实利率回落至 2.38%
综合
2025-03-10
来源:图说全球月报:欧日景气度有所修复,美国高位下行
查看原文
1 月美国表观通胀上行 图表38: 1 月美国核心 CPI 同比较上月回升
综合
2025-03-10
来源:图说全球月报:欧日景气度有所修复,美国高位下行
查看原文
12 月欧元区贸易顺差环比扩大 图表35: 1 月日本贸易逆差环比扩大
综合
2025-03-10
来源:图说全球月报:欧日景气度有所修复,美国高位下行
查看原文
韩国 2 月前 20 日出口金额同比上升至 16% 图表33: 12 月美国商品贸易逆差环比扩大
综合
2025-03-10
来源:图说全球月报:欧日景气度有所修复,美国高位下行
查看原文
2 月美国粗钢产量上升 图表31: 2 月 EIA 商业原油库存量持续回升
综合
2025-03-10
来源:图说全球月报:欧日景气度有所修复,美国高位下行
查看原文
回顶部
报告群
公众号
小程序
在线客服
收起