基于深度强化学习的金融交易算法实证研究

来源 :东南大学 | 被引量 : 0次 | 上传用户:guyueer83
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
深度强化学习是机器学习领域的一门新兴学科,它结合了深度学习的感知能力以及强化学习的控制决策能力。基于深度强化学习的金融交易算法可以从市场数据中学习到从金融市场的状态表示到交易决策的映射。相比传统交易算法的建立,它不依赖复杂的专家经验,相比监督学习方法,它也不需要对市场环境作出显式的预测,而是能够直接输出交易策略。金融交易场景主要分为单资产交易以及多资产的金融资产配置任务,然而在这两个任务中现有基于强化学习算法的工作中存在如马尔可夫决策过程(MDP)模型中对于市场状态表示不充分、算法中探索策略探索效果差、在交易算法训练过程中没有引入风险控制从而回测中算法收益曲线波动率高、回撤大等问题。本文针对以上问题,在金融交易领域中的单资产交易任务以及金融资产配置任务中分别提出了对应的MDP模型以及基于深度强化学习的交易算法。在单资产交易任务中,本文对于单资产交易的市场状态表示做了更加充分的挖掘,构造多种特征从多维度描述状态,使状态表示更加接近真实市场状态。同时提出了一种考虑资产回撤的回报方程,利用从环境中获得的回报来引导算法学习到在训练过程中降低收益的回撤,从而降低策略的风险。本文基于深度强化学习中的DQN算法提出了一种单资产交易算法,在神经网络的全连接层中加入服从高斯分布的噪声来驱动探索,它相比DQN算法中采用的贪心探索策略有更好的探索效果。网络中的噪声影响由一组参数进行控制,这组参数同网络中的其他参数一样通过梯度下降进行学习。同时本文改进了加入噪声后DQN算法中目标网络的更新模式,以生成稳定的目标值。在金融资产配置任务中,本文利用技术指标丰富市场状态表示,并基于深度强化学习中的DDPG算法提出了一种金融资产配置算法,在DDPG算法中引入资产权重的熵作为正则项,鼓励算法在输出资产权重时将权重分散,而不是集中在单个或几个资产中,从而降低投资组合的风险。另一方面,熵也可以作为DDPG算法探索机制的补充,引导算法进行探索。同时本文在DDPG算法中引入优先经验回放机制,将TD误差大的样本优先采样,从而提升算法的学习效果。最后本文在不同市场环境中对基于DQN的单资产交易算法以及基于DDPG的金融资产配置算法进行回测。两种交易算法在收益评估中效果均超过其余对照策略,基于DDPG的金融资产配置算法在风险评估中相比DDPG算法也取得了显著的进步。
其他文献
在中国时尚的发展进程中,马艳丽是一个标志性的人物。她是中国第一位国际模特大赛的冠军,被誉为中国第一名模,典雅的东方气质中透着迷人的现代气息;她是中国模特界创建时装品
在工程项目建设中,由于施工现场存在各种主、客观的安全危险及危害,而安全与否直接涉及到千家万户的健康与幸福,因此在工程项目建设中,安全管理是首要的重点的工作,而做好安全控制
<正> 我们党历来重视思想工作,将之视为&#39;生命线&#39;。战争时期是军事工作的生命线,建设时期是经济工作的生命线,对思想工作的地位和作用看得很高。1999年的最后一天,江
小说源于生活,高于生活。然生活中有些真实事情不亚于小说里的动人情节。1985年10月纪念中央红军二万五千里长征胜利到达陕北50周年的时候,北京某大报的一位记者"重走长征路"
实行村务公开和民主管理是贯彻落实党的十五届三中全会精神,保障农民群众直接行使民主权利和加强农村基层民主政治建设的基础性工程,也是加强农村党风康政建设,密切党群、干
按冬季施工规程规定,当室外日平均气温连续5天稳定低于5℃时或最低气温降至0℃或0℃以下即进入冬期施工,当室外日平均气温连续5天高于5℃时即解除冬期施工。根据沈阳市气象部门
2001年3月9日是中华诗词学会萧乡诗社成立10周年纪念日。黑龙江省作家协会、哈尔滨市作家协会联合召开了弘扬先进文化、繁荣诗词创作呼兰现场会暨萧乡诗社十周年庆典大会。十
<正>中国产业用纺织品行业协会(下简称"中产协")纺织特种纺织品分会自2011年12月27日在杭州成立以来,已经历了五个春秋。分会在行业内外有关单位的关心帮助和全体会员单位的
"三十年河东,三十年河西"昭示了人在历史长河中的升降浮沉之变。何以升浮?又何以降沉呢?源在于是真善美,还是假恶丑!人类社会恶与善并存,丑与美相共。但是,"在美与丑的结合中
唯物史观认为,存在决定意识,思想观念是实践的产物。由此,思想观念总是跟随时代而发生变化。在重大历史时期,往往会实现一场观念革命。我国伟大的改革历程,已有二十多年,尽管