论文部分内容阅读
深度强化学习是机器学习领域的一门新兴学科,它结合了深度学习的感知能力以及强化学习的控制决策能力。基于深度强化学习的金融交易算法可以从市场数据中学习到从金融市场的状态表示到交易决策的映射。相比传统交易算法的建立,它不依赖复杂的专家经验,相比监督学习方法,它也不需要对市场环境作出显式的预测,而是能够直接输出交易策略。金融交易场景主要分为单资产交易以及多资产的金融资产配置任务,然而在这两个任务中现有基于强化学习算法的工作中存在如马尔可夫决策过程(MDP)模型中对于市场状态表示不充分、算法中探索策略探索效果差、在交易算法训练过程中没有引入风险控制从而回测中算法收益曲线波动率高、回撤大等问题。本文针对以上问题,在金融交易领域中的单资产交易任务以及金融资产配置任务中分别提出了对应的MDP模型以及基于深度强化学习的交易算法。在单资产交易任务中,本文对于单资产交易的市场状态表示做了更加充分的挖掘,构造多种特征从多维度描述状态,使状态表示更加接近真实市场状态。同时提出了一种考虑资产回撤的回报方程,利用从环境中获得的回报来引导算法学习到在训练过程中降低收益的回撤,从而降低策略的风险。本文基于深度强化学习中的DQN算法提出了一种单资产交易算法,在神经网络的全连接层中加入服从高斯分布的噪声来驱动探索,它相比DQN算法中采用的贪心探索策略有更好的探索效果。网络中的噪声影响由一组参数进行控制,这组参数同网络中的其他参数一样通过梯度下降进行学习。同时本文改进了加入噪声后DQN算法中目标网络的更新模式,以生成稳定的目标值。在金融资产配置任务中,本文利用技术指标丰富市场状态表示,并基于深度强化学习中的DDPG算法提出了一种金融资产配置算法,在DDPG算法中引入资产权重的熵作为正则项,鼓励算法在输出资产权重时将权重分散,而不是集中在单个或几个资产中,从而降低投资组合的风险。另一方面,熵也可以作为DDPG算法探索机制的补充,引导算法进行探索。同时本文在DDPG算法中引入优先经验回放机制,将TD误差大的样本优先采样,从而提升算法的学习效果。最后本文在不同市场环境中对基于DQN的单资产交易算法以及基于DDPG的金融资产配置算法进行回测。两种交易算法在收益评估中效果均超过其余对照策略,基于DDPG的金融资产配置算法在风险评估中相比DDPG算法也取得了显著的进步。