论文部分内容阅读
深度强化学习方法将深度学习与强化学习相结合,目前已在多种复杂决策任务的处理中展现出了强大的通用性并取得了突破性的进展。利用深度神经网络构建网络模型并根据强化学习算法进行决策,在没有任何先验知识的情况下,智能体可根据环境反馈的奖赏信号学习执行策略。经验回放方法在网络训练过程中消除了样本之间的时序相关性,并使得一些样本可以重复利用,提高了数据的利用率。然而如何存储以及选取样本对网络训练有着显著的影响,为进一步提高深度强化学习中经验回放方法的性能,本文从以下三个方面进行研究并改进:(1)基于时序差分误差(Temporal Difference-error,TD-error)的优先级采样方法以TD-error绝对值衡量每个经验样本的重要性,然而神经网络参数的变化会影响经验缓冲池中样本的TD-error,导致在采样过程中会有偏差。针对该问题,以样本的立即奖赏值作为优先级采样的衡量标准,并通过经验样本中立即奖赏值的大小调整其采样概率,提出一种基于奖赏优先级采样的深度确定性策略梯度算法,通过在MuJoCo环境下的实验结果证明了该算法的有效性。(2)用于存储经验样本的经验缓冲池采用先进先出的存储方式,当经验样本变化时,优先级采样方法需要对新加入的样本赋予优先级并对原有的经验样本优先级进行修改,在获取样本时需要根据优先级进行采样,因此一定程度上增加了算法时间复杂度。为进一步提高算法效率,提出了采用分类经验回放的深度确定性策略梯度方法,分别根据经验样本中的TD-error和立即奖赏值两种分类标准进行分类,同样在具有连续状态动作空间的任务中验证了算法的有效性。(3)经验回放方法中,每一时间步将智能体Agent与环境交互产生的样本存入经验缓冲池中,当到达一定样本数量后从中选取每批次数量样本进行网络训练。为减小缓冲池中样本的冗余度,使每批次获取到的样本数据更丰富,设置多个钾能体Agent与环境交互产生经验样本,使网络训练能够拥有更充分和多样的样本数据,提出一种基于多Agent采样经验回放的深度Q网络方法,并在离散的强化学习任务中验证了算法的优越性。