论文部分内容阅读
深度强化学习是机器学习领域中一个新的研究热点。它以一种通用的形式将深度学习的感知能力与强化学习的决策能力相结合,并通过端对端的方式学习从原始输入到动作输出的一个映射。在许多基于视觉感知的大规模决策任务中,深度强化学习方法已经取得突破性的进展。其中深度Q网络方法在解决一类视频游戏任务时表现出了和人类玩家相媲美的水平。然而在一些现实场景下的复杂问题中,深度Q网络会面临奖赏的稀疏和延迟、部分状态可观察、收敛速度慢、性能不稳定等一系列问题。本文针对上述问题,从训练算法和模型架构两方面对深度Q网络方法进行了改进和完善,并提出三种高效的深度强化学习算法或模型:(1)针对深度Q网络训练算法不能区分不同转移序列之间重要性差异的问题,提出一种基于优先级采样深度Q学习算法。该算法使用一种高效的基于优先级的经验回放机制来替代随机采样,提高了有价值转移样本的利用率,并保证样本空间中每个转移序列都有一定大小的采样概率,从而提升了算法收敛的速率。(2)针对深度Q网络算法不擅长解决战略性决策任务的问题,提出一种基于视觉注意力机制的深度循环Q网络模型。新的模型架构主要有两处创新点:一是使用由双层门限循环单元构成的循环神经网络模块来记忆较长时间步内的历史状态信息,以使得智能体能够及时响应有延迟的奖赏;二是使用视觉注意力机制自适应地将智能体的注意力集中于面积较小但更具价值的图像区域,减小了模型中可训练的权重数目,从而加快了学习最优策略的进程。(3)针对深度确定性策略梯度算法在解决连续动作空间问题时性能不稳定的问题,提出一种基于混合目标Q值的深度确定性策略梯度方法。新算法通过结合使用在策略的MC估计和离策略的Q学习方法生成一种混合型的目标Q值,降低了目标Q值的评估误差,提升了算法在连续动作空间问题中的性能和稳定性。