论文部分内容阅读
结合了深度学习和强化学习,深度强化学习(DRL)在许多领域得到广泛的应用,是目前机器学习领域的研究热点。DRL算法利用深度学习对输入数据进行特征提取,而后强化学习以特征信息作为状态输入进行策略学习。DRL算法存在着计算量过大、训练时间过长等问题,异步深度强化学习(ADRL)利用多线程技术极大缩短了学习模型的训练时间。然而在基于视觉感知的游戏任务中,传统的ADRL方法在算法训练中无法充分利用具有重要价值的图像特征和图像区域,以及算法的收敛速度较慢。针对上述问题,本文将特征注意力机制、视觉注意力机制和基于优先级扫描的Dyna结构优化方法引入到ADRL算法中,提出基于注意力机制的异步深度强化学习方法,具体研究内容如下:(1)基于特征注意力机制的异步优势行动者评论家算法。ADRL算法在处理基于视觉感知的大规模状态空间任务时,智能体获取到的信息是整幅原始图像的所有特征信息。智能体均衡处理所有的状态特征,导致了学习模型无法重点关注有价值的特征信息,从而在前向传播中丢失部分重要信息。针对此问题,提出一种特征注意力机制,并将其引入ADRL算法,提出一种基于特征注意力机制的异步优势行动者评论家算法。(2)基于双重注意力机制的异步优势行动者评论家算法。基于特征注意力机制的ADRL算法能够有效利用图像的重要特征信息,但是依然存在着部分有价值的图像区域信息未被充分利用的问题。针对此问题,将视觉注意力机制引入基于特征注意力机制的ADRL算法中,提出一种基于双重注意力机制的异步优势行动者评论家算法。该算法从图像特征和图像区域两个维度来描述原始图像的状态信息,帮助智能体高效地学习到最优策略。(3)基于优先级扫描Dyna结构的异步优势行动者评论家算法。上述两种新算法是基于深度神经网络模型来改进的,ADRL算法的优劣性不仅与模型架构息息相关,还与强化学习算法有着密切联系。为了缩短ADRL算法在某些视觉感知任务中的收敛时间,将基于优先级扫描的Dyna结构优化方法引入ADRL算法,提出一种基于优先级扫描Dyna结构的异步优势行动者评论家算法。上述基于传统ADRL算法的改进算法,以Atari 2600仿真游戏作为实验对象,与现有ADRL算法作对比,验证了新算法的有效性。基于注意力机制的ADRL算法能够有效利用输入图像的重要信息,提升了算法的学习性能;基于优先级扫描Dyna结构的ADRL算法避免智能体过多探索无意义的状态,缩短了算法的收敛时间。