一种基于视觉注意力机制的深度循环Q网络模型

来源 :计算机学报 | 被引量 : 0次 | 上传用户:raulhanlin
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
由现代强化学习和深度学习相结合形成的深度强化学习方法是目前人工智能领域一个新的研究热点,已经在各种需要感知高维度原始输入数据和决策控制的任务中取得了实质性的突破。尤其是一种被称为深度Q网络的模型在处理诸如Atari 2600游戏这类趋于真实环境的复杂问题时表现出了和人类玩家相媲美的水平。然而,当存在有延迟的奖赏而导致需要长时间步规划才能优化策略的情形中,深度Q网络的表现就会急剧下降。这说明深度Q网络并不擅长解决战略性深度强化学习任务。针对此问题,本文使用带视觉注意力机制的循环神经网络改进了传统的深度Q网络模型,提出了一种较为完善的深度强化学习模型。新模型的关键思想有两点:一是使用双层门限循环单元构成的循环神经网络模块来记忆较长时间步内的历史信息。这使得Agent能够及时使用有延迟的反馈奖赏来正确地指导下一步的动作选择;二是通过视觉注意力机制自适应地将注意力集中于面积较小但更具价值的图像区域,从而使得Agent能够更加高效地学习近似最优策略。本文通过选取一些经典的Atari 2600战略性游戏作为实验对象来评估新模型的有效性。实验结果表明,与传统的深度强化学习模型相比新模型在一些战略性任务上具有很好的性能表现和稳定性。
其他文献
自2017年11月以来,我国的北斗三号导航卫星进入高密度组网发射阶段,2018年12月底完成了北斗三号基本系统的建设,目前已有20颗卫星投入运行。北斗三号基本系统的建成为北斗系统迈向全球的关键一步,为了保证其服务的精度和可靠性,需要对北斗三号基本系统伪距单点定位性能进行分析。基于实测数据,本文重点分析了北斗三号卫星伪距观测值的质量,对北斗三号基本系统的电离层模型进行了评估,探讨了北斗三号基本系统的
细胞周期检查点(cell cycle checkpoint)是保证细胞周期的演进中的关键过渡点,CHFR(checkpoint with FHA and ring finger)是发现的第一个有丝分裂前期的检测点,是人类一个重
基于李善兰考数根法原始文献的解读,将其解译为素数判定的数学原理,并表述为完整的现代数学符号语言。认为其等价于费马小定理,并给出了费马小定理的充分必要条件。
烧毛机是使织物在平幅张紧状态下,快速通过火焰或擦过炽热的金属表面,由于露出表面的茸毛相对受热面积大,瞬时升温达到着火点而燃烧掉。其目的是烧去织物表面耸立着一层长短不齐
采用正交试验、均匀设计试验和对比试验,对篌竹笋护色、预处理、真空冷冻干燥条件和不同干燥方法的干燥效果等进行探讨。采用0.2%抗坏血酸、0.1%柠檬酸和0.5%氯化钠溶液烫漂
慈溪位于东海之滨,东离宁波60公里.北距上海148公里,西至杭州138公里,是杭州湾地区上海、杭州、宁波三大都市经济金三角的中心。慈溪历史悠久,秦代设县,古称“句章”,公元738年,因东
随着移动应用技术的广泛应用,系统架构设计为实现一套有针对性功能且具有高性能、易于扩展、具有一定程度上的可复用性等特性的移动APP提供了重要保证,为改善公司软件质量,降
随着经济的快速发展,人们对于电、热负荷的需求逐年增加。为此,本文以某电厂N330 MW机组为例,根据等效焓降思想,建立矩阵模型,对汽轮机进行变工况计算。针对当前机组加装减温
本文从国内外木材表面粗糙度研究内容、研究方向、测量方法和手段等方面综述了木材表面粗糙度研究现状与最新成果,并对木材表面粗糙度研究的未来发展方向提出了一些建议。
论文提出了建设大学英语拓展课程的思路,对大学英语拓展课程建设的总体原则加以阐述,对拓展课程模块和课程设计提出了一些构想,并对教材建设和师资培训问题提出了一些建议。