基于深度Q网络算法与模型的研究

来源 :苏州大学 | 被引量 : 16次 | 上传用户:njcxm
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
深度强化学习是机器学习领域中一个新的研究热点。它以一种通用的形式将深度学习的感知能力与强化学习的决策能力相结合,并通过端对端的方式学习从原始输入到动作输出的一个映射。在许多基于视觉感知的大规模决策任务中,深度强化学习方法已经取得突破性的进展。其中深度Q网络方法在解决一类视频游戏任务时表现出了和人类玩家相媲美的水平。然而在一些现实场景下的复杂问题中,深度Q网络会面临奖赏的稀疏和延迟、部分状态可观察、收敛速度慢、性能不稳定等一系列问题。本文针对上述问题,从训练算法和模型架构两方面对深度Q网络方法进行了改进和完善,并提出三种高效的深度强化学习算法或模型:(1)针对深度Q网络训练算法不能区分不同转移序列之间重要性差异的问题,提出一种基于优先级采样深度Q学习算法。该算法使用一种高效的基于优先级的经验回放机制来替代随机采样,提高了有价值转移样本的利用率,并保证样本空间中每个转移序列都有一定大小的采样概率,从而提升了算法收敛的速率。(2)针对深度Q网络算法不擅长解决战略性决策任务的问题,提出一种基于视觉注意力机制的深度循环Q网络模型。新的模型架构主要有两处创新点:一是使用由双层门限循环单元构成的循环神经网络模块来记忆较长时间步内的历史状态信息,以使得智能体能够及时响应有延迟的奖赏;二是使用视觉注意力机制自适应地将智能体的注意力集中于面积较小但更具价值的图像区域,减小了模型中可训练的权重数目,从而加快了学习最优策略的进程。(3)针对深度确定性策略梯度算法在解决连续动作空间问题时性能不稳定的问题,提出一种基于混合目标Q值的深度确定性策略梯度方法。新算法通过结合使用在策略的MC估计和离策略的Q学习方法生成一种混合型的目标Q值,降低了目标Q值的评估误差,提升了算法在连续动作空间问题中的性能和稳定性。
其他文献
以《哈利·波特》电影系列为代表,西方魔幻电影作为近几年复兴的电影题材,其影响的广泛性与深刻性,已经由一个单纯的大众娱乐话题成为有待深究的文化现象。而对其的解读不应
在评述和实验鉴别国外镁合金发黑各种方法的基础上,根据镁合金化学成膜的一般理论,提出了两种新的发黑溶液:镁黑1#(K2Cr2O7 50克/升;MnSO4 50克/升;(NH4)2SO4 50克/升。90±50℃
本文介绍了目前国内外各种类型蓄电池的用途和特点,并分析了蓄电池在高速船上的应用情况,希望对其他船舶电气设计人员有所启示。
聚氯乙烯材料的管道在流体介质中应用非常广泛。为保证管材之间连接质量,利用智能控制技术和新型电力电子器件,设计节能型熔接焊机电源。该电源以单片机为控制核心,利用模糊P
随着数字媒体的发展和学校教育网络技术的普及,学生的学习方式和接受方式不断发生着改变。因此,教师应不断更新教学观念,培养和增强信息化能力,尤其是高职英语教师应改变传统
本文简要介绍了喷气纺纱的发展,通过分析村田喷气纺和立达喷气纺的纺纱原理和成纱的结构与特点,对两个公司的纺纱方法进行对比。
音乐是时间的艺术,是所有听觉艺术中最具有情绪力量的艺术,通过音符表达情感的抽象化、哲学化主题。电影音乐之所以存在,是因为音乐和电影画面都是在时间中展现的艺术。正是
《乱世佳人》是电影史上的不朽之作,在传统观念中电影中的女主人公斯佳丽是一个"坏"女儿、姐姐、妻子、母亲、朋友和情人。斯佳丽并不完美,集众多缺点和众多优点于一身。她很
《红楼梦》是我国四大古典名著之一,是一部杰出的叙事作品,是我国叙事文学的巅峰之作。《红楼梦》的叙事艺术独具特色,彻底摆脱了以往说书体通俗小说的叙事模式,极大地丰富了
<正>服饰作为一种文化现象,和民族的历史沿革如影相随,不同历史时期的服饰各有特点,影视服装设计必须针对故事特定历史时期的服装史料,寻找出那个时代的服装特征,抽丝剥茧,设