一种基于视觉注意力机制的深度循环Q网络模型

来源 :计算机学报 | 被引量 : 0次 | 上传用户:cs19890126
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
由现代强化学习和深度学习相结合形成的深度强化学习方法是目前人工智能领域一个新的研究热点,已经在各种需要感知高维度原始输入数据和决策控制的任务中取得了实质性的突破.尤其是一种被称为深度Q网络的模型在处理诸如Atari 2600游戏这类趋于真实环境的复杂问题时表现出了和人类玩家相媲美的水平.然而,当存在有延迟的奖赏而导致需要长时间步规划才能优化策略的情形中,深度Q网络的表现就会急剧下降.这说明深度Q网络并不擅长解决战略性深度强化学习任务.针对此问题,文中使用带视觉注意力机制的循环神经网络改进了传统的深度Q网络
其他文献
关于中国青年价值观的描述谢维和本文所使用的“价值观”,指的是中国青年对于人生、日常生活和社会现象及其特定事物的意义评价和选择意向。中国青年的价值观念在整个国家改革
<正>齐白石(1864年1月1日至1957年9月16日),祖籍安徽宿州砀山,生于湖南湘潭。原名纯芝,字渭青。后改名璜,字濒生,号白石、白石山翁、老萍、借山吟馆主者、寄萍堂上老人、三百
心力衰竭是慢性心血管疾病终末期死亡的主要因素之一,心肌不良重构在心力衰竭的发生中起到关键性作用,而心肌纤维化是心肌不良重构的一个重要表现。越来越多的研究表明,表观
高校财务预算管理是高校财务活动的重要组成部分,然而在实际工作中诸多高校却存在财务预算管理失灵的现象,直接影响相关高校教育事业的健康发展。文章从高校财务预算的编制、
四言诗是中国古典诗歌史上独特的诗体,从四言诗的节奏与句式、四言诗的“传统!”、四言诗衰亡的原因以及四言诗与初期五言诗的关系等几方面来看,四言诗有其独特的价值。《诗经
按照一定的要求对机器人进行了参数设定,通过分析机器人的逆运动学问题,运用MATLAB软件中的编写函数功能进行运动学仿真,得出各个关节在仿真时间内光滑的运动轨迹曲线,验证了
本文报道了云南褐家鼠(Rattus norvegicus)、黄胸鼠(Rattus flavipectus)、白腹巨鼠(Rattus edwardsi)、社鼠(Rattus niviventer)、刺毛鼠(Rattus fulvescens)和王鼠(Rattus
詹妮·弗莱克斯纳是美国20世纪30-40年代公共图书馆阅读指导服务领域的代表人物。研究发现,詹妮·弗莱克斯纳强调阅读指导的成人教育功能,注重读者对特定主题的系统阅读;认为
深度Q网络存在严重的过估计问题,导致智能体寻找最优策略的能力下降。为了缓解深度Q网络中存在的过估计问题,提出一个更正函数用于对深度Q网络中的评价函数进行改进,当选择的
本研究使用二元热情模式探讨运动员的热情、正向情绪与运动员主观幸福感的关系,并检验正向情绪对运动员热情和主观幸福感关系间的中介效果。采用问卷调查法,经受试者同意后,