基于优势学习的深度Q网络

来源 :计算机工程与应用 | 被引量 : 0次 | 上传用户：qx552801

【摘要】

：

强化学习问题中,同一状态下不同动作所对应的状态-动作值存在差距过小的现象,Q-Learning算法采用MAX进行动作选择时会出现过估计问题,且结合了Q-Learning的深度Q网络(DeepQNe

【作者】

：

夏宗涛秦进

【机构】

：

贵州大学计算机科学与技术学院

【出处】

：

计算机工程与应用

【发表日期】

：

0年期

【关键词】

：

强化学习优势学习深度Q网络过估计问题

【基金项目】

：

国家自然科学基金（No.61562009）

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

强化学习问题中,同一状态下不同动作所对应的状态-动作值存在差距过小的现象,Q-Learning算法采用MAX进行动作选择时会出现过估计问题,且结合了Q-Learning的深度Q网络(DeepQNet)同样存在过估计问题。为了缓解深度Q网络中存在的过估计问题,提出一种基于优势学习的深度Q网络,通过优势学习的方法构造一个更正项,利用目标值网络对更正项进行建模,同时与深度Q网络的评估函数进行求和作为新的评估函数。当选择的动作是最优动作时,更正项为零,不对评估函数的值进行改动,当选择的动作不是最优动作时,更正项的值为负,降低了非最优动作的评估值。和传统的深度Q网络相比,基于优势学习的深度Q网络在Playing Atari 2600的控制问题breakout、seaquest、phoenix、amidar中取得了更高的平均奖赏值,在krull、seaquest中取得了更加稳定的策略。

其他文献

关于国家示范性高职实训基地建设与管理的研究

实践教学是高职教育培养符合社会需要的应用性、技能性人才的重要保证。随着国家对职业教育的重视和100所国家示范性高职院校建设活动在全国顺利开展,越来越多的中央财政资金

期刊

示范性高职教育实训基地

新技术对广告艺术的冲击分析

本文对于新技术的发展,尤其是3D、3G等技术的兴起,对于广告产生了非常重大的影响,本文对此进行研究论述,并结合现今新技术与广告艺术进行分析,并探讨了其未来的发展。

期刊

新技术广告艺术新媒介

开展品管圈活动减轻头颈部肿瘤患者放射性皮肤损伤

目的探讨开展品管圈对减轻头颈部肿瘤患者放疗所致皮肤损伤的作用。方法科室成立品管圈小组,以减轻头颈部肿瘤患者放疗所致的皮肤损伤为活动主题,通过现状调查,要因分析,拟定

期刊

头颈部肿瘤放疗皮肤损伤品管圈持续质量改进护理质量

领导—成员交换、内部动机与员工创造力——工作多样性的调节作用

尽管已有大量研究关注领导—成员交换对员工创造力的影响,但对于两者作用机制的研究却还处于探索阶段。通过204对直接领导与员工的配对问卷调查,实证研究领导—成员交换对员

期刊

领导—成员交换员工创造力内部动机工作多样性

与霍懋征老师面对面(下)——我眼中的当代教育名师

当听我说到她根本不像年近八旬的老人时，霍老师说，虽然退下来了，她每天仍然坚持工作近10个小时。早晨吃了早点，就开始写东西、看东西，午饭之后也不午休，吃了饭接着写，一直到6点多钟

期刊

霍懋征素质教育当代教育

浅谈泗州戏音乐唱腔特点

期刊

泗州戏拉魂腔音乐唱腔

对节约型的绿化养护管理的思考

近年来,面对日趋严峻的资源紧缺和生态环境问题,党的十六届三中全会及时地提出了建设资源节约型、环境友好型社会的战略方针,将人与自然的和谐作为我国社会经济可持续发展必

期刊

城市园林绿化养护管理节约型园林

氧化锰分子筛低温氨选择性催化还原氮氧化物

根据我国目前固定源烟气排放控制装置的现状,采用低温NH3-SCR技术（氨选择性催化还原氮氧化物）便于和现有的锅炉系统相匹配,高效低费,易于推广,是最经济的选择,因此,研制开发与

学位

固定源脱硝低温氨选择性催化还原氧化锰分子筛钒掺杂

基于客户订制的线上线下一体化生产物流系统设计

随着居民消费规模持续增长、传统零售业转型发展、电商物流业迅速崛起,如何提供消费者个性化需求的定制服务,成为各方关注的重点。本文结合我国电子商务物流配送的特点,以实

期刊

客户订制线上线下一体化生产物流系统设计

MRI与血清肿瘤标志物联合诊断子宫内膜癌的临床价值

目的探讨MRI联合血清肿瘤标志物用于临床诊断子宫内膜癌患者的价值。方法收集我院2014年3月-2016年11月90例经手术组织病理学确诊为I-II期子宫内膜癌患者为此次研究对象,对比

期刊

血清肿瘤标志物磁共振子宫内膜癌诊断

基于优势学习的深度Q网络

与本文相关的学术论文