基于优势学习的深度Q网络

来源 :计算机工程与应用 | 被引量 : 0次 | 上传用户:qx552801
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
强化学习问题中,同一状态下不同动作所对应的状态-动作值存在差距过小的现象,Q-Learning算法采用MAX进行动作选择时会出现过估计问题,且结合了Q-Learning的深度Q网络(DeepQNet)同样存在过估计问题。为了缓解深度Q网络中存在的过估计问题,提出一种基于优势学习的深度Q网络,通过优势学习的方法构造一个更正项,利用目标值网络对更正项进行建模,同时与深度Q网络的评估函数进行求和作为新的评估函数。当选择的动作是最优动作时,更正项为零,不对评估函数的值进行改动,当选择的动作不是最优动作时,更正项的值为负,降低了非最优动作的评估值。和传统的深度Q网络相比,基于优势学习的深度Q网络在Playing Atari 2600的控制问题breakout、seaquest、phoenix、amidar中取得了更高的平均奖赏值,在krull、seaquest中取得了更加稳定的策略。
其他文献
实践教学是高职教育培养符合社会需要的应用性、技能性人才的重要保证。随着国家对职业教育的重视和100所国家示范性高职院校建设活动在全国顺利开展,越来越多的中央财政资金
本文对于新技术的发展,尤其是3D、3G等技术的兴起,对于广告产生了非常重大的影响,本文对此进行研究论述,并结合现今新技术与广告艺术进行分析,并探讨了其未来的发展。
目的探讨开展品管圈对减轻头颈部肿瘤患者放疗所致皮肤损伤的作用。方法科室成立品管圈小组,以减轻头颈部肿瘤患者放疗所致的皮肤损伤为活动主题,通过现状调查,要因分析,拟定
尽管已有大量研究关注领导—成员交换对员工创造力的影响,但对于两者作用机制的研究却还处于探索阶段。通过204对直接领导与员工的配对问卷调查,实证研究领导—成员交换对员
当听我说到她根本不像年近八旬的老人时,霍老师说,虽然退下来了,她每天仍然坚持工作近10个小时。早晨吃了早点,就开始写东西、看东西,午饭之后也不午休,吃了饭接着写,一直到6点多钟
近年来,面对日趋严峻的资源紧缺和生态环境问题,党的十六届三中全会及时地提出了建设资源节约型、环境友好型社会的战略方针,将人与自然的和谐作为我国社会经济可持续发展必
根据我国目前固定源烟气排放控制装置的现状,采用低温NH3-SCR技术(氨选择性催化还原氮氧化物)便于和现有的锅炉系统相匹配,高效低费,易于推广,是最经济的选择,因此,研制开发与
随着居民消费规模持续增长、传统零售业转型发展、电商物流业迅速崛起,如何提供消费者个性化需求的定制服务,成为各方关注的重点。本文结合我国电子商务物流配送的特点,以实
目的探讨MRI联合血清肿瘤标志物用于临床诊断子宫内膜癌患者的价值。方法收集我院2014年3月-2016年11月90例经手术组织病理学确诊为I-II期子宫内膜癌患者为此次研究对象,对比