一种权重平均值的深度双Q网络方法

来源 :计算机研究与发展 | 被引量 : 0次 | 上传用户：www0908

【摘要】

：

深度强化学习算法的不稳定性和可变性对其性能有重要的影响.深度Q网络模型在处理需要感知高维输入数据的决策控制任务中性能良好.然而,深度Q网络存在着高估动作值使agent性能

【作者】

：

吴金金刘全陈松闫岩

【机构】

：

苏州大学计算机科学与技术学院,符号计算与知识工程教育部重点实验室（吉林大学）,江苏省计算机信息处理技术重点实验室（苏州大学）,软件新技术与产业化协同创新中心（南京大学）

【出处】

：

计算机研究与发展

【发表日期】

：

2020年3期

【关键词】

：

深度强化学习深度Q网络估计误差权重双估计器时间差分 deep reinforcement learningdeep Q-networkestimatio

【基金项目】

：

国家自然科学基金项目(61772355,61702055,61502323,61502329),江苏省高等学校自然科学研究重大项目(18KJA520011,17KJA520004),吉林大学符号计算与知识工程教育部重点实验室项目(93K172014K04,93K172017K18),苏州市应用基础研究计划工业项目(SYG201422),江苏高校优势学科建设工程资助项目

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

深度强化学习算法的不稳定性和可变性对其性能有重要的影响.深度Q网络模型在处理需要感知高维输入数据的决策控制任务中性能良好.然而,深度Q网络存在着高估动作值使agent性能变差的问题.尽管深度双Q网络能够缓解高估带来的影响,但是仍然存在低估动作值的问题.在一些复杂的强化学习环境中,即使是很小的估计误差也会对学习到的策略产生很大影响.为了解决深度Q网络中高估动作值和深度双Q网络中低估动作值的问题,提出一种基于权重平均值的深度双Q网络方法(averaged weighted double deep Q-netw

其他文献

火电厂中水回用RO膜污染特征研究

城市污水深度回用为火力发电厂锅炉补给水已成为世界各国解决缺水问题的主要方案之一，中水水质对深度回用工艺中反渗透膜的影响不容忽视．将电厂中水回用工程中污染的反渗透膜组

期刊

中水回用电厂反渗透膜污染分布特征reclaimed water reuse thermal power plant reverse osmosis m

抗炎合剂治疗脓毒症疗效及对血管内皮细胞的影响研究

目的:观察抗炎合剂治疗脓毒症疗效,并从凝血功能方面探讨抗炎合剂对脓毒症患者血管内皮细胞的影响。方法:选取脓毒症患者76例,随机分成对照组和观察组,每组38例。对照组根据

期刊

抗炎合剂脓毒症凝血功能血管内皮细胞组织因子途径抑制物抗凝血酶-Ⅲ组织型纤溶酶原激活物纤溶酶原激活物抑制物-1Kangyan Hejisepsis

一个二维冲击振子模型的相平面结构

讨论了二维冲击振子模型的相平面结构，解析得到混沌吸收引吸域边界上鞍点的稳定和不稳定流形的表示式，并说明了混沌吸引子就是此不稳定流形的闭包，而它的吸引域就是此稳定流形的

期刊

冲击振子混沌吸引子吸引域振动impact oscillator chaotic attractor basin

亚太脱盐协会七届理事会在澳大利亚召开

第七届亚太脱盐协会（APDA）理事会7月2日在澳大利亚布里斯班市召开．APDA会长Masaru Kurihara、副会长PalmerNeil出席了会议，栗原优先生主持了会议．中国、澳大利亚、日本、韩国等国

期刊

澳大利亚理事会协会中国工程院院士脱盐名誉理事长副理事长副会长

亚临界通量操作对黄连解毒汤超滤过程的影响

将临界通量概念引入中药水提液复杂体系，以中药复方黄连解毒汤水提液为实验对象，通过测定中空纤维膜超滤过程的临界通量，考察了亚临界通量操作下的膜系统运行状态．结果表明，在错流

期刊

中药水提液超滤亚临界通量Chinese herb extractionsultrafiltrationsub-critical flux

嘉兴学院管理学院概况

嘉兴学院管理学院是嘉兴学院的二级学院，也是目前校本部规模最大的分院。管理学院现有人力资源管理、公共事业管理、市场营销三个本科专业和工商管理、劳动与社会保障、房地产

期刊

嘉兴学院管理学院二级学院专业设置课程体系科研工作师资力量办学理念高等教育

来,用光影记录大爱重庆

“爱无处不在,只是缺少发现爱的眼睛。重庆,一座大爱之城。追逐梦想、凝聚力量,全面小康,奋斗有我。‘爱·重庆’微电影大赛,刻下重庆温暖的印记。第六届‘爱·重庆

期刊

全面小康宣传片重庆故事凝聚力量

多粒度形式概念分析的介粒度标记方法

现有的多粒度标记形式背景将所有属性的粒度标记值通过多个单粒度标记形式背景的并置予以表示,这可能导致后续相关问题的研究主要集中于多个单粒度标记形式背景的知识发现及

期刊

粒计算形式概念分析粗糙集概念格决策形式背景granular computingformal concept analysisrough setconc

微型拍翅式飞行机器人平飞位置控制的研究

对微型拍翅式飞行机器人平飞飞行的位置控制，提出了一个基于平均气动力的控制方案，在每个拍动周期结束后，根据位置的状态反馈误差调整参数．通过改变翅的拍动倾斜角和拍动频率来获

期刊

拍翅飞行机器人控制系统位置控制tflapping fly robot control system position control

低温下非线性顺磁磁特性研究

根据量子理论计算了Er3Ga5O12低温时在强磁场作用下的磁化强度.经过定量计算,证明了外磁场沿着[100]和[111]方向时其磁化强度所呈现的复杂的非线性各向异性关系,而顺磁性超交

期刊

非线性磁性磁场nonlinear magnetism magnetic field

一种权重平均值的深度双Q网络方法

与本文相关的学术论文