基于期望值函数的离策略深度Q神经网络算法

来源 :四川理工学院学报(自然科学版) | 被引量 : 0次 | 上传用户:seanswh
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
深度Q神经网络算法的值函数迭代算法大多为Q学习算法,这种算法使用贪婪值函数作逼近目标,不利于深度Q神经网络算法获得长期来看更好的策略。通过以期望思想求解的期望值函数取代贪婪值函数作为更新目标,提出了基于期望值函数的离策略深度Q神经网络算法,并结合DQN算法神经网络更新方法,给出期望值函数能够作用于DQN算法的解释。通过使用该算法能够快速获得长期回报较高的动作和稳定的策略。最后分别在CarPole-v1和Acrobot仿真环境中对期望值函数的离策略深度Q神经网络算法和深度Q神经网络算法进行获取策略的稳定性对
其他文献
本文研究了口腔上皮萎缩的基底细胞核体积,~3H—TdR 标记指数及其组织病理特点,结果表明上皮萎缩与上皮增生、异常增生经常同时存在,在连续切片中可见上皮萎缩和平期癌的过渡
新预算法的颁布实施,对深化预算改革、规范政府收支行为和提升政府服务能力具有里程碑意义。高校部门预算是财政预算的重要组成部分,因此必然对高校预算产生深远的影响。新预算
女性诗歌经历了20世纪80年代的身体写作后在90年代转向了语言写作,从身体到语言言说策略的转换使女性诗歌写作从性别意识的觉醒飞升到语言意识的觉醒,并迅速从面向性别的写作走
2016年12月6日,由中国印刷及设备器材工业协会举办的"2017趋势谈"活动在北京中国职工之家隆重召开。本次活动邀请到了24位企业代表、行业专家,分别围绕"书刊印刷、数字印刷、印
能源是区域经济发展的源动力。我国以消耗大量能源为代价的经济发展方式,既影响了能源安全,也使生态环境不断恶化。我国中部各省(山西省、河南省、安徽省、湖北省、湖南省、
近些年来我国社会经济快速发展,城市化进程不断加快,而随之而来的是大量的城市污水排放,给水资源带来了严重的污染,虽然在城市环境保护中开展了污水治理工作,但在实际运行中
对某轿车玻璃升降器引起的门板抖动问题进行了分析,找出了玻璃升降器的电机和门板共振的原因,并给出了具体解决方案,数据分析扣主观评价结果表明,优化方案解决了玻璃升降器引
随着经济的飞速发展和电子商务的迅速兴起,实行会计电算化管理的企业越来越多。我国中小企业的信息意识差,信息管理技术落后,专业技术人才培养不够,信息利用率低,在竞争中处
本研究使用乙醇/十六烷基三甲基溴化铵(CTAB)溶液对粉碎后的油茶果壳粉末进行浸泡改性。用序批式实验研究了果壳改性前后对全氟辛烷磺酸(PFOS)的吸附特性。结果表明,使用乙醇/CTA
QC小组活动是企业开展群众性质量管理活动的有效形式,是企业推行全面质量管理的重要一环。在当前经济体制改革、经营机制转换的形势下,如何广泛而扎实有效地开展好QC小组活