基于排序优先经验回放的竞争深度Q网络学习

来源 :计算机应用研究 | 被引量 : 0次 | 上传用户:westy116
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
为减少深度Q网络(DQN)算法的训练时间,采用结合优先经验回放机制与竞争网络结构的DQN方法,针对Open AI Gym平台cart pole和mountain car两个经典控制问题进行研究,其中经验回放采用基于排序的机制,而竞争结构中采用深度神经网络。仿真结果表明,相比于常规DQN算法、基于竞争网络结构的DQN方法和基于优先经验回放的DQN方法,该方法具有更好的学习性能,训练时间最少。同时,详细分析了算法参数对于学习性能的影响,为实际运用提供了有价值的参考。
其他文献
为了提高功耗分析攻击效率,减少噪声影响,研究了小波变换去噪对功耗攻击的影响以及相关功耗分析(CPA)攻击的相关系数与攻击效果的关系,提出使用平移不变量小波法与小波模极大值法对功耗曲线进行去噪预处理。该方法使用卡尔曼滤波法、小波模极大值法与平移不变量小波法对功耗曲线进行去噪预处理,再对原始数据及去噪后数据分别进行CPA。实验结果显示,与原始数据相比,使用平移不变量小波法改进的CPA相关系数比仅使用C
针对煤矿采煤掘进工作中高强度支护技术的应用进行分析,介绍高强度支护技术优势性,总结技术实践经验。辅助建立完善的掘进高强度支护方案,确保煤矿生产安全。
为了促进石油企业健康发展,不断完善新工艺、新技术、新设备的应用效果,加强对石油企业员工的培训是非常必要的。结合石油企业的特点,设计最优化的培训教学计划,优选最适宜的
针对制造公差和装配误差导致轴承滚道的椭圆化变形,分析了角接触球轴承滚道的径向偏差。依据赫兹接触理论和滚道控制理论,在考虑惯性载荷的情况下,建立联合载荷下角接触球轴
随着社会经济的高速发展,油气资源开发利用越来越广泛,油气管道建设工程也随之日益增多。由于石油天然气能源与消费利用区域的距离较远,需要建设长距离的油气管道工程进行输
目的观察瑞芬太尼在局麻和区域麻醉中辅助镇痛镇静的作用。方法观察局麻或区域神经阻滞患者术前、术中泵注小剂量0.05~0.1μg/(kg·min)时各生命体征的变化、呼吸抑制情况的变
针对油田高含水期存在的问题进行分析,进一步对油田高含水期稳油控水采油工程技术措施进行探究,旨在全面提升油井产油量,降低含水率,促进油田生产目标的顺利实现,仅供相关人
油气资源是我国较为重要的能源,我国一直致力于开发传统的常规油气能源,但随着能源的应用,传统的常规油气能源逐渐变得不能支撑日常消耗,故能源开发逐渐从开发常规油气能源转
针对传统的动态帧时隙ALOHA多标签防碰撞算法(DFSA)的系统吞吐率低、系统识别率低等问题进行了研究,提出一种可并行识别的UHF RFID防碰撞算法(OVSF-DFSA)。该算法通过基于正交可变扩频因子(OVSF)码作为扩频码的码分多址技术和DFSA协议相结合,突破了传统算法中单一时隙中只能识别一个标签的局限性,实现了标签碰撞到码碰撞的转变。以理论分析和仿真实验为基础,探究了该算法下的系统吞吐率
煤矿产业生产过程中的巷道掘进施工从高效性、安全性来讲需要不断的进行施工技术的强化和改善。尤其是针对安全性的支护技术保持高效与高质量具有极高的意义。