基于重抽样优选缓存经验回放机制的深度强化学习方法

来源 :控制与决策 | 被引量 : 0次 | 上传用户:jim2y
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
针对深度强化学习算法中经验缓存机制构建问题,提出一种基于TD误差的重抽样优选缓存机制;针对该机制存在的训练集坍塌现象,提出基于排行的分层抽样算法进行改进,并结合该机制对已有的几种典型基于DQN的深度强化学习算法进行改进.通过对Open AI Gym平台上Cart Port学习控制问题的仿真实验对比分析表明,优选机制能够提升训练样本的质量,实现对值函数的有效逼近,具有良好的学习效率和泛化性能,收敛速度和训练性能均有明显提升.
其他文献
随着经济全球化不断深入,产品内分工迅速兴起并成为国际分工的必然趋势。产品内分工带来了生产领域的变革,各国纷纷投入生产全球化的浪潮中,从而把各国间的经济更加紧密地联
随着我国经济的发展, 铜业企业发展迅速, 但是我国铜资源不足和日益增长的铜需求之间的矛盾日益突出, 因此对于铜类企业的效率情况分析日益重要.从我国铜类上市公司着手, 将
通过论述多媒体教学的优点,阐述了应用这一先进的技术来培养学生学习地理的兴趣与创新思维的重要性,理 论联系实践,对于现代地理教学具有一定的参考价值。
活性炭是一种质地优良且日益被广泛应用的碳基吸附材料,斯列普活化炉是我国活性炭行业使用的主要活化炉型,具备适合我国国情的一些优点,同时也存在着建设周期长,自动化控制水
目的:建立连翘药材中连翘新苷A、连翘酯苷A、松脂醇β-D葡萄糖苷、连翘苷和连翘脂素的含量测定方法。方法:采用高效液相色谱-二极管阵列检测法(HPLC-DAD),采用Welch Ultimate
<正> 袖筒出“珍品”秦腔享名的剧作家范紫东先生多才多艺,而且善书善画,精通乐理文史和金石墓志,还研究创造了双轮纺车。一九三七年,他的社会职业是建本学校的教员,民政厅的
期刊
目的:建立测定连翘不同部位中松脂醇β-D葡萄糖苷、表松脂醇β-D葡萄糖苷、连翘苷、连翘脂素和连翘酯苷5种成分的高效液相荧光定量方法 (HPLC-FLD)。方法:采用色谱柱Dima C18
注册会计师行业在我国恢复至今已经三十年了,注册会计师扮演的“经济警察”的角色为我国改革开放、经济发展和社会监督体系的构建起到重要作用。在行业发展历史上,重大监管模
不宁腿综合征(RLS),又称Willis-Ekbom病,是一种感觉运动障碍性疾病,依据病因可分为特发性和继发性RLS。终末期肾病、规律血液透析(HD)患者中RLS发生率较高,且症状多较特发性R