基于TD-error自适应校正的深度Q学习主动采样方法

来源 :计算机研究与发展 | 被引量 : 0次 | 上传用户:iiiii119119
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
强化学习中智能体与环境交互的成本较高.针对深度Q学习中经验池样本利用效率的问题,提出基于TD-error自适应校正的主动采样方法.深度Q学习训练中样本存储优先级的更新滞后于Q网络参数的更新,存储优先级不能准确反映经验池中样本TD-error的真实分布.提出的TD-error自适应校正主动采样方法利用样本回放周期和Q网络状态建立优先级偏差模型,估计经验池中样本的真实优先级.在Q网络迭代中使用校正后的优先级选择样本,偏差模型在学习过程中分段更新.分析了Q网络学习性能与偏差模型阶数和模型更新周期之间的依赖关系,并对算法复杂度进行了分析.方法在Atari 2600平台进行了实验,结果表明,使用TD-error自适应校正的主动采样方法选择样本提高了智能体的学习速度,减少了智能体与环境的交互次数,同时改善了智能体的学习效果,提升了最优策略的质量.
其他文献
以某工业研发楼项目为例,介绍了施工阶段BIM应用关键技术。该项目周边环境复杂,内部管线众多,结构标准层少,施工中利用多项BIM技术和自主研发平台开展了基于BIM的设计优化、
<正> 《易筋经》从古至今,通过不断的分流衍生,产生了许多的支流,如《熊氏易筋经》、《黄氏易筋经》《岳武穆易筋经》、《增演易筋洗髓内功图说》、《伍氏易筋经》、《少林拳
税收征纳过程是征纳双方主体行使征纳权利从事一系列征税行为和纳税行为的法律活动;征纳行为是税法主体征纳权利义务指向的主要对象和客体,是创建税收征纳法律关系的主要法律
《云裳诉》是陕西筝派中一首极具代表性的筝曲,此曲不仅有着凄美爱情故事的取材,而且与陕西地方音乐风格相融合。曲中"碗碗腔"艺术表现手法展现了陕西筝派独具的特色,加上与
在一个全球化竞争、市场瞬息万变、信息爆炸的时代,审计人员的职责就是从被审计单位的数据仓库所包含的海量数据中获取有用的数据,并通过对数据的分析来发表适当的审计意见。
目的分析中药穴位敷贴治疗小儿急性腹泻的有效性,以期为临床治疗小儿腹泻急性期提供有效治法。方法从中医学角度分析穴位贴敷药物、选穴原则、临症经验治疗小儿腹泻急性期的
【俄新社明斯克市2007年2月5日电】白俄罗斯计划于2008年动工建设其首台核电机组。白俄罗斯国家科学院2月5日宣布,首台机组将于2013-2014年投入运行,第二台机组将于2015年投入
阳极氧化铝(AAO)模板-电化学沉积法制备的一维纳米结构阵列直径均一,操作简单,通过改变沉积电压及沉积时间即可达到一维纳米材料成分调控和结构调控的目的,成为制备一维纳米材
山宜远观。我素来如此认为。苏东坡有诗云:“不识庐山真面目,只缘身在此山中。”欲知山之面目,欲观山之或雄或雅之美,在山中,你感知不来。