基于二阶时序差分误差的双网络DQN算法

来源 :计算机工程 | 被引量 : 0次 | 上传用户:baobeicucu
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
针对深度Q网络(DQN)算法因过估计导致收敛稳定性差的问题,在传统时序差分(TD)的基础上提出N阶TD误差的概念,设计基于二阶TD误差的双网络DQN算法。构造基于二阶TD误差的值函数更新公式,同时结合DQN算法建立双网络模型,得到两个同构的值函数网络分别用于表示先后两轮的值函数,协同更新网络参数,以提高DQN算法中值函数估计的稳定性。基于Open AI Gym平台的实验结果表明,在解决Mountain Car和Cart Pole问题方面,该算法较经典DQN算法具有更好的收敛稳定性。
其他文献
在高三复习课中,例题以及教师对例题的讲解分析是一节复习课的重要内容之一,教师会对例题地选编给予足够地重视,将那些有利于重温知识、启发思维和提高能力的问题选编为例题.但这
维修电工分布于各行各业,是一种通用性技术,要求从业人员有扎实的理论基础和实践经验,高级维修电工涉及多门学科,模拟电子、数字电子、变频器、PLC、电力电子、机床电气、自
近年来,我国的通信行业发展迅速,在通信工程中,有线传输技术有了很大进展。有线传输技术是通信工程中重要的技术手段之一,它可以在保障通信信号传输稳定的同时,增加信号传输
在初中阶段,我们了解到尺规作图可以做出线段的等分点,线段的垂直平分线,过一点作直线的垂线和平行线,作给定角的角平分线等.本文以尺规作图的法则作出圆锥曲线的切线.
为高效地挖掘和分析复杂网络,提出一种基于三角形子图的复杂网络过滤压缩算法NIIET。设计一种节点重要性排序算法NRSA选取高、低重要性节点并进行过滤,以降低计算规模并缩短
在我国国民经济发展进程中,电力行业已成为重要支柱产业之一,电力产业的发展成果与社会经济建设关系密切。基于此,本文以电力工程作为研究对象,结合对电力工程施工特点的分析
无人机是一种利用地面站无线遥控或网络操控的无人飞行器,当前被广泛应用于测绘工程测量,航拍救灾等各个行业,无人机具有操作简单,体积较小,可以代替人工进行高空观察作业的
《红楼梦》里,晴雯病中被赶出大观园后,宝玉去探望她,发现晴雯独自睡在“芦席土炕”上,渴了半日,要宝玉给她倒茶。宝玉只找到了一个不像茶壶的“黑沙吊子”和满是油膻之气的疑似茶碗,他拿水洗了两次,才斟了半碗,还是感觉“太不成茶”,“只一味苦涩,略有茶意而已”。但晴雯却如饮甘霖。这让宝玉非常感慨:“往常那样好茶,她尚有不如意之处,今日这样看来,可知古人说的‘饱饫烹宰,饥厌糟糠’。又道是‘饭饱弄粥’,可见都
结构洞通常指社交网络中处于信息扩散关键位置的节点,此类节点对社交网络舆情控制、影响力分析、信息传播等具有重要作用。为快速准确地找到社交网络中的结构洞,提出一种基于