基于残差梯度法的神经网络Q学习算法

来源 :计算机工程与应用 | 被引量 : 0次 | 上传用户：doer

【摘要】

：

针对连续状态空间的非线性系统控制问题,提出一种基于残差梯度法的神经网络Q学习算法。该算法采用多层前馈神经网络逼近Q值函数,同时利用残差梯度法更新神经网络参数以保证收

【作者】

：

司彦娜普杰信臧绍飞

【机构】

：

河南科技大学信息工程学院

【出处】

：

计算机工程与应用

【发表日期】

：

2020年18期

【关键词】

：

Q学习神经网络值函数近似残差梯度法经验回放 Q learningneural networkvalue function approximationre

【基金项目】

：

国家自然科学基金(No.U1504610)

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

针对连续状态空间的非线性系统控制问题,提出一种基于残差梯度法的神经网络Q学习算法。该算法采用多层前馈神经网络逼近Q值函数,同时利用残差梯度法更新神经网络参数以保证收敛性。引入经验回放机制实现神经网络参数的小批量梯度更新,有效减少迭代次数,加快学习速度。为了进一步提高训练过程的稳定性,引入动量优化。此外,采用Softplus函数代替一般的ReLU激活函数,避免了ReLU函数在负数区域值恒为零所导致的某些神经元可能永远无法被激活,相应的权重参数可能永远无法被更新的问题。通过CartPole控制任务的仿真实验,

其他文献

湿蒸汽透平的汽水分离器的试验研究

本文叙述于湿饱和蒸汽透平的中间汽水分离器的试验研究结果，选型试验的过程是从冷态（空气－水试验）到热态鉴定性试验，从模化到全尺寸模型的考核，将最佳的汽水分离器模型制为产品，再经

期刊

蒸汽轮机汽水分离器试验testbodyairwatertestrigsteamwatertestrig

新闻追踪

中国科技网开通新的国际信道中国科技网(CSTNET)在中国邮电部的大力支持下,于1997年6月27日成功地开通了与美国Internet相连的2Mbps国际信道,并于当日的23:00点正式投入运行

期刊

新闻追踪中国互联网络信息中心香港回归大学生Windows电脑时代世纪互联电子邮件国际互联网防火墙

时空双路3D残差卷积网络的视频烟雾检测

现有的视频烟雾检测方法大多通过运动检测提取疑似烟区,并依据经验手工设计提取烟雾特征,在复杂场景中检测准确率不高。针对以上问题,提出了一种基于时空双路3D残差卷积网络的视频烟雾检测方法,基于混合高斯背景模型与原始视频帧的小波低频分量差进行疑似烟区提取,其次构造时空双路3D残差卷积神经网络,并引入注意力机制加权融合烟雾时空域特征,实现端对端的烟雾识别。实验结果表明,该方法可以得到更为完整的疑似烟区,尤

期刊

3D残差卷积网络烟雾检测注意力机制深度学习3D residual convolutional networksmoke detectionattenti

无证书的可搜索加密方案

基于身份的可搜索加密方案(IBEKS)使用身份等信息作为公钥,绑定了公钥和用户(私钥),省去了CA认证的环节,但是也带来了一些问题,比如密钥托管、密钥撤销等。基于此,首次提出无

期刊

可搜索加密无证书的可搜索加密双线性DIFFIE-HELLMAN问题密钥托管Public Key Encryption with Keyword Sear

基于Logistic模型的中国国家能源消费总量预测研究

建立算法优化后的中国国家能源年度消费总量Logistic模型，并以2003年至2010年中国国家能源消费年度统计数据为基础，对中国未来20年的能源消费情况进行研究和预测，2015年、2020年

期刊

能源消费Logistic模型预测对策建议

多重CCA算法的柬汉双语词向量构建方法

针对现有双语词向量研究方法获取双语词向量需要用到大量双语平行文本,对于柬汉双语而言存在着平行文本不足的关键问题,而英语作为通用语言,英语-汉语以及英语-柬埔寨语双语

期刊

双语词向量典型相关分析(CCA)汉柬双语多重典型相关分析算法bilingual word embeddingCanonical Correlation

信息技术课教学的基本原则

信息技术课的教学原则是信息技术教学所必须遵循的基本要求和指导原理,它是在基本的教学论原则的指导下,根据基本的教学理论,结合信息技术课教学的特点,保证教师的教和学生的

期刊

信息技术教学原则

无旁通烟囱燃气——蒸汽联合循环机组的启动

１引言通常燃气———蒸汽联合循环都设有旁通烟囱，可使机组运行灵活方便，对余热锅炉起到保护作用，然而为了减少设备的初始投资，现在有的联合循环不设置旁通烟囱见图１。这类机组的启

期刊

旁通烟囱联合循环机组启动发电燃气-蒸汽

考试成功关键在科学地命题

考试工作是一项系统而严密的过程，它包括确定考试目的、制定命题方案及命题、评卷、结果分析及考试组织管理等完善的考试制度，任何环节的失误都会影响考试的顺利进行，尤其是命题

期刊

教学大纲形态结构试题考试制度测试学名词解释学习方法重点内容多项选择题覆盖面

平行视觉框架下深度卷积神经网络可视化分析

深度学习方法在计算机视觉领域取得了很大的发展,多种深度卷积神经网络在实际的目标检测中取得了很好的应用效果,但均存在网络可解释性较差的问题。通过将特征图反向映射到输入图像的像素空间,来对网络的特征图进行可视化分析;在平行视觉研究框架下,分别采用真实和人工绝缘子图像样本来分析网络的特征响应,最后依据可视化结果对网络参数进行调整。研究结果表明,人工图像中绝缘子的占比、角度和位置对网络的特征响应和分类正确

期刊

平行视觉卷积神经网络可视化特征响应parallel visionconvolutional neural networkvisualizationcha

基于残差梯度法的神经网络Q学习算法

与本文相关的学术论文