【摘 要】
:
针对连续状态空间的非线性系统控制问题,提出一种基于残差梯度法的神经网络Q学习算法。该算法采用多层前馈神经网络逼近Q值函数,同时利用残差梯度法更新神经网络参数以保证收
【基金项目】
:
国家自然科学基金(No.U1504610)
论文部分内容阅读
针对连续状态空间的非线性系统控制问题,提出一种基于残差梯度法的神经网络Q学习算法。该算法采用多层前馈神经网络逼近Q值函数,同时利用残差梯度法更新神经网络参数以保证收敛性。引入经验回放机制实现神经网络参数的小批量梯度更新,有效减少迭代次数,加快学习速度。为了进一步提高训练过程的稳定性,引入动量优化。此外,采用Softplus函数代替一般的ReLU激活函数,避免了ReLU函数在负数区域值恒为零所导致的某些神经元可能永远无法被激活,相应的权重参数可能永远无法被更新的问题。通过CartPole控制任务的仿真实验,
其他文献
本文叙述于湿饱和蒸汽透平的中间汽水分离器的试验研究结果,选型试验的过程是从冷态(空气-水试验)到热态鉴定性试验,从模化到全尺寸模型的考核,将最佳的汽水分离器模型制为产品,再经
中国科技网开通新的国际信道 中国科技网(CSTNET)在中国邮电部的大力支持下,于1997年6月27日成功地开通了与美国Internet相连的2Mbps国际信道,并于当日的23:00点正式投入运行
现有的视频烟雾检测方法大多通过运动检测提取疑似烟区,并依据经验手工设计提取烟雾特征,在复杂场景中检测准确率不高。针对以上问题,提出了一种基于时空双路3D残差卷积网络的视频烟雾检测方法,基于混合高斯背景模型与原始视频帧的小波低频分量差进行疑似烟区提取,其次构造时空双路3D残差卷积神经网络,并引入注意力机制加权融合烟雾时空域特征,实现端对端的烟雾识别。实验结果表明,该方法可以得到更为完整的疑似烟区,尤
基于身份的可搜索加密方案(IBEKS)使用身份等信息作为公钥,绑定了公钥和用户(私钥),省去了CA认证的环节,但是也带来了一些问题,比如密钥托管、密钥撤销等。基于此,首次提出无
建立算法优化后的中国国家能源年度消费总量Logistic模型,并以2003年至2010年中国国家能源消费年度统计数据为基础,对中国未来20年的能源消费情况进行研究和预测,2015年、2020年
针对现有双语词向量研究方法获取双语词向量需要用到大量双语平行文本,对于柬汉双语而言存在着平行文本不足的关键问题,而英语作为通用语言,英语-汉语以及英语-柬埔寨语双语
信息技术课的教学原则是信息技术教学所必须遵循的基本要求和指导原理,它是在基本的教学论原则的指导下,根据基本的教学理论,结合信息技术课教学的特点,保证教师的教和学生的
1引言通常燃气———蒸汽联合循环都设有旁通烟囱,可使机组运行灵活方便,对余热锅炉起到保护作用,然而为了减少设备的初始投资,现在有的联合循环不设置旁通烟囱见图1。这类机组的启
考试工作是一项系统而严密的过程,它包括确定考试目的、制定命题方案及命题、评卷、结果分析及考试组织管理等完善的考试制度,任何环节的失误都会影响考试的顺利进行,尤其是命题
深度学习方法在计算机视觉领域取得了很大的发展,多种深度卷积神经网络在实际的目标检测中取得了很好的应用效果,但均存在网络可解释性较差的问题。通过将特征图反向映射到输入图像的像素空间,来对网络的特征图进行可视化分析;在平行视觉研究框架下,分别采用真实和人工绝缘子图像样本来分析网络的特征响应,最后依据可视化结果对网络参数进行调整。研究结果表明,人工图像中绝缘子的占比、角度和位置对网络的特征响应和分类正确