基于RLS-TD和值梯度的强化学习方法用于LQR控制问题

来源 :中国自动化学会系统仿真专业委员会中国系统仿真学会仿真计算机与软件专业委员会2004学术年会 | 被引量 : 0次 | 上传用户:vict1234
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  本文针对状态连续的LQR控制问题,提出了一种新的只需部分模型信息的强化学习方法.该方法采用动作-评价者结构,在评价者训练中使用递推最小二乘TD(RLS-TD)方法估计值函数参数,在动作者训练中使用值梯度下降方法改进控制策略.仿真实验表明此强化学习方法学习到的控制策略与直接求解Riccatti方程所得控制策略非常接近.
其他文献
  本文介绍在理想九点五态控制器作用下的三角波跟踪,借助于受控相平面法分析控制作用力参数Ki(i=0,2±,4±)对三角波跟踪稳定性能的影响,并给出了如何调整各个控制作用力
恶性腹膜间皮瘤(MPM)又称原发性腹膜间皮瘤,是起源于腹膜上皮和间皮组织的一种罕见的进展性恶性肿瘤[1].MPM与职业或环境中吸入石棉纤维和其他细长矿物颗粒(EMPs)密切相关[2,
2006-2018年河南省累计诊断尘肺病晋期病例767例,总计776例次,其中男性762例(99.3%)、女性5例(0.7%).煤工尘肺519例(67.7%)、矽肺230例(30.0%)、电焊工尘肺8例(1.0%)、水泥尘肺6例
对1988-2017年海南省确诊的尘肺病例发病时间、地区和行业分布、工种、接尘工龄和并发肺结核等进行计数资料x2检验和计量资料均数单因素方差分析.结果 显示,1988-2017年海南
我国早已将石棉致肺癌、间皮瘤列入《职业病分类和目录》.2018年至今本机构已接收2例石棉致职业性间皮瘤诊断申请,现报告如下.rn1 病例介绍rn[例1]男,时年57岁,2017年2月起无
  混凝投药控制是水处理中最重要最复杂的环节,是一个大滞后、非线性、不确定的控制系统.通过对混凝投药控制对象特性分析和控制方案分析,用自适应神经模糊推理系统(ANFIS)
会议
  星空模拟器是一种在地面上模拟星空,以便对飞行器的姿态识别系统一星敏感器进行功能测试的实验装置.接着本文提出了基于活动星空模拟器的星敏感器仿真测试系统.并对其硬
利用INFI-90集散控制系统组态灵活、软件功能丰富的特点,实现了蒙达公司330 MW机组全程控制。 控制系统在锅炉点火后就可以实现给水全程控制--先由旁路门在自动控制下维持汽包
  本文针对远程设备维护系统的需求,以及目前的CAD软件只能生成静态的VRML文件的问题,结合虚拟现实技术,提出了一种基于VRML的远程设备维护系统的开发框架,通过具体应用实
目的 研究工效学基本因素检查表(BRIEF)和工作姿势分析系统(OWAS)在医护人员职业性肌肉骨骼疾患(WMSDs)评估中的信效度.方法 应用BRIEF和OWAS方法对某三甲医院194名医护人员