基于RLS-TD和值梯度的强化学习方法用于LQR控制问题

来源 :中国自动化学会系统仿真专业委员会中国系统仿真学会仿真计算机与软件专业委员会2004学术年会 | 被引量 : 0次 | 上传用户：vict1234

【摘要】

：

　　本文针对状态连续的LQR控制问题,提出了一种新的只需部分模型信息的强化学习方法.该方法采用动作-评价者结构,在评价者训练中使用递推最小二乘TD(RLS-TD)方法估计值函数

【作者】

：

文锋;陈宗海;陈春林;

【机构】

：

中国科技大学自动化系,安徽,合肥,230027

【出处】

：

中国自动化学会系统仿真专业委员会中国系统仿真学会仿真计算机与软件专业委员会2004学术年会

【发表日期】

：

2004年期

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

　　本文针对状态连续的LQR控制问题,提出了一种新的只需部分模型信息的强化学习方法.该方法采用动作-评价者结构,在评价者训练中使用递推最小二乘TD(RLS-TD)方法估计值函数参数,在动作者训练中使用值梯度下降方法改进控制策略.仿真实验表明此强化学习方法学习到的控制策略与直接求解Riccatti方程所得控制策略非常接近.

其他文献

基于理想九点五态控制器的三角波跟踪

　　本文介绍在理想九点五态控制器作用下的三角波跟踪,借助于受控相平面法分析控制作用力参数Ki(i=0,2±,4±)对三角波跟踪稳定性能的影响,并给出了如何调整各个控制作用力

会议

理想九点五态控制器三角波跟踪作用力相平面法稳定性能跟踪性能分析控制受控参数

1例接触石棉所致职业性肿瘤诊断分析

恶性腹膜间皮瘤(MPM)又称原发性腹膜间皮瘤,是起源于腹膜上皮和间皮组织的一种罕见的进展性恶性肿瘤[1].MPM与职业或环境中吸入石棉纤维和其他细长矿物颗粒(EMPs)密切相关[2,

期刊

石棉职业性肿瘤恶性腹膜间皮瘤

2006-2018年河南省尘肺病晋期病例分析

2006-2018年河南省累计诊断尘肺病晋期病例767例,总计776例次,其中男性762例(99.3％)、女性5例(0.7％).煤工尘肺519例(67.7％)、矽肺230例(30.0％)、电焊工尘肺8例(1.0％)、水泥尘肺6例

期刊

尘肺病接尘工龄晋期年限

海南省30年尘肺病发病特征分析

对1988-2017年海南省确诊的尘肺病例发病时间、地区和行业分布、工种、接尘工龄和并发肺结核等进行计数资料x2检验和计量资料均数单因素方差分析.结果显示,1988-2017年海南

期刊

海南省尘肺病发病特征

两例申请石棉致职业性间皮瘤诊断病例分析

我国早已将石棉致肺癌、间皮瘤列入《职业病分类和目录》.2018年至今本机构已接收2例石棉致职业性间皮瘤诊断申请,现报告如下.rn1 病例介绍rn[例1]男,时年57岁,2017年2月起无

期刊

石棉恶性间皮瘤职业病诊断

基于ANFIS的混凝投药控制系统

　　混凝投药控制是水处理中最重要最复杂的环节,是一个大滞后、非线性、不确定的控制系统.通过对混凝投药控制对象特性分析和控制方案分析,用自适应神经模糊推理系统(ANFIS)

会议

基于活动星空模拟器的星敏感器仿真测试系统

　　星空模拟器是一种在地面上模拟星空,以便对飞行器的姿态识别系统一星敏感器进行功能测试的实验装置.接着本文提出了基于活动星空模拟器的星敏感器仿真测试系统.并对其硬

会议

基于活动星空模拟器星敏感器硬件和软件系统卫星仿真系统仿真测试系统组成原理实验装置识别系统功能测试飞行器姿态平台地面

蒙达公司3号机组实现锅炉给水全程控制

利用INFI－90集散控制系统组态灵活、软件功能丰富的特点，实现了蒙达公司330 MW机组全程控制。控制系统在锅炉点火后就可以实现给水全程控制--先由旁路门在自动控制下维持汽包

期刊

锅炉给水全程控制调整门水位调节水泵运行三冲量额定负荷旁路无扰切换最低转速

基于VRML的远程设备维护系统中若干关键问题的研究

　　本文针对远程设备维护系统的需求,以及目前的CAD软件只能生成静态的VRML文件的问题,结合虚拟现实技术,提出了一种基于VRML的远程设备维护系统的开发框架,通过具体应用实

会议

远程设备维护系统虚拟现实技术网络环境下运行环境虚拟场景维护技术开发框架专家应用文件软件

BRIEF和OWAS在医护人员职业性肌肉骨骼疾患评估中的信效度研究

目的研究工效学基本因素检查表(BRIEF)和工作姿势分析系统(OWAS)在医护人员职业性肌肉骨骼疾患(WMSDs)评估中的信效度.方法应用BRIEF和OWAS方法对某三甲医院194名医护人员

期刊

工效学基本因素检查表(BRIEF)工作姿势分析系统(OWAS)职业性肌肉骨骼疾患(WMSDs)医护人员信度效度

基于RLS-TD和值梯度的强化学习方法用于LQR控制问题

与本文相关的学术论文