基于积分强化学习的输出反馈跟踪控制方法研究

来源 :华南理工大学 | 被引量 : 0次 | 上传用户:wdxf365
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
最优控制问题在近年来一直是控制领域研究的热点,主要致力于研究出最优的控制策略,不仅使得被控系统达到指定目标,而且使得系统预设的性能指标达到最优。针对线性系统的二次型调节(Linear Quadratic Regulator,LQR)问题,传统的动态规划方法需要离线求解代数黎卡提(Riccati)方程,然而,该方案需要知道系统的全部动力学信息。目前为止,动态规划方法大多应用于状态反馈,然而,在实际应用中,系统的状态信息不易获得;其次,动态规划算法在解决LQR问题上已日渐成熟,而在求解线性二次型跟踪(Linear Quadratic Tracking,LQT)问题上仍需进一步发展。基于这些瓶颈,本论文提出了基于在线积分强化学习(Integral Reinforcement Learning,IRL)的输出反馈跟踪控制方法,并通过仿真实验,验证算法的有效性。具体工作如下:(1)针对连续时间线性系统,研究一种基于离线策略迭代(Policy Iteration,PI)的输出反馈控制算法解决LQT问题。首先,通过状态重构的方式将原线性系统与跟踪系统组合为增广系统,并使用PI技术进行迭代求解,从而在知道系统的全部动力学信息的前提下得到次优跟踪控制策略。(2)离线PI算法对动力学信息的依赖性造成其使用范围受限,因此,针对连续时间部分未知线性系统的LQT问题,分别设计出基于off-policy IRL的输出反馈控制器以及基于on-policy IRL的输出反馈值迭代(Value Iteration,VI)策略,并使用基于神经网络的自适应观测器在线测量IRL算法所需的状态数据。(3)对提出的算法分别进行理论分析并利用MATLAB软件进行仿真实验,其结果验证了各控制算法的有效性。
其他文献
近年来,推荐系统已经成为许多网络应用必不可少的组成部分。虽然推荐算法在各种网络应用中都取得了很大的成功,但数据稀疏问题依然是影响推荐质量的重要瓶颈之一。为了解决这
高等教育大众化发展的今天,人才能力和身心的全面发展是高等院校人才培养的共同目标。能力和身心健康培养的起点恰是中学生到大学生角色转变的开始,中学封闭的学习环境和略显
语音识别技术已经随着深度学习的发展取得了很多进步,识别结果的准确性得到了极大的提升。尽管如此,受说话人发音、录制环境、主题领域等不匹配的影响,识别错误仍在所难免。
近年来,随着我国工业化建设速度的不断加快,房地产市场的蓬勃发展,换热器产品被广泛应用于工业和民用两大领域,市场需求量持续上涨。中国换热器市场强劲的购买力,使得国外换
图像去噪在图像处理过程中起着举足轻重的作用,作为一种重要的预处理技术,好的去噪效果直接决定后续工作的有效性.近年来,以全变分作为先验信息进行图像去噪的方法得到了广泛
随着现代社会的发展,机器人开始被用于越来越多的领域,在人们日益增长的需求与当前科学技术的发展下,室内移动机器人小车成为热门的研究方向。机器人小车的导航定位作为机器
土壤有机碳(SOC)是土壤质量的重要组成部分,在土壤质量中起着关键的多功能作用,决定着土壤的许多物理和生物特性。土壤有机碳具有高度异质性,不同碳组分对环境和管理措施的响应不同,不同土壤的碳固定特征与保护机制也不同,因此,深入研究土壤有机碳固定及其保护机制,对于更好的了解土壤有机碳提升具有重要意义。针对以上科学问题,通过收集已发表文献数据,建立具备相同有机碳分组方法(湿筛法)、相对独立的43篇文献的
口腔鳞状细胞癌(OSCC)占口腔癌的90%以上,是全球最常见的口腔肿瘤。基因在口腔鳞状细胞癌的发病机制中起着不可忽视的作用。然而,目前对口腔鳞状细胞癌分子机理的研究还不完全。为了确定与疾病相关的基因,研究人员通常会关注表达值的均值在疾病和正常之间存在差异的基因,实际上在两种不同的生物状态(疾病vs.正常)之间基因表达值的方差如果存在差异同样也具有生物学意义。方差是统计中的另一个重要衡量标准,表示数
随着科技水平的进步,随机振动问题越来越受到国内外学者的重视,通常这些问题对于结构的稳定性是有威胁的,然而具有挑战的是利用传统振动理论很难估计这些随机振动问题,随着研
模糊分析学作为一门新兴的应用性比较强的学科,尽管它仅仅只有不到五十年的历史,但其中的模糊算子和模糊控制在实际问题中的应用十分广泛,发展也极为迅速,在当今的高科技大数