基于输出反馈Q学习的未知离散系统跟踪控制方法

来源 :华南理工大学 | 被引量 : 0次 | 上传用户:xiaosun988
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在控制系统的设计上,线性二次跟踪(linear quadratic tracking,LQT)问题是一个重要的研究领域。LQT的目的是为了设计一种控制器,使得其输出信号通过最小化预定义的性能指标以最优的方式跟踪上参考信号轨迹。将基于状态反馈的强化Q学习(Reinforcement Q-Learning,RQL)方法应用于LQT问题可以求解线性系统动力学信息未知的情况,但是需要系统状态变量是完全可测量的,同时基于策略迭代(PI)的RQL方法还需要一个初始稳定可控的控制策略,这限制了RQL在实际工程中的应用范围。本文循序渐进地研究了三种基于输出反馈的Q学习算法(Q学习、多步Q学习和自适应Q学习)用于求解未知离散时间线性系统的LQT问题,有效地避免了需要初始稳定控制策略以及系统状态不可测量或不易测量的局限性,同时也保留了无需事先了解系统动力学信息的优点。以下是对三种基于输出反馈的Q学习算法的简要概述:1.基于输出反馈的强化Q学习算法求解未知离散时间线性系统跟踪控制问题,首先通过构建增广系统将跟踪控制问题转化为具有折扣性能指标函数的调节问题,其求解依赖于基于Q函数的贝尔曼方程。然后,提出了一种新的基于输出反馈强化Q学习机制的VI方案,用于在未知系统动力学信息以及系统状态不可观测或不易观测的情况下求解Q函数贝尔曼方程,最终求得最优跟踪控制策略。2.基于输出反馈的多步Q学习算法求解未知离散时间线性系统跟踪控制问题。众所周知,VI方法无需初始稳定控制策略,但是收敛速度会下降。多步Q学习算法中引入了多步效用函数来评估价值函数,将VI与PI中策略评估相结合,实现了在无需初始稳定控制策略下提高算法收敛速度的目的。3.基于输出反馈的自适应Q学习算法求解未知离散时间线性系统跟踪控制问题。自适应Q学习类似于多步Q学习算法,也是通过结合VI和PI方法中的策略评估操作,通过自适应参数实现两种方法之间的平衡。既加速了VI算法的收敛速度,又避免了PI算法需要初始稳定控制策略的弊端。
其他文献
随着社会的发展和城市化水平的不断提高,工业污水与居民的生活污水排放量逐日增加,致使水环境污染的问题日趋严重,水资源保护问题越来越受到人们的重视,同时污水处理的排放标准也不断提高。在污水处理过程中,污水水质检测系统是污水厂稳定运行的基础,是调整工序,改善工艺,提高污水处理系统稳定性和处理质量的关键。污水处理过程是一个复杂的强非线性、参数时变、不确定的系统,很多水质参数难以采用硬件传感器在线测量。为此
学位
报纸
电子元器件和电路板是电路系统的基本组成部分,广泛应用于电脑、手机、手表等电子产品中。为方便携带,电子产品的微型化一直以来都是一个发展趋势。目前一些电路板布线密度已经达到了微米的数量级;电路板元器件变得越来越小;电路场景变得越来越复杂。这些因素导致电路板及焊接缺陷检测难度越来越大。目前,一些厂商主要用AOI检测这些电路缺陷以防止有缺陷的电路板进入到下一道生产工序。但AOI检测存在漏检率、误检率都较高
学位
Delta并联机器人具有刚度大、速度快、精度高的优点,在需要进行重复的快速抓取动作的场合能够很好的替代人类劳动,被广泛的应用在许多有重要应用价值的工业领域中。本文以平面三自由度Delta并联机器人为研究对象,设计了三种控制方案进行轨迹跟踪控制,并使用软件MATLAB/Simulink进行仿真验证。本文的具体工作如下:针对三自由度Delta并联机器人,本文建立并分析了它的运动学模型和动力学模型。本文
学位
随着化石能源的消耗以及环保意识的提高,社会对清洁能源的需求逐渐增加。太阳能具有易于获取,存量几乎无限、不受地域限制等优点。基于光伏效应,太阳能电池能将太阳能转换成电能,为各种用电设备提供动力。目前,太阳能电池已经基本实现自动化生产,但在生产过程中,由于各种因素,不可避免地会出现缺陷的产品。这些缺陷产品容易引发安全事故,威胁人民群众生命财产安全,必须进行甄别。本文研究了太阳能电池背面电极,通过计算电
学位
近年来,随着计算机、自动化、通信等技术和产业的日新月异,推动四旋翼无人机领域及其相关行业不断取得突破与创新,其研究和应用已经扩展到航空摄影、地质调查、军事应用等各行各业,服务社会。四旋翼无人机路径规划已成为无人机领域一个热门的研究课题。本文针对智能优化算法在四旋翼无人机二维、三维路径规划方法的研究与应用展开探讨,着重围绕着粒子群优化算法、人工势场法、狼群算法的改进策略进行深入研究,提出了相应的改进
学位
雾霾、沙尘、水下等特殊成像条件下观测到的图像,易受到传播介质的影响,呈现对比度低、细节丢失、色彩畸变等问题,降低成像质量,甚至丢失特征信息。这些都影响了后续的识别、检测任务,给监控、探测等机器视觉应用带来困难。近年来,基于成像物理模型方法和数据驱动方法在图像复原领域均取得了显著的成效。因此,本文针对雾霾、沙尘、水下等条件下的观测图像,基于成像物理模型,结合循环生成对抗网络,研究模型与数据联合驱动的
学位
报纸
放卷侧张力系统是整个卷绕系统中极其重要的组成部分,放卷侧的张力稳定是后续加工质量最基础的保证。然而放卷侧系统是一个典型的时变非线性系统,体现在系统存在多种外部输入的非线性扰动,以及放卷辊半径随系统运行而逐渐减小,这些非线性因素影响着张力的稳定程度,制约着系统运行速度。因此,研究放卷侧张力系统的控制问题,对于提高张力控制精度和提升生产效率有显著的意义。本文以放卷侧张力系统为研究对象,研究了放卷系统的
学位
报纸