基于强化Q学习的未知离散系统H_∞跟踪控制方法及应用

来源 :华南理工大学 | 被引量 : 0次 | 上传用户：yangmingli1213

【摘要】

：

很多实际的工程系统在运行过程中存在模型不确定、噪声干扰和参数嬗变等现象,给系统跟踪控制带来新的问题,常用的解决方法主要有模型自适应控制、鲁棒控制等。其中,鲁棒H_∞

【作者】

：

陈倩

【出处】

：

华南理工大学

【发表日期】

：

2004年期

【关键词】

：

H_∞跟踪控制强化Q学习折扣因子输出反馈 off-policy控制

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

很多实际的工程系统在运行过程中存在模型不确定、噪声干扰和参数嬗变等现象,给系统跟踪控制带来新的问题,常用的解决方法主要有模型自适应控制、鲁棒控制等。其中,鲁棒H_∞反馈控制方法虽然对系统的有界不确定性具有很好的效果,但在设计控制器时仍需要知道系统参数信息,对于参数未知或状态不可测系统,该方法的应用具有很大的局限性。因此,本文针对未知离散线性系统的H_∞跟踪控制律的设计问题,提出了一系列新的在线强化Q学习算法,解决了受控系统模型不确定和鲁棒控制问题。基于此,本文研究工作主要包括:1)针对H_∞跟踪控制问题,构建了一个由原受控系统和命令发生器系统组成的增广系统模型,引入了折扣性能函数,并建立折扣的博弈代数Riccati方程。接着,提出了博弈代数Riccati方程唯一解的存在条件,给出了保证系统闭环稳定的折扣因子的下界,并证明了H_∞跟踪控制律的稳定性。2)基于上述模型与理论,推导了on-policy Q函数和递归Bellman方程,并以此提出了在系统动态信息未知时习得H_∞跟踪控制律的全状态反馈和输出反馈两种on-policy强化Q学习算法。经证明,在引入保证持续激励条件的激励噪声后,该on-policy Q学习方法不会使得Q函数Bellman方程的参数估计出现偏差,因此该算法的解必然收敛到博弈代数Riccati方程的唯一正定解,亦即理想解。输出反馈的实现是依据状态重构技术,通过输入、输出以及参考信号数据替代状态量,避免了全状态可测的要求。3)以上on-policy强化Q学习算法,在迭代学习跟踪控制律的过程中,其干扰量也会被以最坏干扰律的形式迭代更新,因此on-policy Q学习算法无法被应用于那些干扰量不可被调控或断开的受控系统。为了克服这一缺陷和拓展强化Q算法的应用范围,本文结合off-policy控制思想,进一步提出了一种新颖的基于全状态反馈和输出反馈的off-policy Q学习算法。同样,这两种off-policy Q学习算法也具有参数估计无偏差性和收敛性。综上所述,本文针对未知离散线性系统的H_∞跟踪控制问题,共提出了基于全状态反馈与输出反馈的on-policy和off-policy的4种Q学习算法。单相电压源UPS逆变器和并网三相光伏发电逆变器的案例仿真结果,验证了所提各个Q学习算法的有效性。

其他文献

基于兴趣漂移的用户动态推荐模型研究

“信息迷航”和“信息过载”问题由来已久,推荐系统能够帮助用户在海量的产品空间中进行筛选。但是传统的推荐算法以静态算法为主,其基本假设是用户兴趣是静止不变的。这种假

学位

兴趣漂移动态推荐长短期兴趣矩阵分解隐式反馈

多晶Ni-Mn-Ga合金结构与性能各向异性研究

Ni-Mn-Ga形状记忆合金具有磁感生应变和磁热效应等优异的性能,但存在普通多晶合金较单晶合金性能有明显下降的问题。本文以织构多晶Ni-Mn-Ga合金为研究对象,研究生长和再结晶

学位

Ni-Mn-Ga合金织构高温变形磁感生应变热效应

基于小波倒谱系数和概率神经网络的先心病心音识别研究

心血管疾病、脑血管疾病具有较高的发病率和死亡率,且难以预防和治疗,而心脏类疾病是常见的心脑血管疾病之一。心脏信号是重要的生理信号,心脏听诊是先心病初诊的主要手段,在心脏病变之前就能发现异常信息,从而预防心脏疾病发生。目前,临床获取心脏信息的方法是医生听诊,但仅仅依靠医生听诊,会导致判断结果不准确,不可避免发生误诊情况。因此,对心音信号进行特征提取和识别等分析有利于先天性心脏病的诊断,为心脏病的临床

学位

心音先心病小波倒谱系数概率神经网络分段定位

KCl刺激枕叶皮层对小鼠脑血流量、组织学和行为学的影响

研究目的:偏头痛(migraine)是全球疾病负担最重的原发性头痛,其发病机制复杂难以厘清。已知的动物模型与临床患者表现存在较大差距也是探索偏头痛病机的难点。以往研究认为皮层扩布性抑制(cortical spreading depression,CSD)是偏头痛先兆(aura)的成因,外源性给予KCl刺激成为诱发CSD的公认模型。但是却少有研究探讨该模型是否真的能够引起动物出现头痛样行为。回顾以往

学位

偏头痛区域脑血流量利扎曲坦疼痛相关行为学皮层扩布性抑制托吡酯

基于通信协议的多智能体系统有限时域H_∞一致性控制

近些年,随着人工智能的迅猛发展,多智能体系统的一致性问题引起了人们的广泛关注。多智能体系统是由多个互相独立的智能体组成的一个大而复杂的系统。智能体的种类繁多,只要

学位

多智能体系统通信协议测量丢失冗余信道H_∞一致性

压缩感知图像重建问题的原始对偶交替方向乘子法的研究

压缩感知理论提供了从高度欠采样数据中精确重建图像的可能性,并且采样数据中含有Gauss噪声的图像重构问题的研究已经取得了丰富的成果.交替方向乘子法将可分离的凸优化问题

学位

全变分正则化脉冲噪声交替方向乘子法Lagrangian对偶问题最优性条件

合作-竞争异质多智能体系统的自适应牵制分组一致性研究

分组一致性是多智能体系统协调控制的一个重要分支,也是复杂系统协调控制的一个根本与首要问题。随着多智能体系统的分组一致性问题在智能交通、数据融合、编队控制等方面的

学位

异质多智能体系统合作-竞争交互分组一致牵制控制自适应控制

高血压患者自发性压力反射敏感性与靶器官损害的研究

目的及意义:高血压是常见的非传染性慢性病,且发病率逐年上升,在2010的流行病学调查显示我国成年人中高血压患病率高达33.5%。高血压是心脑血管病的最主要危险因素,长期血压

学位

原发性高血压压力反射敏感性摄盐量尿白蛋白排泄率颈动脉内膜中层厚度左室质量指数

同心圆筒间TC流动的层流实现及相关实验现象分析

旋转同心圆筒间的流动称为Taylor-Couette(TC)流,是最简单的曲线流动之一。G.I.Taylor早在1923年就对此进行了细致研究;在他之后,有许多学者研究了这种流动的流体稳定性问题,

学位

Taylor-Couette流N-S理论新流动理论单帧长曝光

轨控式导弹的直接力/气动力复合控制研究

近些年来,具有高机动能力的高超声速飞行器得到了迅猛发展,这对原有的防空导弹拦截体系提出了新的挑战。而传统的纯气动力控制导弹已很难满足战场日新月异的要求,所以具备侧

学位

直/气复合自抗扰控制姿态控制指令分配算法模糊控制

基于强化Q学习的未知离散系统H_∞跟踪控制方法及应用

与本文相关的学术论文