基于强化学习的非线性系统优化控制研究

来源 :天津大学 | 被引量 : 0次 | 上传用户:xiongyongdezhanghao
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
非线性系统的优化控制问题是控制领域重要的研究课题之一。由于实际系统强大的非线性特性,通过对系统建立数学模型,利用传统的基于模型的控制方法求解最优控制器的思路受到了限制,因此探索模型不能完全确定或完全未知情况下的非线性系统的最优控制方法,是非常重要且有价值的研究课题,而强化学习方法是求解系统模型无法精确获得时的有效智能控制方法之一。因此本文主要是基于强化学习方法求解非线性系统的最优控制问题,主要研究内容包括:
  (1)针对系统模型部分未知且系统内部状态不可测的典型二阶非线性系统,设计跟踪控制器,跟踪目标轨迹。首先利用系统的输入输出信息设计神经网络观测器,一方面逼近系统的漂移动态,另一方面估计系统的内部状态信息;然后基于估计的系统状态,设计滑模跟踪控制器,实现对既定目标轨迹的跟踪。
  (2)针对系统模型部分未知、系统内部状态不可测且存在执行器输入受限的仿射非线性系统,设计最优控制器,实现系统的镇定控制。首先定义了基于系统输出信息的非二次型最优性能指标函数,基于神经网络观测器得到的系统估计状态,推导系统的Hamilton-Jacobi-Bellman方程;然后提出同步积分强化学习算法求解Hamilton-Jacobi-Bellman方程,同时获得最优的性能指标函数和最优控制器;另外同步积分强化学习算法是通过行为-评价神经网络实现的,并且行为-评价网络的权值同时更新。
  (3)针对系统模型完全未知的仿射非线性系统,考虑未知的外部干扰,进行H?镇定控制器的设计。首先将H?控制问题中求解Hamilton-Jacobi-Isaacs方程的过程转换为求解两玩家的零和博弈问题;然后给出基于模型的策略迭代算法,并利用其中的两步迭代公式推导了一个新的迭代方程;提出了无模型离策略强化学习算法来求解这个方程,同时获得最优性能指标函数、最优控制输入和最坏的干扰输入;另外行为-评价-干扰神经网络结构用于离策略强化学习算法的实施;最后将提出的算法用于受限两输入线性系统的镇定控制器设计和复杂混沌电路系统中H∞镇定控制器的设计。
其他文献
本文主要针对三角非线性系统,设计一致性协议以及研究基于一致性的分布式控制。一致性协议以及分布式控制是针对内部含有多个子系统的复杂系统,设计可借助网络通信的一系列控制器,进而实现系统的整体控制目标。一方面,随着工业过程规模的增大,实际系统不可避免地建模为多个非线性子系统。分布式控制技术为实现大型化工业过程提供了有力的支撑和保障。另一方面,通信网络涉及无向网络,有向网络等多种不同拓扑结构,这导致传统控
本文以矩阵半张量积为工具,以逻辑动态系统的代数状态空间表示为方法,研究人工智能中智能推理与智能决策的几个理论与具体决策问题的解法.首先研究逻辑动态系统的两个基础理论问题,然后将逻辑动态系统的建模与控制应用到智能规划和博弈这两类决策问题中.依照著名的人工智能先驱——HerbertAlexanderSimon教授提出的理性决策步骤,本文依次对决策过程的信息获取、策略设计、策略选择以及策略实施四个阶段中
本文研究了乘性噪声随机系统最优控制的若干挑战性问题,包括无限时域It(o)随机系统以及离散马尔可夫跳变系统的不定号LQ控制,具有输入时滞的有色乘性噪声随机系统、具有输入时滞和Markovian丢包的网络控制系统的LQ控制,以及具有随机系数的离散随机系统LQ确定控制.  主要学术贡献包括:1.首次得到了无限时域It(o)随机系统不定号LQ控制的结果,基于对广义Riccati方程收敛性的分析,给出了系
学位
随着轮式车辆应用领域及应用环境的不断拓展,对其灵活性、机动性、地形适应性等方面提出了更高的要求。而传统轮式车辆因自身结构问题及在转向能力、瞬时驱动能力、路面环境适应能力等方面的不足使其无法满足这些需求。因此,集驱动、转向、悬架、制动等于一体的一体化电动轮及其多轮集成与控制技术的研究成为当前智能电驱动车辆领域的研究热点之一。  论文围绕基于一体化电动轮构建的四轮独立驱动车辆在复杂地面环境中执行作业任
在建筑物内发生火灾时,被困人员由于大火、火灾掉落的残渣和浓烟等种种因素下,不能快速找到出口或者安全地带,使得生命受到严重威胁,智能飞行器的引导至关重要。本文针对传统A*算法不能处理动态障碍物的局部路径规划的缺点,通过改进其评价函数和开启集结构方面使得A*算法能够安全避过由火灾环境带来的大火、掉落的残渣和浓烟等动态障碍物;针对改进后在处理局部规划问题时易产生节点冗余、易陷入局部最优的缺点,通过改进评
手指静脉识别作为一种新兴的生物特征识别技术,与传统的身份识别技术相比具有更高的安全性,采集便捷,交互方式友好等优点,在机器视觉与模式识别领域都具有广泛的应用前景。手指静脉识别主要包括以下四个关键步骤,图像采集、感兴趣区域(region of interest,ROI)分割、图像恢复与增强、特征提取以及匹配识别。手指静脉图像的采集利用了人体血液中的血红蛋白可以吸收近红外光的特性,因而采集过程容易受到
油气水多相流普遍存在于油气开采过程中,开展油井内产液剖面流动参数测量研究具有重要学术价值与实际意义。在以水为连续相的油气水多相流动过程中,相间相互作用及滑脱效应导致其时空流动结构非常复杂,分散相流速及浓度分布极为不均匀。此外,不同区域油气田地质构造差异及油田注水开发过程中对地层水性质的改变,导致了油井采出液中的矿化度有较大差别,进而导致了水相电导率及介电常数的变化。上述这些特点给井下油气水三相流产
对流性大风是我国常见的强对流灾害天气之一,每年造成巨大的经济损失,具有局地性、突发性、破坏力大的特点,这使得对流性大风的临近预报非常困难。多普勒天气雷达可以生成高时空分辨率数据,是观测和预报对流性大风的重要设备。但现有的关于对流性大风的智能预报算法不能充分地利用雷达数据所提供的信息,临近预报效果有待提高。为了改善对流性大风的智能预报效果,本文研究使用图像处理和机器学习方法,在雷达数据质量控制、与对
随着微处理器、新能源等先进技术迅猛发展,以及四旋翼无人机控制方法研究日益深入,四旋翼无人机吊挂飞行运输系统的应用前景愈加广阔,在物流运输领域尤为突出。越来越多的研究团队在进行与之相关的研究,而四旋翼无人机吊挂飞行运输系统的强欠驱动、强耦合、高非线性、高自由度等特性,增加了其控制设计研究的难度。  四旋翼无人机吊挂飞行运输系统控制研究充满了机遇与挑战。本论文考虑当前研究现状中的局限与不足,围绕无人机
嗅觉作为生物进化史上最古老的感觉,与人类的记忆、学习和情绪等密切相关。大脑皮层是最高级的神经中枢,能够评估来自各感觉器官的刺激。研究大脑对不同气味的识别能力在嗅觉功能障碍的评估与诊断、抑郁症等精神类疾病患者的情绪调控等方面具有重要的意义。近年来基于脑电(electroencephalogram,EEG)技术的嗅觉研究逐渐受到各国学者的关注,并将其用于对气味种类和情绪的识别。然而,目前的研究大多基于
学位