基于自适应动态规划理论的仿射非线性系统最优控制

来源 :东北大学 | 被引量 : 0次 | 上传用户:wd1219981997
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在过去的近二十年中,随着科学技术的迅速发展和社会生产需求的不断提高,最优控制越来越成为控制领域的一个研究热点。传统的非线性最优控制方法由于受到诸多限制,导致其难以应用普及。近些年来,为了更好地求解非线性最优控制问题,一种结合强化学习机制的自适应动态规划方法(Adaptive Dynamic Programming)被提出,该方法依托强化学习的理念构建了评价-执行框架,利用函数近似结构来逼近动态规划方程中的值函数和控制策略,通过最优性原理,以迭代求解的方式近似获得最优代价函数和最优控制策略。因而,自适应动态规划成功地避免了动态规划求解最优控制时存在的“维数灾”问题。但是,自适应动态规划理论及其算法还没有得到完善,利用该方法研究动态系统最优控制的许多理论与技术问题还有待解决。本文基于自适应动态规划,进一步研究了仿射非线性系统中的若干最优控制问题,扩展了自适应动态规划的理论基础与应用范围。本文主要工作和贡献如下:
  (1)针对系统动态特性未知的仿射非线性离散系统,提出一种在线自适应最优控制算法。我们利用一个神经网络对未知系统动态特性进行辨识,之后基于自适应动态规划的评价-执行框架,设计一种基于实时数据与历史数据训练的在线自适应最优控制算法。该算法通过其独特的数据利用方式,能够有效的确保自适应控制中的持续性激励条件。由于引入三个神经网络,则将不可避免的产生神经网络近似误差,为进一步证明该方法的有效性,我们通过李雅普诺夫方法证明系统状态、评价网络权值误差和执行网络权值误差三者能够保证一致最终有界,且该界限大小依赖于神经网络近似误差,同时还给出持续性激励条件的下限需求。
  (2)针对系统动态特性未知仿射非线性连续系统的最优跟踪控制问题,设计一种新型的基于数据的自适应动态规划算法。我们通过对原最优跟踪控制问题的预处理,将原系统增维为由跟踪误差与期望状态构成的增广系统,之后针对该增广系统设计一类带有折扣因子的性能指标函数,并进一步设计数据驱动的策略迭代算法,证明其与传统策略迭代的等价性。我们利用两个神经网络分别作为评价网络和控制网络,在不利用系统动态特性信息的情况下,仅通过系统状态数据来对两个网络进行训练,实现数据驱动的最优跟踪控制器设计。与现有的大部分处理非线性最优跟踪控制问题的文献不同,该方法旨在避免系统辨识过程或利用系统信息,直接利用状态数据来实现最优跟踪控制。
  (3)针对值迭代方法在求解仿射非线性连续系统最优控制问题时的迭代收敛性进行分析,并进一步探讨神经网络近似误差对算法迭代的影响。通过一个定性描述整体值函数与单步积分效用函数之间关系的收缩性条件,首次从理论上证明值迭代方法在处理仿射非线性连续系统最优控制问题时的收敛性,并进一步分析神经网络误差对值迭代算法的影响,揭示最优解与迭代近似解之间的关系。为了验证所得结论,我们分别对线性算例和非线性算例进行仿真,对不同近似精度得到的结果进行对比。本章的主要目的在于从理论分析的角度将值迭代学习机制引入仿射非线性连续系统最优控制。由于值迭代方法可由任意半正定函数作为初始值函数,故其避免了对初始容许控制的需求,从而避免目前大多方法在处理连续最优控制问题时对初始容许控制假设的依赖。
  (4)针对带饱和执行器的仿射非线性连续最优控制问题设计一种单网值迭代方法。考虑执行器的饱和约束限制,构造一种非二次型泛函来作为最优控制的性能指标函数,之后基于该函数类型设计一种连续值迭代方法来求解最优控制器,并首次证明值迭代方法在处理带饱和执行器的仿射非线性连续最优控制问题时的收敛性。在算法实现方面,为了减少计算量,我们仅利用一个神经网络作为评价网络来对迭代值函数进行近似。相较于以往处理该问题的多数工作对初始容许控制的需求,该方法受益于值迭代的学习机制,可以通过任意一个半正定函数来进行初始化,从而克服了针对带饱和执行器的仿射非线性连续系统先验求取容许控制的难点。
  (5)设计一种新型的值迭代算法用于求解仿射非线性连续系统的H∞控制问题。通过引入积分增强学习技术,设计针对仿射非线性连续系统H∞控制问题的连续值迭代方法,并首次通过理论推导证明值迭代学习机制在处理该问题时能够收敛至零和博弈问题的纳什平衡解。我们用三个神经网络作为评价网络、控制网络和干扰网络来分别近似迭代值函数、迭代控制策略和迭代干扰策略,并给出了两个算例来验证所提方法的有效性。相较于处理非线性连续系统H∞控制问题的现存文献,该方法可用任意半正定函数作为初始值函数来初始化算法,从而避免了对初始容许控制的需求,因此初始容许控制的限定条件得以被避免。
其他文献
六氟化硫(SF_6)气体作为一种性能优异的绝缘和灭弧介质,在气体绝缘组合电器(GIS)、气体绝缘变压器(GIT)、气体绝缘线路(GIL)等电气绝缘设备之中得到了广泛的应用。然而,当设备内部由于绝缘故障而发生局部放电或局部过热时,SF_6气体会在高电压或高温条件下分解生成众多具有强化学活性、腐蚀性和毒性的分解产物,严重威胁到电气设备的安全运行和维护人员的身体健康。因此,实现对SF_6气体分解产物的组
学位
连续波泥浆脉冲传输技术是随钻数据泥浆脉冲传输技术的前沿发展方向。为抑制复杂噪声干扰,保障可靠、高速传输,井下连续波脉冲器需产生高度相似正弦式原始压力波形,因此其转阀结构设计尤为重要。考虑到振荡剪切阀较之于旋转阀具有不易堵塞、波形调制方便等优点,在充分考虑电机加速-匀速-减速的运动特性下,本文对振荡剪切阀端面结构与转子非端面结构进行优化设计,以获得可现场应用的转阀形状,完成的主要工作如下:1)设定了
学位
加热炉生产过程的操作优化是通过优化设定加热炉的各段温度,使板坯温度符合轧制要求的同时,降低能源消耗并减少氧化烧损,以提高加热质量,降低生产成本。加热炉作为钢铁工业的重要设备,研究其生产过程操作优化不仅有利于丰富钢铁生产过程优化理论,对于提高钢铁企业的产品质量与节能水平也有重要实际意义。  针对加热炉生产过程操作优化(Operation Optimization of Furnace Process
学位
连铸坯表面温度是优化拉坯速度和判断液相穴深度的关键参数,同时还可为二冷配水系统的闭环控制提供反馈信号,这对提高铸坯产量和质量具有重要意义。  现有单光谱及三光谱CCD铸坯表面测温仪能够通过在线重构算法解决氧化铁皮带来的测温波动,稳定性可达±5℃。但测温仪需要预先设定发射率或假定被测目标为灰体辐射,不能保证温度测量的准确性。多光谱测温法在一定程度上可以减小发射率的不确定性对测温结果的影响。然而,将其
基于模间干涉原理的光纤传感器因其结构简单灵活、易于制备、成本低廉等独特的优势而得到人们的广泛关注,在光纤传感领域具有重要研究价值和巨大应用潜力。模间干涉型光纤传感器的核心原理是基于光纤内传导的模式间干涉对外界变化的敏感而实现传感的,随着对传感器特性的深入研究,模间干涉型传感器目前主要面临着检测精度低、解调方法可靠性差、温度交叉敏感问题等。本文研究工作主要是围绕着基于模间干涉原理的光纤传感技术开展的
磁场检测在很多领域都有重要的应用,例如军事,工业和电力系统传送等领域。与传统的电磁传感器相比,光纤磁场传感器由于其体积小、灵敏度高及抗电磁干扰等优点吸引了众多研究学者的关注。光子晶体光纤因其灵活的空气孔结构而具备很多独特的光学特性,也使其易于通过与敏感材料的结合实现传感的目的。磁流体作为一种新型的功能介质,它有许多磁光特性,如双折射特性、法拉第效应、场透射特性和可调折射率特性等,近年来,基于磁流体
随着科学技术的不断发展,工业系统的规模和复杂程度也不断增加,通过传统的基于机理建模的方法得到系统精确的数学模型也越加困难,且需要花费大量的时间与精力。此外,许多工业系统在运行过程中均能产生大量的离线和在线输入、输出数据,这启发人们思考如何利用数据取代机理模型,直接设计相应的数据驱动控制方法。对于无故障的线性或仿射非线性系统,基于自适应动态规划技术,可利用系统的输入、输出数据(无需系统矩阵、系统动态
切换系统作为一类重要的混杂系统,可以描述许多实际的复杂系统,一般由有限数量的子系统和控制这些子系统切换的切换信号构成。由于切换系统在通讯、化工、电力、制造等领域的广泛应用,关于切换系统的稳定、镇定、观测、滤波和降阶等问题的研究已取得大量的成果。然而,现有的研究大多建立在控制器模态与系统模态完全保持同步的条件下,这在实际系统中是难以实现的。控制器模态与系统模态出现异步的情况称为异步现象,当切换系统系
学位
能源作为国家维系经济发展的重要资源,其开采和应用的先决条件是能源的运输。相比于其他运输方式,管道运输具有运输量大、资源消耗少、建设周期短、安全可靠性高、利于环保等优点。管道运输业距今已有一百五十多年的历史,然而管道在长年使用过程中,难免会遇到腐蚀、磨损等问题,进而破坏管道原有结构形成不同程度的损伤。这种损伤若不及时发现并修理,极可能在高压高温的工作环境下,演变成为管道穿孔或破裂,导致输送的能源发生
学位
磁感应断层成像(MagneticInductionTomography,缩写为MIT)是一种新兴的电磁特性成像技术,该技术是在外加交流激励磁场的作用下,目标导体会因电磁感应作用而产生涡流,当目标导体发生变化时,涡流的强度和分布也会随之发生相应的变化,通过测量检测线圈的信号,再利用合适的图像重构算法重建出目标导体内部结构的分布图。MIT技术具有无辐射、非侵入、非接触以及能实现实时图像监护等优点,因此
学位