论文部分内容阅读
经过几十年的发展,基于经典控制理论、现代控制理论和智能控制理论,研究人员已提出多种多样的控制方法使得非线性系统稳定。在实际应用中,保证非线性系统的稳定性,只是控制器设计的基本要求。最优控制不仅能够保证系统的稳定性,还能使系统性能达到最优。自适应动态规划(Adaptive dynamic programming,ADP)结合动态规划、强化学习和神经网络的思想,能够有效避免传统动态规划方法求解最优控制问题时遇到的“维数灾难”问题,为解决非线性系统的最优控制问题提供了有效思路,并已广泛地用于解决最优控制、鲁棒控制、微分博弈、容错控制等问题。然而,随着控制系统日益复杂,需要计算的数据增多,在有限的硬件性能基础上,如何高效利用计算和通信资源,有待深入研究。本文以节约计算和通信资源为目的,研究面向资源高效利用的非线性系统优化控制方法。具体研究内容如下:(1)针对输入受限不确定非线性系统的鲁棒控制问题,提出了一种基于ADP的事件触发鲁棒控制方法。首先,设计由系统状态,控制输入和已知上界函数所构成的值函数,将该系统的鲁棒控制问题转化为针对标称系统的最优控制问题。然后,采用Critic-only结构来近似最优值函数,从而获得近似的最优控制律。为了高效利用计算资源和通信资源,基于Lyapunov稳定性理论,引入事件触发机制设计事件触发条件来确定控制律的更新,并保证闭环系统一致最终有界。(2)针对未知非线性Multi-player系统的零和博弈问题,利用ADP理论,提出了一种基于观测器的事件触发控制方法。首先,为了释放需已知系统动态的条件,利用在线输入输出数据,构建基于神经网络的观测器用于系统辨识。然后,基于Critic-only结构,求解零和博弈的事件触发哈密顿-雅可比-艾萨克方程,进一步得到近似的事件触发最优控制律和近似的事件触发最差扰动律,并皆由事件触发条件决定是否更新,从而达到减少计算负担,节省通信资源的目的。此外,通过Lyapunov稳定性理论,证明了闭环系统状态和Critic网络权重误差动态一致最终有界。(3)考虑含有非匹配不确定项的非线性Multi-player系统的非零和博弈问题,提出了一种基于ADP的改进的事件触发鲁棒控制方法。首先,通过构建辅助系统并设计改进的值函数,将鲁棒控制问题转化为输入受限的最优控制问题。然后,采用Critic网络近似每个Player的最优值函数,以求解具有耦合特性的事件触发哈密顿-雅克比方程。在事件触发框架下,控制律和辅助控制律仅在事件发生时更新,从而高效地利用计算和通信资源。根据Lyapunov稳定性理论,证明了Critic网络权重误差动态和闭环不确定Multi-player系统是一致最终有界的。(4)为了解决具有执行器故障的关联系统的容错控制问题,提出了一种基于ADP的事件触发分散积分滑模控制方法。系统长时间的运行会不可避免的发生故障,若不能及时地干预和处理,不仅会缩短设备的使用寿命,甚至造成严重的后果。针对执行器故障,采用滑模控制律将子系统状态维持在滑模面上,消除执行器故障对系统的影响,得到滑模动态。然后,利用ADP理论和事件触发机制设计事件触发分散最优控制律,以保证滑模动态的稳定性,该控制律仅在事件发生时更新。此外,基于经验回放技术,利用历史数据提出了一种改进的Critic网络权重更新策略来释放持续激励条件。根据Lyapunov稳定性定理,证明了闭环系统是渐近稳定的。(5)针对具有执行器故障的不确定宏微复合平台系统的容错控制问题,提出了一种基于ADP的事件触发积分滑模控制方法。在该系统中,由两个控制器控制的宏微运动是快速且精确定位的重要部分,即控制音圈电机实现的高速宏运动,控制压电设备实现的高精度微运动,两种运动方式相互影响,增加了控制器的设计难度。本文将宏微复合平台系统视为Two-player系统,Player以不同控制成本完成一个协同控制任务,该问题可视为Two-player的非零和博弈问题,同时考虑执行器故障。首先,采用积分滑模控制消除执行器故障和不确定项对系统产生的影响,进而获得标称的宏微复合平台系统。针对标称系统的非零和博弈问题,采用Critic-only结构逼近耦合值函数,求解事件触发哈密顿-雅克比方程,从而得每个Player的近似的事件触发最优控制律。此外,通过Lyapunov稳定性理论证明了闭环宏微复合平台系统的渐近稳定性。最后,对全文的研究内容进行了总结,并对未来的研究工作进行了展望。