论文部分内容阅读
近年来,多智能体系统受到了生物学、物理学、计算机科学、机器人学和控制科学与工程等不同学科领域的研究人员的广泛关注。究其原因是因为多智能体系统在实际工程中有着巨大的应用潜力,它能够为规模巨大、个体之间关系复杂的实际复杂大系统提供很好的建模和控制方式。其中,多智能体系统的一致性控制问题是控制学界的主要研究热点之一。所谓一致性,是指随着时间的变化,多智能体系统中各智能体通过通信、协调最终达到某些关键量的一致。本文主要研究带有一个领导者的多智能体系统的一致性问题,也可称为多智能体系统的分布式跟踪控制问题。然而在实际应用中,设计分布式控制器实现多智能体系统的闭环稳定性和系统状态的一致性是对控制器设计的最低要求。如何设计分布式控制器,既能保证系统的稳定性和一致性,又能使系统的性能达到最优化,是设计系统控制器时需要考虑的一个重要问题。现存的最优控制方法包括变分法,极大值原理,动态规划法和模型预测控制都有其各自的局限性,对于多智能体系统这种大规模的具有耦合的复杂系统,很难用这些方法求得最优控制的解析解。而自适应动态规划(ADP)是一种近似求解最优控制的新算法,其能克服动态规划的“维数灾难”,同时又能够获得近似最优的闭环反馈控制策略,特别地,该方法对于非线性系统的最优控制也行之有效。因此,在研究了多智能体系统一致性问题的基础上,用ADP方法来解决非线性多智能体系统的最优跟踪控制问题。以下是本文的主要研究内容: (1)研究了多无人机系统的有限时间编队跟踪控制问题。首先,通过反馈线性化将非线性无人机模型转化为二阶积分器模型,并对系统的状态变量进行变换,从而将所要研究的问题转化为二阶多无人机系统的有限时间一致性问题来研究。然后各个智能体利用与其通信的邻居智能体的状态信息以及预定的参考运动轨迹的信息,分别设计了基于时间触发的分布式控制协议和基于事件触发的分布式控制协议,并利用有限时间稳定性定理证明了系统在这两种控制协议下的稳定性和跟踪一致性。 (2)研究了基于观测器的二阶领导者-跟随者多智能体系统的编队跟踪控制问题。首先,假设领导者的加速度和速度是时变的且不能被所有的跟随者所获得。然后针对系统有无通信延时两种情况,分别设计了分布式观测器对领导者的加速度和速度进行估计,利用各个跟随者自身的状态信息及其邻居智能体的位置信息设计出基于分布式观测器的控制协议。最后,通过构造Lyapunov函数分析了多智能体闭环系统在控制协议作用下的稳定性,并证明了多智能体系统编队跟踪误差有界。 (3)研究了部分模型未知的非线性多智能体系统的最优跟踪控制问题。首先,利用Bellman极值原理建立了多智能体最优一致性问题的Hamilton-Jacobi-Bellman(HJB)方程,根据博弈理论,将HJB方程的解和纳什均衡建立理论联系。然后,利用系统的输入-输出信息设计出基于神经网络的状态观测器和评价器分别对系统内部状态和性能指标进行估计。接着,利用自适应动态规划方法求得耦合的HJB方程的近似解,从而设计出非线性系统的最优控制策略的在线实现算法。最后,利用Lyapunov稳定理论证明了多智能体系统的稳定性,并且证明了观测器神经网络和评价器神经网络的权值估计误差,最优控制策略的估计误差以及多智能体系统的跟踪误差均是一致最终有界的。 (4)研究了部分模型未知且具有扰动非线性多智能体系统的事件触发最优跟踪控制问题。首先,通过将扰动作为控制输入来考虑,将具有扰动的多智能体系统的最优跟踪控制问题转化为多人零和博弈问题,并利用Bellman极值原理和事件触发机制建立了多智能体最优跟踪问题的基于事件触发的HJB方程。由于系统内部状态未知,利用输入-输出数据建立出基于神经网络的事件触发状态估计器。然后,建立基于神经网络的事件触发评价器用于近似各智能体的性能指标,利用自适应动态规划方法求出耦合的事件触发HJB方程的近似解,从而得到最坏扰动量和基于事件触发的最优跟踪控制近似值。最后,通过Lyapunov稳定性理论证明了多智能体系统的稳定性并且得到基于事件触发的观测器和评价器的神经网络权值估计误差一致最终有界,事件触发控制策略估计值能够收敛到最优值并且多智能体系统最终达到跟踪误差有界。 最后,给出本文的工作内容总结,并对今后的研究工作进行展望。