论文部分内容阅读
本论文基于自适应动态规划(Adaptive Dynamic Programming, ADP)方法,结合一致性理论,对无人机编队的最优协同控制进行研究。首先建立一致性误差动态模型,基于此模型,主要从三个方面深入分析和研究相应的协同控制技术:讨论无人机系统输入受限情形下的一致性问题,讨论无人机系统模型部分未知和模型完全未知情形下的一致性问题。主要内容有: (1)针对编队中的无人机系统存在输入饱和受限情形,提出了分布式自适应最优控制方案求解其非零和微分博弈问题。为解决输入受限造成的不连续问题,选用一个合适的非二次型泛函将问题转化为可求解的优化问题。为每架无人机设计单网络结构来近似耦合哈密顿-雅克比(Hamilton-Jacobi, HJ)方程的解,进而求得分布式最优协同控制律。对于无人机的编队系统,使用单网络而不是自适应动态规划典型的双网结构优势更加突出,因为这样不但可以减少对无人机的内存需求还可以减少计算负担。此外所有无人机的神经网络(Neural Network, NN)权值更新都是同时且连续的,这也使得所得控制律是平滑的。 (2)针对模型部分未知的无人机编队系统的最优协同控制问题,提出了基于辨识-评价结构的在线自适应最优控制方案。一般地,非线性非零和微分博弈最优协同控制的关键是耦合 HJ方程的求解。由于存在不确定性,针对每一架无人机,分别使用一个辨识NN用于估计无人机系统的未知动态和一个评价NN用于近似耦合HJ方程的解(最优值函数),继而导出最优协同控制律。基于辨识-评价结构,辨识NN和评价NN可以同步调整权值。 (3)针对模型完全未知且存在干扰的情形,提出了一种新的数据驱动ADP算法。首先提出了基于模型的策略迭代算法,然后证明了值函数和控制策略的迭代序列收敛于最优函数。为了放松算法对系统模型准确信息的依赖,结合前面基于模型的算法和积分强化学习(Integral Reinforcement Learning, IRL)技术,推导出了无模型(model free)迭代方程。进一步提出一种数据驱动的迭代ADP方法,利用生成的系统数据来求解无模型迭代方程。并且从理论上证明了这种无模型迭代方程等价于基于模型的迭代方程。这意味着数据驱动算法可以近似最优值函数和控制策略。