基于自适应动态规划的无人机编队最优协同控制研究

来源 :南京航空航天大学 | 被引量 : 6次 | 上传用户:jyk1987525
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
本论文基于自适应动态规划(Adaptive Dynamic Programming, ADP)方法,结合一致性理论,对无人机编队的最优协同控制进行研究。首先建立一致性误差动态模型,基于此模型,主要从三个方面深入分析和研究相应的协同控制技术:讨论无人机系统输入受限情形下的一致性问题,讨论无人机系统模型部分未知和模型完全未知情形下的一致性问题。主要内容有:  (1)针对编队中的无人机系统存在输入饱和受限情形,提出了分布式自适应最优控制方案求解其非零和微分博弈问题。为解决输入受限造成的不连续问题,选用一个合适的非二次型泛函将问题转化为可求解的优化问题。为每架无人机设计单网络结构来近似耦合哈密顿-雅克比(Hamilton-Jacobi, HJ)方程的解,进而求得分布式最优协同控制律。对于无人机的编队系统,使用单网络而不是自适应动态规划典型的双网结构优势更加突出,因为这样不但可以减少对无人机的内存需求还可以减少计算负担。此外所有无人机的神经网络(Neural Network, NN)权值更新都是同时且连续的,这也使得所得控制律是平滑的。  (2)针对模型部分未知的无人机编队系统的最优协同控制问题,提出了基于辨识-评价结构的在线自适应最优控制方案。一般地,非线性非零和微分博弈最优协同控制的关键是耦合 HJ方程的求解。由于存在不确定性,针对每一架无人机,分别使用一个辨识NN用于估计无人机系统的未知动态和一个评价NN用于近似耦合HJ方程的解(最优值函数),继而导出最优协同控制律。基于辨识-评价结构,辨识NN和评价NN可以同步调整权值。  (3)针对模型完全未知且存在干扰的情形,提出了一种新的数据驱动ADP算法。首先提出了基于模型的策略迭代算法,然后证明了值函数和控制策略的迭代序列收敛于最优函数。为了放松算法对系统模型准确信息的依赖,结合前面基于模型的算法和积分强化学习(Integral Reinforcement Learning, IRL)技术,推导出了无模型(model free)迭代方程。进一步提出一种数据驱动的迭代ADP方法,利用生成的系统数据来求解无模型迭代方程。并且从理论上证明了这种无模型迭代方程等价于基于模型的迭代方程。这意味着数据驱动算法可以近似最优值函数和控制策略。
其他文献
心电监护对预防和治疗心血管疾病具有重要意义。目前心电监护的网络化成本高、网络传输的可靠性和安全性较差。无线传感器网络(wireless sensor networks,WSNs)的发展给心电
在长期的运行中,生产过程不可避免会发生一些变化,可能影响产品质量,甚至造成重大事故,完全依靠人力的传统监控方法已不足以解决复杂的质量控制问题。统计过程监控方法不需要
μC/OS-Ⅱ实时嵌入式操作系统的特点是小巧、源代码公开、实时性强、可移植性好、多任务、基于优先级的可剥夺型调度。为了使嵌入式技术具有更广泛的应用性,论文通过对嵌入式
针对兰州地区的湿陷性黄土,通过两根实际工程桩实测出正常使用状态下支护桩桩身在不同开挖深度的弯矩分布,推导了桩身剪力和土压力,并与设计值进行了比较.重点分析了悬臂式支护桩
帕金森综合症(Parkinson’s Disease,PD)是最近几年发病率逐渐升高的几大病患之一,诊断该疾病的重要依据是病人在不同姿态下所表现出的体表的震颤频率和幅度。目前研究显示用
目前,国内外对入侵防御系统的研究已经取得了很大进展,但是还存在几个方面的难题:(1)对网络性能的影响和较高的入侵检测漏报率制约了入侵防御系统的发展和应用;(2)传统的基于
现有的多数智能车辆主要靠人工调节感知系统,这使得它们难以适应新的任务和环境。监督学习算法可以自动调节复杂感知系统的可变参数,提供了一个切实可行的解决这类问题的途径
液体复合材料模塑(LCM)是一种高性能低成本的先进树脂基复合材料制备技术。LCM工艺复合材料产品具有质量好、重复性好、性能受操作者影响小等优点。同时,在制造和使用过程中,
随着计算机视觉系统和控制技术的发展,移动机器人在实际环境中的应用越来越引起人们足够的重视。其中移动机器人对动态目标的检测和跟踪是其智能化一个重要的表现,该技术在智
学分制已经在全国各成人高等学校铺开。学分制作为一种教学管理制度,具有许多的优点,使学生主动地学习,形成独特的个性,但是也可能带来许多问题。学分制是以诚信为基础的教学