微小型飞行器强化学习控制方法研究

来源 :北京信息科技大学 | 被引量 : 0次 | 上传用户:jners08
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
微小型制导弹药是一类典型的微小型飞行器,具有尺寸小、便于携带、精度高、附带损伤小等特点,可装备于无人机或单兵作战,将在未来战争中起到重要作用。在微小型制导弹药的控制中,最优控制作为姿态控制的一种基本策略,可以通过最小化性能指标,获得具有最优性能的调节器或跟踪器。但在设计控制器时,通常需要建立准确的系统模型,而在实际飞行过程中,由于环境的影响及制导弹药自身的变化,导致控制模型不易获取或具有很强的非线性,因而不易求得控制策略。本研究对人工智能(Artificial Intelligence)技术在传统飞行器控制中的应用进行探索。以微小型制导弹药为研究对象,利用强化学习(Reinforcement Learning)方法对其制导与控制进行研究。首先建立微小型制导弹药的动力学模型。利用绝对导数与相对导数的关系得到弹体运动方程组,进而对其线性化得到弹体俯仰通道短周期运动状态方程,主要考虑攻角及俯仰角速率两个状态变量。讨论常用的强化学习方法,并选择Actor-Critic结构进行控制器设计。其次研究线性二次型控制问题。针对跟踪控制,建立增广矩阵并引入折扣代价函数(Discounted Performance Function),推导得到折扣代数黎卡提方程(Discounted Algebraic Riccati Equation)。利用Actor-Critic结构及策略迭代方法,在系统状态矩阵未知的情况下求解最优控制解。与直接求解ARE方程的结果进行对比,分别验证了强化学习方法可以得到二次型最优跟踪器及调节器,并讨论了设计最优调节器时,代价函数的权值设置对状态收敛速度及精度的影响。最后考虑输入量受限的情况,将其等效为带有饱和控制器的非线性系统。建立非二次型代价函数及跟踪哈密尔顿-雅可比-贝尔曼(Hamilton-Jacobi-Bellman)方程,并给出离线策略迭代算法。利用神经网络近似非线性值函数,求得近似最优解。利用数值仿真得到带有饱和控制器的微小型制导弹药的近似最优跟踪控制策略,验证了强化学习方法设计跟踪器的有效性。
其他文献
目的通过对新疆维吾尔自治区人民医院重症医学科收治ARDS病人的临床资料进行回顾性分析,研究我院重症医学科急性呼吸窘迫综合征患者发病诱因、生存率与死亡率及LIPS评分、APA
本文介绍了 BD2F 钢采用甲醇添加三乙醇胺为共渗剂,于780~820C 进行亚温气体碳氮共渗和淬火,获得0.5毫米渗层深度,HRA82致密的碳氮马体层。该工艺特点,是基体只发生部分相变,
本文以职业安全健康管理体系标准为基础,阐述了职业安全健康管理体系的建立对提高安全生产的作用。
众所周知,外卖平台的急剧扩张促进了同城即时配送行业前期的高速发展。如今一路发展下来,在当下市场上新零售模式及懒人经济的促进下,同城即时配送的行业规模也变得越来越大。数
报纸
改革开放40年以来,我国中小学教育事业体制日益完善,地方中小学教师绩效考核工作不断提升,这与国家分阶段、分重点实施适合中小学发展的政策是分不开的。自2009年元月份以后,国内的中小学校在义务教育时期开始实行绩效薪酬体系,很多学校在老师绩效考评上进行摸索和试验。当前,QA县尽管不是所有的中小学校都考试执行老师绩效薪酬体系,不过国内教育制度在不断的深入革新,QA学校不断的壮大,学校里面专任教师在组成上
国家重点档案抢救工程是一项保护我国历史文化遗产的重要文化项目。然而,该工程实施过程中却缺乏项目管理的理念。本文分析了国家重点档案工程的项目属性,运用项目管理的方法
在企业的班组里,“分活”,是经常的、大量的。“活”分派得好,不仅能使生产工作任务按计划圆满完成,而且能使班组内员工心情舒畅、劳动生产热情高、主观能动性强,持续形成你追我赶
针对存在失配误差时多径信号接收中的信号相消问题,提出了一种新的多径接收鲁棒波束形成算法。算法对信号来波方向进行预估,进行区间划分,基于干扰加噪声协方差矩阵重构,去除
本文以已竣工的揭东县土地整理项目为例.介绍了项目的基本情况和主要整理内容.并对土地整理项目的综合效益进行了分析。
赵晶莹是一个很有自己想法的人,也是一个很健谈的人。尤其是在聊到班组质量管理活动也就是我们常说的QC时,她的话语中更会有一种掩饰不住的兴奋。在长春市供电公司内勤检定班班