基于强化学习方法的飞行姿态模拟器控制系统设计

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:villmid
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
由于旋翼式飞行器具有机动性好、成本低和机械结构简单等特点,在近些年已经成为消费市场的新宠,无论是在民用还是军用领域,它都扮演着重要的角色。对于高校或一些科研机构来说,制作一台实际的旋翼式飞行器是不太现实的,尤其是对于控制学科。所以,为了对飞行姿态的控制方法进行试验验证,很多高校自主设计研发了一些模拟飞行姿态的实验平台,其中二自由度的飞行姿态模拟器最为常见。本文以实验室自主研发的一套二自由度飞行姿态模拟器系统作为研究对象,基于强化学习(Reinforcement Learning)算法对其进行控制算法设计。强化学习方法的优势为在于它不需要直接建立被控对象的动力学模型,仅仅依据系统的输入输出数据即可完成对控制率参数的更新,并且通过迭代能够使整个闭环系统工作在某种指标意义下的最优状态。首先,本文研究了无模型(Model-free)的强化学习算法。利用DQN(Deep Q Network)算法对飞行姿态模拟系统进行了控制算法设计,首先利用值函数对当前时刻的状态做一个评估,再通过贪婪策略来进行动作的选取,数值仿真结果表明,经过一定时间的学习之后,能达到良好的控制效果。但是,该算法只适用于离散的情况,所以针对实际的连续控制系统,又采用Policy-Gradient算法进行算法设计,建立了一个策略网络,用环境给出的奖励信息来评价由神经网络算出的梯度信息,从而进行训练。此算法由于是回合更新的机制,具有数据利用率不高的缺点,需要耗费大量时间去进行训练。为克服以上两种方法的缺点,采用DDPG(Deep Deterministic Policy Gradient)算法设计了控制算法。此方法融合了DQN算法和Policy-Gradient算法的优点,建立了策略网络和值网络,用值网络输出的Q值来评判策略网络输出的梯度,从而很大程度上提高了学习的效率,并且达到了更好的控制效果。进而,对于飞行姿态模拟器这类实际的机械系统,本文研究了具有更好效果的基于模型(Model-based)的强化学习算法。采用PILCO(probabilistic inference for learning control)算法来学习出径向基网络控制器的参数,先用高斯过程拟合出系统的概率模型,然后再根据这个概率学模型来进行状态的预测,由预测的状态算出预测的奖励信息,然后根据这个奖励信息来进行控制器参数的优化。最后,本文提出一种基于PILCO算法框架的整定PID控制器参数的方法,很好的解决了PID参数调节的难题。本文将此方法进行了数值仿真和实际试验的实现,达到了理论与实际结合的目的。
其他文献
电致激发产生的单线态激子和三线态激子比例为1:3,磷光材料可以利用这些三线态激子发光,比传统的荧光材料的效率要高很多,理论上内量子效率可以达到100%。在电致发光材料中,引
三维测量通过对景物立体信息的获取可以精确地描述景物的几何形状,基于图像的三维测量是计算机立体视觉中的一项关键技术.本文介绍了利用图像进行三维测量的方法,分析了各种
<正>幻想小说图书市场发展快速,市场规模不断扩大,魔幻、玄幻、奇幻等体裁逐渐成为畅销热点,而随着三体的火爆,这一领域有望迎来春天。作为虚构类图书主力,小说类图书持续拥
通过对昆明市西山区团结镇生态旅游模式调查,分析生态旅游发展过程中存在的问题,提出合理建议.
采用动态硫化法制备了低密度聚乙烯(LDPE)/三元乙丙橡胶(EPDM)热塑性硫化胶(TPV),并对其力学性能、微观结构、压缩应力弛豫及其可逆回复进行了研究。结果表明,当LDPE/EPDM质量比为50/50
目的:分析格栅样光凝治疗视网膜中央静脉阻塞致黄斑囊样水肿的效果。方法:经眼底荧光造影(fundus fluorescein angiography,FFA)和光学相关断层扫描(optic coherence tomagraphy,O
在进行园林设计的过程中,通过借助科学的手段、合理的设计是改善当前环境污染状况的一种体现形式,同时也是加强园林设计规范化的重要方式。就目前的情况来看,园林景观设计工
将测量技术分为接触式和非接触式两大类,先介绍了接触式测量中的三坐标测量机的相关技术,再介绍了非接触式测量中光学和非光学测量所包含的几种主流的三维测量方法的原理,重点讨
为了准确计算叶片在多场耦合条件下的应力及动力特性,在考虑与热源、热力学物性常数及换热边界条件的同时,还要考虑到弹性变形应变率的影响,及其相互的耦合作用.根据叶片的几