基于深度强化学习算法的卫星姿态控制算法研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:DSFDSAF
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
卫星姿态控制是航天工程中非常重要的环节之一,是指按照预定的目标姿态使卫星运动到目标姿态,并且控制还应满足具有一定的鲁棒性、抗干扰能力,有的控制任务还存在状态等各种约束。卫星本身具有非线性、参数耦合等导致建模比较困难的因素,所以鉴于此,本文利用深度强化学习算法为卫星姿态了一种不依赖于卫星精确模型的控制器。针对该问题,本文基于深度强化学习控制思想,以卫星姿态控制为蓝本,研究深度强化学习算法在控制领域的应用。首先在第二章给出了基于四元数的卫星姿态动力学和运动学模型,并在此基础上推导了基于误差四元数的运动学方程,意在指出卫星姿态机动控制可以抽象为输入到固定输出的映射关系,为该问题可用强化学习算法来解决提供了理论基础。并且搭建好的模型为第三章第四章的仿真实验以及控制提供了基础理论。接着本文介绍了模型辨识网络,为了更好将深度强化学习应用在某未知的模型中,并提高数据在深度强化学习算法中的利用率,本文首先进行模型的非参数辨识,在神经网络的选择上,本文比较了BP神经网络和RBF神经网络拟合的效果,最终选择了泛化能力更好的RBF神经网络。再次介绍了强化学习发展的脉络,并重点介绍了深度确定性策略梯度类的算法。本文拟将采用深度确定性策略梯度(DDPG)算法对卫星实现姿态控制,并且给出了相关的改进方案,结合学习好的RBF神经网路,寻找最优的控制策略。并在该章节给出了基于模型的DDPG算法的整体框架,同时又给出了训练结束的标志,即结合相关的测试集来保证模型的收敛性。最后文章对DDPG算法和传统的PID算法的控制效果进行了对比,也对DDPG算法在状态约束情况的进行了仿真验证,以及DDPG算法的稳定性分析和收敛性分析。为了让控制器训练的更好,本文结合已有被控对象的先验知识,将DDPG用于对PID控制器的参数优化。同时,本文给出了深度强化学习算法应该改进的方向。
其他文献
在对比分析国内外公开的太阳能面板除尘技术的基础上,通过开展深入研究,借助冷媒技术,提出了一种全新的无耗能太阳能面板清洗装置,旨在实现太阳能面板的自动高效清洗,更加智
西藏是我国和亚洲的重要生态安全屏障,西藏的生态安全事关全国的生态安全。西藏的生态文明建设是对西藏人民不断增长的生态需要的正确把握和有效回应,是对达赖集团对西藏生态
目的探讨护理干预对乳腺癌术后患者康复的影响。方法将150例乳腺癌手术患者随机分为对照组和干预组各75例。对照组进行常规护理,干预组在对照组基础上进行护理干预。术后比较
从形式美、技术美和象征意义3 个方面对高速列车造型的美学特征进行了分析,着重强调了高速列车造型中的比例与尺度、均衡与稳定、对比与协调、节奏与韵律等特点,并以此为基础对
“第二届全国课改实验区苏教版小学语文实验教科书课堂教学大赛”这几日正在南京举行,因为课务缠身,只能忙里偷闲观摩半日赛程。也许是类似的比赛看多了,内心竞激不起太多的涟漪
老年人便秘已成为临床常见症状之一。饮食、生理性老化、缺乏锻炼、用药不当、精神心理因素、肛周疾病等均可引起便秘的发生。采取健康宣教、心理干预、饮食干预、用药指导、
呼吸是人体维持生命状态的一个必不可少的条件,同时呼吸对演奏乐器起到至关重要的作用,对于小号这样的乐器演奏来说,呼吸是小号演奏的灵魂所在,只有保证呼吸技巧运用得合理恰
目的分析人文关怀护理对肺结核合并咯血患者的影响。方法此次临床研究主要以我院在2012年1月至2013年1月收治的70例肺结核合并咯血患者为研究对象,采用随机分配的原则,将所有
农村小学教学质量普遍低下,如何提高教学的有效性?笔者认为,教师必须树立“以人为本,促进发展”的人本意识,用赏识、信任、关爱唤醒学生的主体意识;用自主、合作、探究的学习方式激
眼看着专注只挖一口井的品牌井里不断涌现出甘泉,而自己因为到处挖井,最后给自己留下的是数不清的坑。优衣库母公司迅销集团发布2015财年上半年业绩报告,截止2016年2月29日的