一种深度强化学习制导控制一体化算法

来源 :宇航学报 | 被引量 : 0次 | 上传用户:27-Aug
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
研究了一种基于深度强化学习理论的制导控制一体化算法.不同于传统的制导控制一体化算法和制导控制回路分开设计的方法,基于深度强化学习理论的制导控制一体化算法利用深度学习强化算法生成一个智能体,智能体根据导弹的观测量生成舵偏角控制指令准确拦截目标.首先将制导控制问题转化为一个马尔可夫决策过程,然后提出了一个权衡制导精度、能量损耗和飞行时间的奖励函数,将制导控制问题转化到强化学习问题的框架中.最后采用深度确定性策略梯度算法,求解提出的强化学习问题,训练得到制导控制智能体,智能体根据导弹观测量生成舵偏角指令.通过进行大量的数值模拟,验证了提出的制导控制一体化算法的有效性和鲁棒性.
其他文献
针对火星飞行器探测需求,提出了一种共轴双旋翼式火星飞行器,基于计算流体力学方法优选了桨叶翼型、平面形状和扭转角等结构参数,基于叶素动量理论建立了旋翼气动力学模型,利用数值模拟方法选择了旋翼转速、旋翼间距和桨叶安装角等飞行参数,设计了原理样机“火星飞鸟-I”的结构与控制系统.构建了火星大气环境模拟器和重力补偿与运动约束装置,开展了模拟火星环境下旋翼式飞行器地面飞行试验,验证了共轴双旋翼式火星飞行器的推进性能,展望了旋翼式火星飞行器技术的发展方向.研究成果对我国开展的火星探测工程具有重要借鉴价值.
The effects of solution temperature and holding time on the microstructure,mechanical properties and surface morphology of 2A12 aluminum alloy sheets were discussed in this paper.The universal tensile tester was used to test the tensile strength and yield
An intensified oxidative acid leaching of copper-cadmium-bearing slag featuring using high-efficient oxygen carrier,such as activated carbon,was investigated to achieve high leaching rate of valuable metals.The effects of leaching variables,including agit
针对运载火箭姿态系统跟踪问题,考虑干扰、执行器故障和模型不确定因素的影响,设计了一种基于自适应神经网络的非线性容错控制律.该控制算法结合了连续的终端滑模控制,径向基神经网络和自适应控制方法.首先,基于滑模控制理论,设计了一种快速终端滑模面,保证系统跟踪误差能够在有限时间收敛至零.然后,在终端滑模面基础上,提出了一种基于自适应径向基神经网络估计的终端滑模控制律.利用自适应参数的神经网络逼近系统参数并提高抗干扰性能,采用平滑连续控制策略消除了终端滑模中的颤动现象.通过李雅普诺夫的分析方法证明了闭环系统的收敛性
为实现自主机器人大尺度弱纹理场景下局部精准和全局无漂移的状态估计,提出一种视觉惯性与全球导航卫星系统多源信息融合的同时定位与地图构建算法.首先,通过在局部状态估计中加入线特征来更直观表示环境的几何结构信息,有效提升了弱纹理场景中关键帧之间相对位姿估计的准确性;其次,通过引入线性误差表示,将线性特征表示为直线端点上的线性约束,从而将线特征整合到基于特征点算法的线性表示中,有效改善算法在重复线特征场景下的鲁棒性.最后,使用多源信息融合算法,融合视觉惯性与GNSS测量信息实现了局部精确和全局无漂移的位姿估计,有
针对空间绳网的抓捕过程,确定了抓捕成功的评价标准,研究了多种非理想因素对绳网抓捕过程的影响.使用弹簧质点法建立了绳网的动力学模型,并建立了计入摩擦力的绳网碰撞动力学模型.以绳网边长为度量确定了抓捕目标的理论极限包络.提出了理想工况和非理想工况下界定绳网抓捕成功的判据,并重点研究了发射速度误差、发射同步性和抽出阻力差异对绳网抓捕性能的影响.结果表明:以展开率80%作为抓捕成功的界定标准过于严格,空间绳网具有较高的抓捕容错能力.
针对临近空间防御作战问题,提出了一种考虑零控拦截和交班视窗角约束的中制导算法.首先基于零引力差假设分析了中末交班零控拦截条件,利用该条件可将零控拦截和交班视窗角约束向终端状态约束进行转化,为多约束中制导设计提供了更简便的思路;通过引入低维权重矩阵及控制量的谱表达式,推导了一种时间固定下的广义拟谱模型预测静态规划算法,并结合Legendre伪谱法和自适应Gauss-Lobatto积分,提高了算法计算效率,最后将其用于本文中制导设计.仿真结果表明:本文设计的中制导算法能满足零控交班约束,所需控制成本较小,制导
The corrugated+flat rolling(CFR)and tradi-tional rolling(TR)methods were used to prepare Mg/Al clad plates using AZ31B Mg and 5052 Al plates,and the interface morphologies and mechanical properties of the resulting clad plates were compared.Examination of
针对空间机器人抓捕目标过程中产生的碰撞冲击问题,分析了抓捕瞬态碰撞对机器人系统产生的影响,提出了一种控制力矩能量消耗少、对卫星平台基座扰动小的镇定控制方法,实现了对抓捕目标后组合体系统的镇定控制.首先,利用Kane方法建立了抓捕后的目标-机械臂-卫星平台组合体动力学模型;其次,利用ADAMS软件分析了瞬态碰撞冲击对空间机器人系统的影响,为后续镇定控制策略的设计提供初始仿真参数;采用四次多项式实现了机械臂关节空间轨迹的参数化,设定了基于控制力矩能量与基座扰动的加权目标函数,利用差分进化算法(DE)求解得到满
Stereolithography(SL)-based three-dimensional(3D)printing technique is an efficient method for the fabri-cation of alumina ceramics.The alumina slurry is difficult to obtain due to the barrier between hydrophilic alumina and oleophilic resin.It not only r