【摘 要】
:
航天器追逃博弈是当前轨道力学领域的一个研究热点,传统上多采用微分对策来获取追逃双方的最优控制策略,但是这种方法存在求解过程复杂、计算繁琐的缺点,难以满足对抗任务的强实时性要求。人工智能技术发展的不断深入使得利用人工智能实现全部或部分的在线决策成为可能,本文研究了基于深度神经网络和强化学习算法生成空间目标追逃博弈最优控制策略的问题,实现智能、自主、快速的航天器追逃博弈机动轨道在线自主规划。论文的主要
论文部分内容阅读
航天器追逃博弈是当前轨道力学领域的一个研究热点,传统上多采用微分对策来获取追逃双方的最优控制策略,但是这种方法存在求解过程复杂、计算繁琐的缺点,难以满足对抗任务的强实时性要求。人工智能技术发展的不断深入使得利用人工智能实现全部或部分的在线决策成为可能,本文研究了基于深度神经网络和强化学习算法生成空间目标追逃博弈最优控制策略的问题,实现智能、自主、快速的航天器追逃博弈机动轨道在线自主规划。论文的主要研究内容如下:首先,研究了基于微分对策理论的空间目标追逃博弈最优机动策略生成算法。基于CW方程建立了空间目标追逃的相对运动模型,然后利用微分对策理论对固定逗留期、无限时域、生存型三类微分对策模型进行分析和求解,为后续人工智能算法研究中训练和测试数据集的生成奠定了基础。其次,研究了基于深度神经网络的空间目标追逃博弈机动轨迹自主规划方法。针对三类不同的空间目标追逃博弈问题,分别建立了不同的神经网络模型。固定逗留期和无限时域追逃博弈模型都可以经由深度神经网络直接得到航天器的机动策略,数值仿真结果表明神经网络方法是有效的,其生成的飞行轨迹与最优轨迹基本吻合。生存型追逃博弈模型则只能由神经网络拟合求解机动策略所需的四个中间量,由数值仿真结果可以看出,与传统的优化算法相比,神经网络方法在计算速度方面要快得多。最后,研究了基于强化学习算法的空间目标追逃博弈机动轨迹自主规划方法。对于空间目标追逃这类三维连续空间轨迹求解问题,直接用强化学习进行训练的学习效率比较低下,训练耗时长。针对这一问题,本文在强化学习之前先进行监督学习,并将监督学习的结果用于强化学习策略网络的初始化,进而加速了强化学习的学习进程。仿真结果表明,当航天器所处的环境与监督学习所用的动力学模型存在偏差时,强化学习算法可以在线对网络参数进行调整,从而会使网络模型逐渐适用于当前的环境。
其他文献
网上零售商的多样化和网购的普及激发了物流业的迅猛发展。虽然大量的物流运输促进了经济的发展和服务的便捷,快递公司们仍然面临着很多挑战:1)物流成本居高不下;2)节假日快递数量激增导致物流运力不足从而屡屡发生“爆仓”现象;3)专用物流车辆加剧了交通拥堵和环境污染(如碳排放)等问题。在本文中,我们提出了基于众包公共交通系统(CPTS)的城市包裹分发与筹划(CPDCP:City-wide Package
近年来,包括协同搜索和救援在内的许多实际应用都引起了人们对机器人群体控制的极大关注。机器人群体通过单个机器人间的交互,实现机器人群体的协同运动,具有空间和功能的分布式和高容错性等特征。使得机器人群体大于个体之和,机器人群体可以执行单体机器人难以完成的复杂任务。机器人群体控制仍面临很多挑战,例如机器人群体避障时的群集一致性问题。这是由于未知环境下,机器人彼此之间的交互和环境的交互同时进行,频繁且量大
当代科技革命、产业革命和新军事革命的发展,使得计算机技术、互联网技术、数字通信技术等新兴技术不断涌现,从而引起社会深刻变革,对情报工作也产生深远影响,它们既丰富了情报搜集手段、加快了情报分析和传输速度,也给情报管理、情报机构建设带来巨大挑战。面对这一形势,美国依托强大的科技和经济实力,积极推动“军民融合”发展战略,并将军民合作的内容扩展到情报领域,主张在情报工作领域推进军民融合式发展,充分利用民间
社会心态是一段时间内由弥散在整个社会或社会群体/社会类别中的社会共识、各类需求满足与否的感受、社会情绪及社会价值观、社会行为共同构成的一种社会心境状态。社会需求是社会心态的动力基础,社会需求的满足与否通过情绪感染推动民众弥漫性社会情绪的产生,进而通过社会认同和沟通形成社会共识,而社会共识进一步积淀形成更稳定的社会价值观。社会情绪、社会共识和社会价值观又共同影响民众的社会行为,体现了社会心态中社会需
异构传感器智能监视网(Heterogeneous Sensor Intelligent Surveillance Network,HSISN)是由部署在特定监测区域内、搭载各类传感器且具有一定感知、计算和通信能力的传感器节点通过无线组网实时协作构成的监视网络系统。系统能够采集和处理被监控区域内的环境信息,并通过无线网络将信息上传到控制中心,从而达到远程监视的目的。系统具有快速部署、精准感知、成本低
冷冻电子显微技术(cryo-EM)在结构生物学中得到越来越广泛的应用。在应用冷冻电镜技术对分子结构进行三维重构的过程中,显微图像中颗粒的挑选效果影响着后续的颗粒分类和分析的质量,直接关系到最终三维重构的分辨率。本文考察了目标检测中的深度学习算法,对卷积网络的结构、目标检测的分类算法和目标框的坐标回归机制进行了研究。在此基础上,本文提出了一种RSelector卷积神经网络方法,用于冷冻电镜图像中的颗
通信信号调制识别技术是在非协作通信情况下,对接收信号的调制样式进行识别,它属于信号检测和解调的中间环节,是一项非常重要的技术。在民用领域常被用于频谱监管,在军事领域常被用于通信侦察、通信干扰等。本文针对现有的调制识别算法在低信噪比下识别率低、人工提取特征适用性差等问题,对基于特征提取的调制识别算法进行研究,根据特征提取方法的不同,研究包括两个方面:一是基于人工特征方面。研究了新型信息熵特征和传统循
随着互联网技术的发展及智能手机等设备的普及,互联网上的视频数据每天都在以爆炸性趋势增长。如何对网络中的视频数据进行分析识别,对于视频的分类、存储、检索都有着至关重要的作用。而在视频分析研究中,基于视频内容的人体动作识别是其中最为普遍且最为关键的主要任务,在互联网异常视频检测、智能监控、人机交互以及军事领域都有着广泛的实际应用前景。有效提取视频中的时空信息是视频动作识别任务中的关键问题,3D卷积神经
随着近年来作战仿真技术的飞速发展,基于仿真技术的指挥训练能够有效提升人员训练的训练效果和组织效率。而在军队信息化水平逐步提升的过程中,作战力量呈现小型化和多能化的发展趋势,使得以分队为主体的基本作战单元的地位更为重要。研究分队级作战仿真系统,以弥补传统军事训练中对抗性弱等缺点,对于提高营、连、排一级指挥员的指挥技能有着重要的意义。构建逼真的计算机兵力(Computer Generated Forc