【摘 要】
:
随着航空航天事业的高速发展,越来越多的飞行器采用群体或多体协同的方式执行任务,呈现出典型的多智能体特征,适于使用多智能体理论对其进行分析和建模,对分布式自主决策技术的需求日益突出。飞行器自主规避是确保其安全性最直接有效的方法,但是当前对相关技术的研究多是基于静态全局规划算法,难以满足动态场景中多实体间实时协同需求。为了解决多实体协同规避问题,本文引用多智能体系统思想对其进行规避任务决策技术研究。多
论文部分内容阅读
随着航空航天事业的高速发展,越来越多的飞行器采用群体或多体协同的方式执行任务,呈现出典型的多智能体特征,适于使用多智能体理论对其进行分析和建模,对分布式自主决策技术的需求日益突出。飞行器自主规避是确保其安全性最直接有效的方法,但是当前对相关技术的研究多是基于静态全局规划算法,难以满足动态场景中多实体间实时协同需求。为了解决多实体协同规避问题,本文引用多智能体系统思想对其进行规避任务决策技术研究。多智能体系统有着自主、高效和可扩展的优点,本文将其与强化学习技术相结合,用以设计飞行器决策算法。本文以航天器反拦截、无人机避碰和空间机械臂轨迹规划等典型任务为研究背景,对多智能体自主规避任务决策问题进行研究,结合真实约束条件,实现智能体的实时决策。本文取得主要研究成果如下:在运动分析基础上给出智能体与环境交互的数学模型。针对多智能体系统规避决策问题,建立部分可观马尔科夫决策模型,考虑部分可观的约束条件,结合博弈理论研究了多智能体马尔科夫博弈问题,分析常规回报函数的设计方法,并给出了求解序列决策的三种典型方式。在多智能体强化学习方面,分析了航天器规避机动场景和空间机械臂捕捉场景的决策流程;将策略梯度方法向多智能体系统进行改进研究;提出一种基于策略协调和信度分配的Actor-Critic强化学习方法,用于解决全局可观条件下决策器的训练和策略提升问题,并给出相关收敛性分析;根据任务需求设计各关键环节的神经网络结构和算法流程。分别在航天器反拦截和空间机械臂避障规划等多种任务场景中进行了强化学习训练,通过对累积回报值和成功率的结果对比分析验证了所提方法的正确性和有效性。在强化学习算法应用方面,分析典型任务场景对决策效率的约束情况;针对问题场景设计了进行任务决策的神经网络结构,并对其不同部分设计压缩方法;在神经网络权值聚类和量化的基础上,提出一种自适应分层重构剪枝方法,该方法以重训练的方式对目标神经网络进行动态剪枝和压缩,用于提高决策器运行速度,并压缩其存储空间;对部分可观条件下的任务场景进行强化学习系统设计,详细给出了回报函数的设计方法。分别在有限空域大量无人机场景和多航天器反拦截场景对提出方法进行仿真验证,从决策运行速度、累计回报值和成功率等方面对算法性能进行分析和讨论,并验证了所提强化学习方法对实体数量可变环境的适应性。在任务环境稀疏奖励问题上,对任务场景约束和常规强化学习算法局限性进行分析,设计了案例评价机制;提出逆值法强化学习算法,解决了奖励延迟分配和无奖励引导系统学习效率低的问题;基于马尔科夫博弈理论设计了自学习系统,并结合启发式搜索思想分析了所提算法的收敛性;分析了有扰动状态输入情况,并设计了用于对比分析的有限状态机;分析了算法优势和改进方向。在仿真验证中与前文章节训练所得决策器进行了对比分析,验证了所提算法的正确性和相关性能优势。本文对多智能体决策技术进行探索,研究了信度分配、策略协调、执行提速和稀疏奖励等重要方向,提高了航空航天硬件设备在执行任务中的存活率,所得研究成果对航空航天安全保障技术的发展具有一定的参考价值。
其他文献
随着控制系统的发展,其可靠性和安全性也越来越受到人们的重视。然而由于系统结构变得越来越复杂且系统规模越来越庞大,系统的执行器和传感器等元部件不可避免会发生故障,从而导致系统控制性能下降,甚至导致系统运行不稳定。因此,如何针对具有执行器和传感器故障的非线性系统设计有效的容错控制器,保证系统的稳定运行具有重要的理论意义与实际应用价值。本文基于自适应反步控制方法、模糊逻辑系统、容错控制方法、非线性和随机
随着城市化进程的发展,人类活动导致阿什河流域的土地利用和土地覆盖(LULC)发生了巨大的变化。这种土地利用/土地覆盖变化显著改变地表径流,作用于流域生态水文过程,并对河流水质产生影响。基于此,本研究调查了阿什河流域土地利用/土地覆盖变化对流域生态水文过程的影响,以及如何应用可持续土地利用管理(SLM)技术解决流域污染问题。本文利用卫星图像提取并分析了从1990年到2014年阿什河流域的LULC时空
Si2N2O陶瓷化学性质稳定,介电和力学性能优异,在航天透波领域极具应用潜力。但Si2N2O固有的硬脆特性使得复杂构型部件的制备效率低下且成本高昂,限制了其进一步发展。直写成型技术(DIW)能够以陶瓷浆料为墨水,高效成型复杂构型的陶瓷坯体,缩短产品设计-制造-测试-应用周期。本文开展了Si2N2O陶瓷的DIW成型工艺及性能研究。包括高性能水基墨水的设计和优化,水基浆料流变特性的演变规律;原料组成对
近年来由于合成价格低廉以及光电转化效率高,基于有机无机杂化钙钛矿(Organic-inorganic hybrid perovskites,OIHPs)材料为光电转换层的太阳能电池得到了飞速发展。然而OIHPs材料结构不稳定,容易分解,进而影响太阳能电池器件的效率和稳定性,极大地阻碍了该技术的商业化发展。研究其分解机理有利于指导器件性能优化。在众多研究手段中,透射电子显微镜(Transmissio
近年来,随着我国“煤改清洁能源”的推进,准二级压缩空气源热泵在华北等寒冷地区得到了快速应用,取得了良好的节能效果,也促进了空气源热泵从采用定频压缩机到变频压缩机的普及,即准二级变频空气源热泵。然而,当准二级变频空气源热泵应用到温度更低的严寒地区时,因环境温度更低和负荷调节变化而遇到低温适应性、结霜区间变化和除霜速度慢等问题,影响其供暖性能。本文以推动准二级变频空气源热泵在严寒地区的应用为主要目标,
顶管法施工具有设备少、工序简单、工期短、造价低等优点,被广泛应用于城市涵管、管廊等工程中。触变泥浆是顶管施工中重要的润滑减阻剂,其减阻性能的好坏对顶管施工特别是长距离、大断面顶管工程的顺利进行至关重要。论文使用膨润土触变泥浆为基础泥浆,质量配比为膨润土:羧甲基纤维素钠(CMC):无水Na2CO3:水=80:2:3:920,并选择纳米ZnO、纳米SO2、纳米Al2O3 3种纳米材料作为添加剂,通过测
日盲紫外探测技术凭借其环境噪声低、抗干扰能力强、灵敏度高等优势获得了越来越多的关注,并在短波通信、导弹预警、火灾检测、生物医疗、天文天体等多种领域都具备实际的应用价值。Ga2O3作为半导体材料,禁带宽度范围在4.4~5.3e V,对应的响应波段正好位于日盲紫外区域,同时它具有制备手段丰富、稳定性高等多种优势,自然推动其成为了日盲紫外探测领域的热门候选材料。然而Ga2O3也存在一些问题,包括制造高质
日益增长的能源储存需求对电化学储能器件的要求越来越高,合理设计和构筑新型电极材料以提升储能器件的性能已成为当前新能源发展战略下的重要课题,也是推动社会经济可持续发展的重要保障。作为一种极具前景的电化学储能器件,混合超级电容器有机结合了电池和超级电容器各自的储能优势,实现了高能量储存和高功率输出的一体化。电池型电极作为混合超级电容器的重要组成部分,对整个器件的储能性能具有决定性的影响。因此,合理设计
推荐系统是数据挖掘和机器学习领域热门的研究方向之一。在互联网技术飞速发展的大数据时代,推荐系统是解决信息过载的重要技术手段。推荐系统的性能取决于推荐模型或算法对于用户个性化的兴趣和需求的理解。如何利用合理的技术手段,从大规模高维稀疏的用户历史行为数据中,挖掘出用户个性化的兴趣与需求,是当下推荐系统领域的重点研究问题。用户历史行为数据天然以序列(会话)的形式累积在推荐系统中。传统的推荐方法大多采用基
针对小行星着陆任务中的探测器动力学耦合、多约束、非凸性强、不确定性大等特点,考虑到对精确着陆、自主性控制、机载实时计算和鲁棒性的要求,本文对小行星自主着陆轨迹规划和控制方法进行了研究,具体内容包括:分析小行星着陆任务特性,划分着陆小行星过程,给出小行星引力场和探测器动力学的建模,以及保证探测器安全飞行和着陆点跟踪、控制能力受限、飞行开始和结束等约束的数学表达,综合考虑燃料消耗和飞行时间等性能,建立