基于强化学习的航空保障作业实时调度方法研究

来源 :郑州大学 | 被引量 : 0次 | 上传用户:JXCHZTP999
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
舰载机的出动架次率常用来作为衡量航空母舰作战性能的核心指标,而航空保障作业(又称“航保作业”)调度效率便是影响该指标的关键因素之一。舰载机航保作业调度是一个在受限的空间、时间和保障资源的联合约束下,以提升舰载机的出动效率为目标,对舰载机航保作业流程进行优化的实时调度规划问题。它对航母编队战斗力的形成至关重要,一直是世界各军事强国长期关注的重点问题。近年来,强化学习作为机器学习的一个子领域发展迅猛,在调度优化领域取得了诸多丰硕成果。它非常适合用来处理类似航保作业调度这种序列决策问题,可实现在动态、不确定、实时环境下的高效调度方案规划。基于此,本文针对舰载机航保作业调度(Aircraft Support Operations Scheduling,ASOS)问题开展了一系列探索研究。首先,提出了一种基于强化学习的序列决策算法,该算法由策略学习和在线决策两个模块组成,可通过最大化长期累积收益从全局的角度对调度过程做出优化。但由于该算法采用了“先来先服务”模式,致使决策时目光短浅,仅能考虑当前候选匹配,可能错过后续更优匹配。因此,提出了一种基于强化学习的自适应分批策略来从批处理的角度优化调度过程,该策略可以根据实时调度环境自适应的划分一个合适的批次大小,进而批分配。最后,得益于对上述军用场景中航保作业调度问题的研究,本文将基于强化学习的研究理论成果迁移应用到了民用的城市物流调度问题中。本文的主要贡献包括:(1)定义了ASOS问题,并提出了一种基于强化学习的高效舰载机航保作业序列决策算法,该算法不仅考虑了调度过程中产生的即时奖励,还兼顾长期收益,从而达到优化调度过程长期效用的目的。具体地,它首先将舰载机航保作业与保障阵位间的实时匹配建模为一个基于POMDP的序列决策问题,然后利用一套基于DQN的学习规划框架对其求解。为了验证算法性能而构建了仿真环境,并在仿真数据集上对此算法进行实验验证,结果表明该算法可以有效满足舰载机实时调度场景的需要。(2)受限于序列决策“先来先服务”模式自身“短视”缺陷给航保作业调度性能带来的瓶颈,提出了一种基于强化学习的自适应滑窗决策算法来求解ASOS问题,该算法可以根据实时调度环境自适应地划分滑动窗口(批次),进而进行批分配,即匹配每个滑动窗口内的舰载机和保障阵位。同时,为该算法设计了一种新颖的状态表示,它整合了舰载机航保作业调度过程中的数量、时间和移动成本等几个关键因素,以进一步提升滑动窗口划分性能。最后,进行了广泛的实验来验证该算法的性能,结果表明该算法可以在满足实时需求的前提下实现高质量的航保作业调度,且比(1)中所提算法性能更优。(3)将探索军用场景中航保作业调度问题的经验思想迁移应用到了民用场景中,定义了一个基于自适应滑动窗口的实时城市快递(Real-Time City Express Delivery via Adaptive Sliding Window,RTDW)问题,由于该问题相较于航保作业调度问题具有更为庞大的任务数和更为灵活的空间路线,致使上述方法不能直接应用,故提出了一种顺序匹配算法(Sequential Matching Algorithm,SMA)和一种时间感知批量匹配(Time-aware Batch Matching,TBM)算法来求解它。此外,受(2)中思想的启发,提出了一种基于DRL的算法来优化TBM算法,该算法基于深度强化学习实现,并配备了一种新颖的组合特征向量作为感知状态来自适应地确定滑动窗口大小,从而为平台带来良好的长期收益。然后,从理论上对批处理算法的竞争比进行了分析,以保障本文所提算法的实际性能。经在两个真实数据集上进行的大量实验表明,本文所提算法可在不同的参数设置下获得理想的匹配质量和效率。
其他文献
本论文的主要工作是在宏观-微观模型理论框架下,基于对能-形变自洽的total-Routhian-surface(TRS)计算方法在(β2,γ,β4)形变空间下对原子核的结构性质进行系统研究。主要内容包括两部分:一、考察不同形变自由度及转动对原子核结构的影响,如研究分析单粒子能级、对修正、壳修正、宏观能、转动能等随原子核形变及推转频率的演化特征。二、系统研究偶偶核的集体转动性质,在Z-N平面上给出核
学位
粒子物理的研究对象是物质的基本结构及其相互作用,是物理学研究最前沿的领域之一。强子物理作为粒子物理的重要组成部分,主要研究强子的内部结构及其相互作用。近几十年来,实验上发现的一些共振态,尤其是在重夸克偶素领域发现的一些强子态,并不符合传统夸克模型的预测。研究这些奇特强子态,对深入理解强子内部结构和量子色动力学理论具有重要意义。由于发现的奇特强子态大多位于耦合道阈值附近,强子分子态在描述这些奇特强子
学位
刑法上的被胁迫,是一种具有特殊法律性质的事由。与一般的犯罪行为不同,因受到他人威胁而实施客观上侵害法益的行为,并不是完全出于自我意志,而是重叠着其他人意志的影响与控制。故被胁迫实施的行为,不能作为一般的犯罪行为简单地予以否定评价和谴责。目前,我国立法与司法对被胁迫行为的态度较为模糊,实践中对被胁迫行为的处理结果也较为多样,或被认定为胁从犯,或被认定为紧急避险,或根据其在犯罪中所起的作用具体处理,被
学位
[目的]探索构建稳定的肝郁化火证高血压病证结合动物模型,并基于代谢组学探讨该模型的生物学基础,寻找差异性代谢物,探讨差异性代谢物与宏观表征的联系;同时观察经典治疗方药丹栀逍遥散对证候及其代谢的影响。[方法]1.肝郁化火证高血压病证结合动物模型的构建采用与人类原发性高血压最为相似的自发性高血压大鼠,通过施加外界干扰因素建立中医证候模型,结合临床症状表现与动物表征的等效转化,从宏观表征组合、微观理化指
学位
超子谱的研究是强子物理研究的重要课题之一。对于重子基态,实验发现的结果与理论预期符合的很好,然而对于重子激发态,特别是超子激发态,由于长期缺乏实验数据,实验研究进展自上世纪80年代以来几乎处于停滞状态。北京谱仪III(Beijing Spectrometer III,BESⅢ)实验是当今世界唯一工作在陶粲能区的高亮度粒子物理实验。截至目前,BESⅢ探测器已经积累了100亿的J/ψ事例,是世界上最大
学位
随着航空领域蓬勃发展,航空枢纽客运压力逐年攀升,随之而来的是愈发高昂的地面运输成本和在大运输强度下维持服务质量的挑战。行李运输系统作为民航机场地面运输系统中的重要组成,是影响整个机场运营成本和服务质量的重要因素。因此,制定科学合理的行李运输车辆调度方案,对降低机场运营开销、维持航空枢纽正常高效运作具有重要意义。然而,目前国内机场大多依靠传统人工决策方法对行李运输车辆进行调配,且现有研究多针对静态环
学位
档案数字化加工是一项劳动密集型工作,具有工作量大、重复度高等特点,长期从事该项工作的人员极易产生烦躁情绪,进而影响档案数字化加工的品质与效果。因此,在档案数字化加工过程中,如何用高效的技术对档案图像进行大批量、标准化增强处理是操作人员较为关心的问题。另外,按照《干部人事档案数字化技术规范》要求,数字档案加工既要从最大程度上保留纸质档案图像的原貌,同时又要避免档案扫描过程中所带来的图像失真问题,让图
学位
康复治疗能有效解决重大疾病产生的后遗症问题,帮助患者恢复生理机能。其中,康复训练是最为常见的一种康复治疗方式,对病人的术后恢复有重要意义。随着康复训练的普及,在医疗机构由专业治疗师一对一指导的康复训练方式已无法满足当今形势下的社会需求。而自主居家康复训练因缺少专业治疗师的监督与指导,其康复治疗效果难以得到保证。上述现状使得医疗领域对智能康复训练系统的需求日益突出。在智能康复训练系统的众多技术中,动
学位
学位
在2014年全面修订的《行政诉讼法》中,“明显不当”作为新增的行政行为违法情形之一,被规定在《行政诉讼法》第70条中。但由于《行政诉讼法》以及最高人民法院近年来出台的司法解释,均未对“明显不当”的定义及适用标准作出明确的规定,导致在司法实践中,法院无法遵循一致的审查路径对“明显不当”进行适用。人民法院正确适用“明显不当”审查标准审理行政案件,对推动“明显不当”审查标准的确立以及维护公民合法权益等方
学位