基于强化学习的战时保障力量调度策略研究

来源 :系统工程与电子技术 | 被引量 : 0次 | 上传用户:cc023061227
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
智能化后装保障调度是当前军事领域的研究热点之一,其中复杂多变的战场环境要求战时保障具有良好的自适应性.针对此问题,提出了基于马尔可夫决策过程的强化学习模型,能够主动学习最佳派遣策略,根据历史数据和当前态势预判后续变化.为了考虑不确定事件的影响,在模型求解算法中增加了基于概率统计模型的仿真流程;为了减少随机事件带来的计算复杂性,利用决策后状态变量重新设计了贝尔曼迭代方程;为了解决状态空间的维度灾问题,提出了基于基函数组合的近似函数.仿真实验表明,强化学习能力的引入能够显著提高战时保障调度性能.
其他文献
作战体系能力图谱是从整体分析作战体系能力的有效方法.针对生成作战体系能力图谱时,需要对海量实验空间进行仿真而带来时效性较差的问题,提出一种基于Stacking集成元模型的作战体系能力图谱生成方法.该方法通过建立元模型替代仿真模型,能够快速准确生成作战体系能力图谱.针对各类元模型适用场景有限、性能波动较大的问题,提出采用Stacking方法对多种元模型进行集成,提高不同应用环境下元模型的鲁棒性;针对建立元模型时精度与效率的矛盾问题,提出适用于体系能力图谱生成的序贯采样策略,通过计算拟合不确定性,选取高价值样
在军事领域中,机载多输入多输出(multiple input multiple output,MIMO)雷达既要探测机动目标,又要防止被截获接收机侦收.针对这一问题,提出了低截获的单基地非均匀阵列MIMO雷达改进多信号分类(multiple signal classification,MUSIC)算法.通过对MIMO雷达匹配滤波后的接收信号进行降维处理、白化处理、时频分析、时频点筛选、正交联合对角化等信号处理,实现了低信噪比(signal to noise ratio,SNR)、低信号持续时间下的方向角估
提出了一种基于投影空间下奇异值分解(singular value decomposition,SVD)的杂波抑制方法.在雷达回波数据中,利用待检测单元的邻近单元构造杂波空间,并将杂波空间在投影空间下进行奇异值分解以实现杂波抑制.为此,本文设计了一种全新的检测器,即将正交投影(orthogonal projection,OP)、奇异值分解和传统恒虚警(constant false alarm rate,CFAR)检测器相结合,记为OP-SVD-CFAR.将OP-SVD-CFAR检测器的检测性能与OP-CFA
为解决更为广泛的模糊决策问题,同时使决策信息与人的认知思维更为贴近,结合q阶犹豫模糊集和三角模糊数,提出了q阶三角犹豫模糊集的概念并定义了q阶三角犹豫模糊集运算.为了刻画信息集成过程中评价信息之间存在的关联关系,将Bonferroni平均算子推广至q阶三角犹豫模糊集,提出了q阶三角犹豫模糊Bonferroni平均算子.为了刻画更多的关联关系,将广义Bonferroni平均算子推广至q阶三角犹豫模糊集,提出了q阶三角犹豫模糊广义Bonferroni平均算子.考虑不同属性的评价信息的重要程度不同,提出了其加权
为解决角闪烁噪声下集中式多输入多输出(multi-input and multi-output,MIMO)雷达的资源优化分配问题,设计了一种面向多目标跟踪任务的自适应资源分配算法.首先采用平方根容积粒子滤波(square-root cubature particle filter,SCPF)算法对各目标状态进行估计,并根据其估计值来计算条件后验克拉美罗下界,从而建立起角闪烁噪声下的跟踪误差评价准则.再依据功率和带宽与条件后验克拉美罗下界(predicted conditional Cramer Rao l
针对目标极化散射矩阵测量中,极化变换过程要求矩阵各元素具有高度的相位一致性,但实际测量很难达到,进而造成变极化基测量结果误差较大的问题.推导了一般化的极化基变换过程,分析了测试系统极化支路相位非对称性对极化变换的影响,结合宽带时频变换算法特征,提出了一种基于宽带高分辨的散射矩阵元素相位修正方法,并通过标准体的实际测量验证,获得了与理论值符合性较好的实验结果.
地面无人平台(unmanned ground vehicle,UGV)已成为各国军事装备自动化和智能化的发展方向,针对UGV仿真系统存在人类智能融合度低、功能不完善和不便于进行算法测试等问题,通过引入人在回路的输入模型,设计了一种具有更强智能性的UGV仿真系统.该仿真系统以机器人操作系统(robot operating system,ROS)架构为基础进行设计,主要由基于人在回路的人机交互界面和仿真场景构成.为了验证该仿真系统的有效性,搭建了集成测试环境,对UGV三角协同编队和操控员调配UGV纵向编队进行
陆军防空旅装备体系贡献率评估理论对陆军防空旅装备体系演化系列工程的建设具有重要意义.以陆军防空旅装备体系贡献率评估目的 为基础,系统分析了陆军防空旅装备体系贡献率评估概念与内涵、评估方法、评估案例,为陆军防空旅装备体系贡献率评估模型的构建与评估方法的应用打下了理论基础.
针对传统防空目标威胁评估中威胁因素考虑不全、定性指标量化不精确以及属性指标权重固定不变等方面的不足,在综合考虑目标静态和动态属性的基础上,提出了基于直觉模糊理想解逼近(technique for order preference by similarity to an ideal solution,TOPSIS)法和变权多准则优化妥协决策(multi-criteria optimization compromise decision-making,VIKOR)法的防空目标威胁综合评估方法.首先,直觉模糊集
在传统作战环的研究中,通常考虑目标、传感、打击和指控4类节点的关系,缺少通信网络对作战体系影响的分析.为此,本文研究了在通信网络信息支援下,作战体系分层模型的构建,并利用超网络理论对各层分别建模,并对信息流、物质流和能量流进行形式化描述.最终形成物理域、信息域和认知域的3层网络模型.同时基于武器装备体系功能和属性的多样性,将其映射到作战网络,选取7种网络模式和典型杀伤链作为研究对象,并根据各打击节点构成边的特性,给出相应的战技性能指标.对于进一步分析作战网络中的信息协同和共享具有重要意义.