【摘 要】
:
基于强化学习的敌方对抗行为评估能够提高仿真推演的智能化水平,强化学习算法的训练速度成为制约其实际军事应用的关键。为了加快强化学习速度,首先将敌方对抗行为评估建模为
论文部分内容阅读
基于强化学习的敌方对抗行为评估能够提高仿真推演的智能化水平,强化学习算法的训练速度成为制约其实际军事应用的关键。为了加快强化学习速度,首先将敌方对抗行为评估建模为多任务强化学习,并将环境知识和经验集成到学习算法,提出基于层次情节性元强化学习(Hierarchical Episodic Meta-Deep Reinforcement Learning,HE Meta DRL)的敌方对抗行为评估方法,协同加快强化学习速度。设计了层次情节性元强化学习智能体结构,给出了具体流程;采用可微分神经字典(Differe
其他文献
针对多输入多输出检测系统中线性检测算法检测性能差、误码率高的问题,提出一种改进格基规约技术的线性检测算法,结合传统ZF、MMSE算法与格基规约中的LLL算法,约减多个初始基
页岩气尤其是深层页岩气水平井套损一直是困扰页岩气分段压裂开发的难题,常规的套管补贴、化学封堵等方法无法同时满足页岩气高压裂压力、大排量施工和小桥塞通过,导致页岩气
高职院校廉政文化建设是将中华优秀传统文化与校园文化相结合,大力弘扬廉政名人的核心价值理念,发挥文化育人的优势,推进廉政文化的大力传播,可以有效遏制高职院校腐败行为的
针对双臂机器人装配规划难题,提出了基于动态运动基元的双臂协调运动和装配策略。首先,分析双臂机器人运动空间,建立双臂运动约束模型,使每条手臂不仅满足自身任务要求,还满
针对经典PID控制器在移动机器人路径跟踪效果不佳的问题,建立了机器人运动学模型。依据P+前馈控制原理,以位置跟踪和姿态跟踪分别为系统外环和内环,设计了一种双闭环P+前馈控
为评估人行桥人致振动响应,提出一种基于有限元理论的人-桥竖向相互作用有限元分析方法,探究行人不同质量、步频及人行桥不同单位长度质量、刚度、阻尼比下的人行桥人致振动
为满足作战体系能力评估的要求,综合利用网络层次分析法(Analytic Network Process,ANP)和实证性方法,设计了兼顾作战评估和体系评估要求的指标体系结构,并给出了用于评估的
针对混流装配线上不同产品作业时间差异导致的工作站瞬时负荷不均衡问题,提出了一种改进的直线型和U型混流装配线多目标平衡方法,并以装配线平衡率、平滑指数作为平衡效果的
水利水电建筑工程施工时,经常会用到大体积混凝土施工技术,特殊的结构决定了混凝土在施工过程中很容易出现开裂问题。为了降低和消除混凝土裂缝对于水利水电工程质量和安全的
为求解给定装配线生产节拍、最大化装配效率的装配线平衡问题,根据装配线的特点和平衡优化需求,分析了装配作业顺序、站位数量等因素对装配线站位内作业分配的影响,综合考虑