【摘 要】
:
针对多无人艇对海上逃逸目标的围捕问题,提出了一种基于多智能体强化学习的围捕算法.首先,以无人艇协同进攻为背景建立无边界围捕问题的环境和运动学模型,并针对快速性和合围性的需求给出了围捕成功的判定条件?其次,基于多智能体近端策略优化(MAPPO)算法建立了马尔可夫决策过程框架,结合围捕任务需求分别设计了兼具伸缩性和排列不变性的状态空间,围捕距离、方位解耦的动作空间,捕获奖励与步长奖励相结合的奖励函数?
【基金项目】
:
中国博士后科学基金(2016T45686); 湖北省自然科学基金资助项目(2018CFC865); 全军军事类研究资助项目(YJ2020B117);
论文部分内容阅读
针对多无人艇对海上逃逸目标的围捕问题,提出了一种基于多智能体强化学习的围捕算法.首先,以无人艇协同进攻为背景建立无边界围捕问题的环境和运动学模型,并针对快速性和合围性的需求给出了围捕成功的判定条件?其次,基于多智能体近端策略优化(MAPPO)算法建立了马尔可夫决策过程框架,结合围捕任务需求分别设计了兼具伸缩性和排列不变性的状态空间,围捕距离、方位解耦的动作空间,捕获奖励与步长奖励相结合的奖励函数?最后,采用集中式训练、分布式执行的架构完成对围捕策略的训练,训练时采用课程式学习训练技巧,无人艇群共享相同的策略并独立执行动作.仿真实验表明,在无人艇起始数量不同的测试条件下,该方法在围捕成功率与时效性相较其他算法更具优势.此外,当无人艇节点损毁时,剩余无人艇仍具备继续执行围捕任务的能力,该方法鲁棒性强,具有在真实环境中部署应用的潜力.
其他文献
目的 分析舒适护理对慢性阻塞性肺气肿老年患者的应用效果,从而寻找更好的慢性阻塞性肺气肿疾病护理办法。方法 选择医院2019年1月-2020年12月治疗的50例慢性阻塞性肺气肿患者为研究对象。根据组间基本资料均衡可比的原则分为常规护理组和舒适护理组,每组25例。观察两组护理满意度。结果 实施舒适护理后,舒适护理组护理满意度为88.0%,高于常规护理组的56.0%,差异有统计学意义(P<0.05)。结
用 Monod方程、Logistic方程和一个简单的结构模型来模拟批式培养动物细胞的生长。结果显示Moned方程和Logistic方程都不能很好拟合延迟期细胞的生长,而结构模型可以描述细胞从延迟期到静止期的生长过程。
亚硝酸盐广泛存在于肉制品、腌制食品和蔬菜等食品中。由于亚硝酸盐有一定的毒性,摄入过多会危害人体健康。因此,应用快速可靠的方法检测食品中的亚硝酸盐尤为重要。本文总结了各类食品在检测前的预处理方法,综述了近年来国内外检测食品中亚硝酸盐的主要方法和研究进展,总结分析了光度法、色谱法、化学发光法、电化学法、滴定分析法的原理、检测限和优缺点,旨在为科学准确的检测各类食品中的亚硝酸盐提供参考依据。
中国科学院是国家重点实验室建设的积极推动者和主要参与者,一直发挥着骨干作用。回顾了自1984年国家重点实验室设立以来中国科学院主管的国家重点实验室建设和发展历程,系统统计了中国科学院主管的国家重点实验室数量、专项经费、评估成绩等数据,并与教育部等其他部委主管的国家重点实验室数据进行了横向比较。对上述数据的梳理和分析结果表明:中国科学院主管的国家重点实验室的相对竞争力虽然略高于教育部等其他部委主管的
地方高校由于受地域和经济等因素的制约,在中国画教学过程中面临着诸多问题,尤其是教育信息和资源的滞后、缺失造成的教育不对等性,成为困扰地方高校的一大难题。随着互联网和信息技术的迅速发展,“互联网+”教育模式的兴起为地方高校的中国画课程教学提供了更多可能性,“互联网+”教育模式的引入有效缩小了高校之间的教学水平差距,缓解了教学资源匮乏的现状,为地方高校的中国画课程改革开辟了新的路径。
在逆全球化与突发疫情双重交织下,我国企业面临着严重的环境不确定性威胁。如何克服来自环境的不确定性,降低企业面临的风险,成为企业管理理论研究需要关注的重点问题。与此同时,当前研究对供应链集中是否有助于企业发展的问题仍有争议。本文根据2011-2020年上市流通企业的年度数据研究发现:第一,供应链集中有助于降低流通企业的经营风险;第二,供应商在供应链集中降低经营风险的过程中发挥主要作用,相较于零散的客
YOLO系列算法以其优异的检测性能成为目标检测领域的热点问题。回顾了目标检测领域的发展历程,综述了基于深度学习的两类目标检测算法。分别以YOLO系列3个常用算法(YOLO V2、YOLO V3和YOLO V4),在复杂气象条件、复杂背景或复杂姿态下的目标检测任务为切入点,介绍了针对YOLO做出的改进,如:改进特征图、调整分辨率、优化NMS、替换目标函数、融合多模态、修改检测框等措施,并分析了改进算