基于主动风险防御机制的多机器人强化学习协同对抗策略

来源 :控制与决策 | 被引量 : 0次 | 上传用户:charlehc1986
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
深度强化学习因其在多机器人系统中的高效表现,已经成为多机器人领域的研究热点。然而,当遭遇连续时变、风险未知的非结构场景时,传统方法暴露出风险防御能力差、系统安全性能脆弱的问题,未知风险将以对抗攻击的形式对多机器人的状态空间带来非线性入侵。针对这一问题,本文提出了一种基于主动风险防御机制的多机器人强化学习方法。首先,基于局部可观察马尔可夫博弈模型,建立了多机记忆池共享的风险判别机制,通过构建风险状态指数提前预测当前行为的安全性,并根据风险预测结果自适应执行与之匹配的风险处理模式;特别地,针对有风险侵入的非安全状态,提出基于增强型注意力机制的Actor-Critic主动防御网络架构,实现对重点信息的分级增强和危险信息的有效防御。最后,广泛的多机协作对抗任务试验表明,具有主动风险防御机制的强化学习策略可以有效降低敌对信息的入侵风险,提高多机器人协同对抗任务的执行效率,增强策略的稳定性和安全性。
其他文献
随着我国社会老龄化及医药卫生体制改革的不断深入,药学工作人员致力于提供以患者为中心、高效科学的药学服务,连续性药学服务成为药学领域学者研究的焦点。本文采用文献研究法,对连续性药学服务的概念、重要性、维度和评价指标、国内外发展现状等进行综述,并提出发展建议。连续性药学服务在一些发达国家已发展成熟,在我国起步较晚,急需探索与开发适合于我国医疗卫生服务体系的评价指标。我国连续性药学服务主要是以医联体内综
<正>罗马拥有2,800多年的建城历史,为意大利文艺复兴中心,现今仍保存有相当丰富的文艺复兴与巴洛克风貌古迹,被称为"永恒之城"。罗马是意大利的首都,是一个特别行政区,也是拉齐奥大区的首府。在1285平方千米的土地上有着200多万名居民的罗马,拥有最多的居民区,也是整个欧盟人口第三多的城市。罗马位于意大利半岛的中西部,在拉齐奥大区内,市区跨台伯河两岸。
期刊
本文介绍了在中国少年儿童科技培训基地项目的立面品质控制过程中,如何利用三维建造的手段,对建筑单元立面、材料、构造节点、夜景灯光、雨蓬等构件设计进行模拟和"预审",实现对设计方案的精准控制,并达到设计方案与建成效果的一致性。
本文依托于社交媒体环境,基于S-O-R理论和互动仪式链理论,探究网络互动的不同维度对消费者购买意愿的影响。研究结果表明,网络互动部分维度正向影响感知信任和购买意愿,感知信任在其中起到部分中介作用,专业性起到正向调节作用。
学位
从乡村振兴视角构建土地整治效益评价指标体系,对近年发生在合肥市黄麓镇的土地整治模式进行验证,得出研究区产业兴旺、生活富裕和文明有效三项指标优秀,生态宜居指标良好,表明该地区土地整治效果明显。对黄麓镇田野调查,结合文献爬梳,发现农村土地整治路径呈现出三大新动向:一是分散整治走向空间统筹,二是问题导向转向目标导向,三是以地为本转向以人为本。在此基础上,进一步归纳总结出农村土地综合整治三大新模式:主导提
期刊
从全域土地进行综合性整治的内涵出发,阐述其功能的实现、内容的实施以及相关的作用机制等,与传统的土地整治方式方法进行对比,分析了在成都、上海以及浙江等地进行土地综合性整治的具体方案。提出在进行全域土地综合性整治时应坚持的总体性策略,即有效地突出产业的支撑性优势,为人们的居住构建更加适宜的生活空间,促进优化生态网络的一体化发展等,在规划引领、制度供给以及资源整合和工程设计等方面也应提供足够的保障与支持
乡村振兴战略是我国农村地区发展过程中所遵循的重要战略,通过乡村振兴能够加快我国农业经济发展速度。在乡村振兴战略实施过程中,土地整治属于重要的工作内容,可以促使土地资源得到充分利用,发挥土地资源的价值和作用。基于此,本文对土地整治的概念和实施意义进行了分析,针对乡村振兴中的土地整治效果、问题以及整治策略进行了深入分析,以期可以为土地整治活动的开展提供有效参考意见。
针对在复杂军事化背景下多智能体决策算法探索效率低下、收敛缓慢的问题,提出了基于多头注意力机制和优先经验回放的多智能体深度确定性策略梯度算法(AP-MADDPG)。算法采用基于优先级的经验回放减少算法的训练时间;采用多头注意力机制在复杂的对抗环境中实现智能体之间的稳定、高效的合作竞争。实验结果表明,该算法可以使多智能体更加有效地学习联合策略,拥有更快的收敛速度和更好的稳定性,同时可以获得更高的回合奖