面向复杂对抗场景的深度强化学习奖励策略技术研究

来源 :国防科技大学 | 被引量 : 0次 | 上传用户：arski

【摘要】

：

【作者】

：

杨东

【机构】

：

国防科技大学

【出处】

：

国防科技大学

【发表日期】

：

2020年01期

【关键词】

：

深度学习强化学习复杂对抗场景奖励注意力机制

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

深度学习与强化学习的结合使得深度强化学习成为当前走向通用人工智能的重要途径。强化学习算法在智能体与环境的交互过程中,以目标为导向进行学习,强烈地依赖于作为策略输入所观察到的环境状态,并且其应用很大程度上依赖于奖励信号如何高效地解决问题以及如何评估解决问题的进度。在复杂对抗场景中,智能体直接获得对环境的高维感知作为状态输入,并在与环境的交互中学习行为控制策略,这是强化学习在应用中需要面临的一个长期的挑战。在强化学习的过程中,智能体对探索和开发的权衡也仍旧是一个开放性的问题。本文以这些问题和挑战为出发点,设计并实现了创新性的强化学习算法,主要的研究工作如下:（1）针对复杂对抗场景下因为智能体状态观察的复杂和奖励稀疏甚至缺失的问题,本文用马尔可夫决策过程对智能体的任务过程进行建模,设计和实现了基于注意力机制和基于奖励塑形的深度强化学习算法框架,提出了一种融合角色信息的注意力机制和奖励塑形信号的学习方法。（2）针对复杂对抗场景下复杂的状态引起智能体训练效率低效果差的问题,本文提出了基于角色的注意力机制模块。设计并实现了基于角色注意力机制的深度强化学习算法,主要用卷积神经网络并引入任务相关信息来生成软注意力图,使得智能体在观察到复杂的环境后将注意力集中在观察到的信息的重要特征和与任务相关的信息上,学习效率和水平更高效。（3）针对复杂对抗场景下奖励稀疏带来的智能体探索效率低,表现效果差等问题,本文提出了奖励塑形机制。设计并实现了基于奖励塑形机制的深度强化学习算法,通过构造内部奖励模型指导智能体学习行为控制策略,使得智能体在奖励稀疏的复杂对抗场景下,有效地探索环境并利用已经探索的经验完成任务。（4）最后本文将设计并实现的算法在实时策略足球游戏的对抗场景中进行了实验和评估。算法在足球游戏的对抗场景中表现比对照组的强化学习算法和相关技术有明显的提升,并且提高了智能体探索的效率,使得智能体在任务当中更加有效的完成任务获得更高奖励。

其他文献

实践、转向与模式：乡村振兴背景下农村土地综合整治研究

从乡村振兴视角构建土地整治效益评价指标体系，对近年发生在合肥市黄麓镇的土地整治模式进行验证，得出研究区产业兴旺、生活富裕和文明有效三项指标优秀，生态宜居指标良好，表明该地区土地整治效果明显。对黄麓镇田野调查，结合文献爬梳，发现农村土地整治路径呈现出三大新动向：一是分散整治走向空间统筹，二是问题导向转向目标导向，三是以地为本转向以人为本。在此基础上，进一步归纳总结出农村土地综合整治三大新模式：主导提

期刊

乡村振兴土地整治主导提升

《软件学报》2022年出版专刊/专题

期刊

乡村振兴背景下全域土地综合整治策略转型及实施路径

从全域土地进行综合性整治的内涵出发，阐述其功能的实现、内容的实施以及相关的作用机制等，与传统的土地整治方式方法进行对比，分析了在成都、上海以及浙江等地进行土地综合性整治的具体方案。提出在进行全域土地综合性整治时应坚持的总体性策略，即有效地突出产业的支撑性优势，为人们的居住构建更加适宜的生活空间，促进优化生态网络的一体化发展等，在规划引领、制度供给以及资源整合和工程设计等方面也应提供足够的保障与支持

期刊

土地整治乡村振兴策略转型实施路径

乡村振兴中的土地整治效果分析

乡村振兴战略是我国农村地区发展过程中所遵循的重要战略，通过乡村振兴能够加快我国农业经济发展速度。在乡村振兴战略实施过程中，土地整治属于重要的工作内容，可以促使土地资源得到充分利用，发挥土地资源的价值和作用。基于此，本文对土地整治的概念和实施意义进行了分析，针对乡村振兴中的土地整治效果、问题以及整治策略进行了深入分析，以期可以为土地整治活动的开展提供有效参考意见。

期刊

乡村振兴土地整治发展策略

基于深度强化学习的多智能体对抗策略算法

针对在复杂军事化背景下多智能体决策算法探索效率低下、收敛缓慢的问题，提出了基于多头注意力机制和优先经验回放的多智能体深度确定性策略梯度算法（AP-MADDPG）。算法采用基于优先级的经验回放减少算法的训练时间；采用多头注意力机制在复杂的对抗环境中实现智能体之间的稳定、高效的合作竞争。实验结果表明，该算法可以使多智能体更加有效地学习联合策略，拥有更快的收敛速度和更好的稳定性，同时可以获得更高的回合奖

期刊

多智能体强化学习深度确定性策略优先经验回放多头注意力机制智能决策联合策略合作与竞争

基于主动风险防御机制的多机器人强化学习协同对抗策略

深度强化学习因其在多机器人系统中的高效表现，已经成为多机器人领域的研究热点。然而，当遭遇连续时变、风险未知的非结构场景时，传统方法暴露出风险防御能力差、系统安全性能脆弱的问题，未知风险将以对抗攻击的形式对多机器人的状态空间带来非线性入侵。针对这一问题，本文提出了一种基于主动风险防御机制的多机器人强化学习方法。首先，基于局部可观察马尔可夫博弈模型，建立了多机记忆池共享的风险判别机制，通过构建风险状态

期刊

深度强化学习多机器人风险防御协同对抗事件驱动

离心式压缩机控制器性能研究与优化

在分析影响离心式压缩机控制性能不稳定因素的基础上，提出把压缩机出口压力作为控制目标，实现防喘振阀和入口导叶的解耦控制策略。实际应用结果表明：通过该控制策略优化后，压缩机入口导叶和防喘振阀之间实现了高效调节，降低了机组转速过高产生的额外能耗。

期刊

解耦控制离心式压缩机控制器性能转速过高

试论元大都城的历史地位

＜正＞公元十三世纪中叶,元世祖忽必烈建立元朝,统一了中国。为了“南临中土,控御四方”,偏居西北一隅的上都开平（今内蒙古正蓝旗东）已难以适应形势的需要,于是接受幕僚的“都燕”之策决定迁都燕京（即金代中都城）。然而,事实上,元代都燕京,并非一仍其旧,而是在原金燕京城之东北郊觅新址重建的新城,这座新城,就是驰名中外的元大都城。元大都城在规划设计、建筑艺术、经济贸易、科学文化及其与世界各国文化交往方面的成

会议

空间模式选择与地区经济发展

＜正＞空间资源配置效率的一个重要外在表现形式是城市规模的分布体系。中国不同省区的城市规模分布模式差异性很大，既有“一枝独秀”式的单中心为主，也有“全面开花”的多中心体系。现有研究多认为多中心分布结构有利于经济发展，但实践上不少省区却偏向单中心的空间发展模式，形成了理论与现实的“悖论”。本文提出省区经济规模的异质性是辨析这一问题的重要视角。通过以省区的地理坡度作为城市规模分布的工具变量的实证研究发现

期刊

单中心结构多中心城市规模分布空间模式

城市的发展需遵循“规模经济”的规律

＜正＞城乡间和地区间劳动力资源的空间再配置，是发挥第二波人口红利的必由之路城市的发展遵循“规模经济”的规律，人口会从农村集聚到城市，从小城市集聚到大城市，从城市的外围集聚到中心城区。回顾前一轮中国快速的城市化，最近20年，中国总人口的增长并没有那么快。过去驱动城市化进程的动因，其实是人口从农村向城市的迁移，导致城市产业发展、人口集聚，以及对于城市建设用地和空间拓展的需求。但与此同时，有一个问题却被

期刊

面向复杂对抗场景的深度强化学习奖励策略技术研究

与本文相关的学术论文