基于人工势场的强化学习优化方法

来源 :军事科学院 | 被引量 : 0次 | 上传用户:sophia115416
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,随着强化学习方法在各个领域所取得的显著成绩,如何优化强化学习方法的学习过程得到了越来越多的关注。由于强化学习的学习机制,智能体需要在学习过程中不断试错,利用收集到的样本积累经验,更新自身策略。在强化学习算法的应用中,由环境状态特征不明确、回报值稀疏、样本质量低、探索空间过大等所导致的学习效率低下问题成为强化学习所面临的一大挑战。人工势场法所提供的势函数可以形式化地表示当前观测状态中的态势分布,并具有数学描述清晰、计算复杂度小等特点。利用人工势场法为强化学习过程引入环境态势先验信息,为解决强化学习算法的学习效率低下问题提供了一种新思路。本文针对该问题展开研究,结合人工势场法在单智能体和多智能体场景下分别从不同角度切入对强化学习方法进行优化,主要研究内容如下:(1)针对如何从环境中获取有效状态特征的问题,结合人工势场图的计算,提出了一种基于人工势场的状态特征设计算法。该算法通过从观测状态对应的人工势场图中提取人工势场特征,对状态特征空间进行丰富。该算法在原有状态特征基础上加入势场信息,从而丰富智能体获取的环境信息,提升强化学习智能体的学习效果。通过在Pommerman平台上对基于人工势场的状态特征设计算法的有效性和超参数值设定开展实验,得到结果表明加入该算法在不同难度的场景下都可以提升基线算法的训练效果,并且对人工势场计算的超参数值设定具有一定的鲁棒性。(2)针对环境中回报值稀疏,学习经验难以稳固的问题,提出了一种基于人工势场的奖励设计算法。该算法通过人工势场函数构造出基于势的奖励函数,并添加到环境原奖励函数上构造稠密的反馈信号,对学习过程进行引导,从而提高强化学习算法的学习效果。之后对基于人工势场的奖励设计算法的最优策略一致性进行了分析,并指出加入该算法不会改变学习到的马尔科夫决策问题的最优解。实验验证表明,该算法在不同难度的场景下都可以提升基线算法的效果,并且对不同的基线算法具有良好的泛化性。(3)针对智能体学习过程中由随机性探索引起的样本质量低下问题,提出了基于人工势场的辅助任务算法,该算法在强化学习算法过程中加入基于人工势场的辅助函数,鼓励智能体在训练过程中向人工势场下降的方向探索,从而减少学习过程中重复无用经验积累。之后本文在炸弹人(Pommerman)平台上对基于人工势场的辅助任务算法的有效性和超参数值设定展开实验,表明了该算法对基线算法显著的提升效果。最后通过进一步实验对基于人工势场的状态特征设计算法、基于人工势场的奖励设计算法和基于人工势场的辅助任务算法三个算法之间的相互影响进行了探究,结果表示,当三个算法同时应用时对强化学习算法的提升效果最大。(4)针对多智能体环境中的不稳定性问题和解空间维度爆炸问题,提出了基于人工势场的动态权重学习算法和基于人工势场的多智能体最大熵强化学习引导算法。基于人工势场的动态权重学习算法根据智能体周围状态所对应的人工势场值,自适应地调整网络参数,在不增加网络深度的情况下提升智能体模型的表达能力,更有利于智能体间的协作学习。基于人工势场的多智能体最大熵强化学习引导算法利用具有态势先验知识的策略熵调整智能体的学习目标,进而引导智能体进行更有效的动作探索。在星际争霸II平台中不同难度的微观对战场景上进行的实验结果表明,这两个算法在不同难度场景下都能显著提升基线算法的胜率,并学习到表现优异的协同策略。
其他文献
背景:急性呼吸道感染(acute respiratory infection,ARI)是在全世界范围内造成高发病率、和死亡率的主要健康问题之一,受到全球的广泛关注。在中国,对引起急性呼吸道感染的病原体进行连续和全面的监测项目尚属空白。亟须对引起我国急性呼吸道感染的病原体进行长时间、全年龄段、大范围的监测,以更加全面的了解我国各类急性呼吸道感染的流行特征。与此同时,ARI的传播流行受到各种因素的广泛
学位
太阳能是一种极具发展潜力的可再生能源,以其污染小,储量大,成本低等优质资源属性,在全球范围内有着广泛开发前景,因此世界各国都纷纷加大了在太阳能领域的相关研究投入。我国在双碳政策的助推下,积极出台了光伏发电领域的一系列配套政策,并在青藏高原地区进行重点研究与开发,以期改变我国目前化石能源为主导的能源结构。本文以此为契机,选择太阳能光伏发电潜力为研究对象,在阅读大量文献,政策文件,参考前人研究的基础上
学位
在如今愈加激烈的大国博弈环境中,取得对太空的主导权俨然可以左右战略博弈的天平。而在轨服务、编队飞行、深空探测等复杂的空间任务都需要自主导航和相对导航等精确的航天器状态估计技术。航天器状态估计精度与传感器精度和滤波算法息息相关。一方面,发展火热的微小卫星星座及编队往往采用低成本和低精度的敏感器,这必然带来更严重的噪声水平,对导航算法的性能是一个大的挑战;另一方面,现有航天器状态估计方法大都基于高斯假
学位
背景:近年来,中国社会取得巨大发展,人民生活水平不断提高,油脂摄入增多,伴随而来的是高血脂患者增加。血脂主要由胆固醇及甘油三酯组成,虽然胆固醇在体内发挥重要作用,但其过高的水平已经公认是诱发冠心病、动脉粥样硬化、脑卒中等心脑血管疾病的重要因素,如何降低血胆固醇水平成为医学研究关注的重点之一。目的:目前,药物治疗是国内外降低胆固醇的主流方式,但其费用较高,同时存在肌溶解、肝损伤、糖尿病、消化道反应、
学位
随着各国对海洋资源的不断开发与利用,水下传感器网络(Underwater Sensor Networks,UWSNs)逐渐成为海洋工程领域的研究热点。而水下目标被动定位技术作为UWSNs的关键技术而备受重视。与陆地定位系统不同,由于水下环境的特殊性,电磁波信号较难覆盖水下空间,因此,对水下目标被动定位算法的选择提出了更高的要求。本文利用声信号获取观测参量,针对水下传感器网络不同定位场景下的定位原理
学位
除草剂CLP的大量生产及在农业生产中的广泛应用,严重地威胁生态水体系统。CLP具有广谱抑菌特性和抗生物降解性,进入污水处理工艺中会对主流脱氮工艺造成潜在影响,而CLP胁迫下反硝化脱氮性能与微生物响应机制是未知的。因此本课题通过批次实验和连续进水反应器分别探讨了CLP短期和长期胁迫下反硝化脱氮性能变化。结合分子生物学手段,解析了CLP对微生物细胞的毒性作用和代谢活性的影响及微生物群落结构与功能的演替
学位
作为社会最基本的组织单位,家庭在满足老人经济支持、生活照护、精神慰藉等养老需求中发挥着重要作用,是其他养老模式所无法替代的。然而,伴随着家庭结构趋向小型化、人口跨区域流动、思想观念转变等社会变迁,传统的家庭养老功能逐渐式微,并呈现加速弱化的趋势。因此,在厘清家庭养老功能变迁轨迹的基础上,可对我国家庭养老现实困境进行剖析,并提出有利于家庭养老功能重塑的对策建议,以期为缓解我国老龄化压力、促进家庭关系
期刊
随着大数据处理技术的发展,基于深度学习的目标检测方法广泛应用于视频监控、自动驾驶、医学图像分析、人脸识别、遥感图像分析等领域。由于传统相机在高速运动和极端光照场景下会产生运动模糊和过曝欠曝现象,导致目标检测算法失效,拥有高动态范围、高时间分辨率等特性的事件相机为复杂条件下的目标检测算法研究提供了新的方向。目前,基于事件相机的目标检测算法面临的重要挑战问题是,如何充分利用事件相机输出的事件序列的特有
学位
目前航天任务的发展逐渐多样化,以在轨服务技术为代表的空间任务不断增加。在航天器在轨服务的任务执行过程中,首先要在保证服务航天器和目标不发生碰撞的情况下对目标实施接近。由于航天器本身的易损性和目标可能存在的非合作性,对服务航天器接近过程中的控制技术提出了较高的要求。同时航天器的安全接近控制方法在其他空间操作任务中具有非常重要的意义。本文以空间目标在轨操作为研究背景,研究了对空间碎片等障碍物和失控的非
学位
在机械臂的设计与制造中,借助仿生思想是一种重要思路。肌肉是驱动人体关节活动的主要驱动器,作为一类生物软材料,肌肉对于软体机械臂的研发起着借鉴作用,而肌肉力学模型的建立对于探索生物肌肉作动机理的研究是十分重要的。近年来,随着仿生控制的机械臂尤其是人工肌肉驱动的智能机械臂的广泛使用,分析生物骨骼肌作动原理、建立力学模型将对机械臂的设计工作提供参考依据。本文以分析肌肉力学特性,建立体现肌肉时变作动力特性
学位