基于博弈论的多Agent协作追捕方法研究

来源 :河南师范大学 | 被引量 : 0次 | 上传用户:caochangzheng
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
多Agent协作追捕问题研究的是由多个Agent组成能相互协作的团队,去追捕另外一个或一群移动的Agent。多Agent协作问题是多Agent系统的研究热点,而多Agent协作追捕问题是多Agent协作研究中的一个典型问题,这些典型问题的研究成果中所涉及的关键技术已被广泛应用于军事,工业等,如战场搜救,捕俘动作,代理合作,军队包围并抓获入侵者,空战等领域。
  多Agent协作追捕问题中,逃跑者与追捕者在具有学习能力的情况下,逃跑者和追捕者的行为选择都会受到另一方行为策略选择的影响,与此同时追捕团队成员也将影响到其他成员的选择,这之间的相互影响的决策,博弈论为其提供了很好的数学工具,强化学习为参与任务的Agent在保持团队协作、预测逃跑者的行为策略及更新自己的行为策略等方面提供了很好学习模型。本文提出基于博弈论以及强化学习的方法对多Agent协作追捕问题进行了研究,具体如下:
  (1)首先,对国内外一些研究者关于多Agent协作追捕问题所提出方法进行综述。介绍多Agent协作问题的解决方法,以及其典型问题多Agent协作追捕问题的研究现状以及多Agent追捕问题的目的和意义,对已有的研究成果进行了分析,并指出了存在的不足之处;其次介绍了多Agent系统和多Agent协作的基本理论,以及博弈论和强化学习的相关知识。
  (2)研究了有障碍的可感知环境下单逃跑者追捕问题。针对具有学习能力的逃跑者,提出了一种基于博弈论和Q学习的多Agent协作追捕算法,并用虚拟行动的方法解决多个均衡的选择的问题,有效的保证了任务的顺利完成,仿真实验验证了本文所提出的算法在有障碍且可感知环境下,多Agent追捕团队对于单逃跑者的追捕在不同环境下的适应性以及稳定性。
  (3)研究了在具有障碍物的条件下多逃跑者追捕问题。针对具有学习能力的多个逃跑者,且逃跑者之间又能够相互协作产生拘捕行为的问题,提出了一种多Agent协作追捕多目标的方法。该方法基于预测—规划—执行的多Agent追捕算法思想,将多Agent的围捕问题分解为动态多Agent运动状态预测和动态多Agent目标轨迹学习;逃跑Agent之间的团队协作与虚拟Agent决策;追捕团队与目标逃跑者的博弈求解三个子问题进行研究。算法在仿真平台中进行验证,结果显示本文提出的算法收敛性快,可行性高。
  (4)设计和开发基于微软VisualStudio2013社区开发平台,实现了多Agent协作追捕模拟仿真平台,在平台中内置了的博弈算法和强化学习算法,以及本文所提出的算法,可供用户选择,同时在平台中为用户提供可视化操作界面,方便用户选择可视化地形以及Agent的数量,在该平台中进行关于多Agent协作追捕问题的仿真实验,验证本文所提出算法的可行性。
  (5)最后对论文的主要工作进行总结,并阐述下一步的工作。
其他文献
近些年来随着信息技术的快速发展,大量的信息呈现爆炸式的增长,这导致了许多冗余信息的出现,对做出正确的决策产生了影响,因此,对冗余信息的预处理变得更加迫切。特征选择,又称属性约简,作为数据预处理的核心内容已取得了快速的发展,其主要目的是在原始信息系统中选择出一些最有效特征以减少搜索空间,提高数据处理效率,同时保持原始系统数据分类能力。目前,特征选择已被广泛应用到人工智能、数据挖掘、模式识别等领域。传
智能手机和平板电脑等移动终端设备的普及和实时系统的出现,使得核心网络面临着严峻的挑战。数量众多的终端设备进行数据传输消耗了大量的网络带宽和能量,目前骨干网没有足够能力来处理如此庞大的数据。作为5G的关键技术,移动边缘计算将计算、通信和存储等功能从网络核心迁移到网络边缘或者靠近用户的地方,具有高带宽、低时延和位置感知等功能,可以有效缓解骨干网的流量压力。  移动边缘计算与云计算优势互补。前者强调局部
三支决策是一种符合人类认知过程的“三分而治”决策模型,为处理不确定性决策问题提供了合理的解决方法。它同时考虑了决策过程中的不确定性和代价损失,符合人类思维决策的认知过程和选择习惯,是一个值得深入研究的热点。当不确定性决策中涉及多个相互冲突的属性信息时,支持直觉模糊集利用隶属度、非隶属度和支持度直观科学的对事物的不确定性进行刻画。从物体本身所固有的属性和外在对其影响考虑,对不确定性问题进行研究,提高
在现实世界中,优化问题无处不在,因此解决优化问题的方法在许多应用领域和科学研究中都占有重要的地位,且一直是研究的热点。但是随着社会的发展,需要解决的优化问题越来越多、越来越复杂,传统基于精确的数学方法不能很好的解决这些问题,故智能优化算法应时而生。生物地理学优化算法(Biogeography-Based Optimization Algorithm, BBO)是一种模拟物种生存的智能优化算法,它具
数字图像的内容丰富多彩,在商业、政治、军事等诸多领域得到广泛应用。云计算和互联网的迅速发展使大量的图像在网络中存储和传输,然而这些图像往往包含私人信息、企业的重要数据和军事机密信息等,因此防止图像信息泄露成为一个迫在眉睫的问题,图像隐写成为信息隐藏领域的研究热点。目前,深度神经网络在诸多领域取得良好的成果,正逐步向图像隐写领域渗透,并表现出其潜在的应用价值。本文主要从载体修改和无载体信息隐藏两方面
学位
图像是多媒体工具当中最重要的一种信息表达形式,被广泛应用到商业管理、教育教学、军事训练以及家庭生活等人类活动的诸多领域。互联网与多媒体技术的发展使得大量的图像数据在网络上存储和传输,而这些图像数据中很大一部分涉及到了个人隐私或者商业机密等秘密信息,因此,图像数据传输与存储的安全性问题亟需解决。图像隐写术是将涉密图像隐藏到非涉密载体当中,从而隐藏涉密图像的存在,达到信息安全隐蔽传输一种技术。传统的图
滚动轴承作为机械设备的关键支撑部件,由于长期在复杂工况下运行,极易产生各种故障,导致机械设备工作状况恶化。随着传感技术的迅速发展,对机械设备运行过程中顺序、大量、快速且持续到达的流数据进行不停机故障检测变得尤为重要,具有明确的学术价值和应用需求。然而,对于滚动轴承在线异常检测问题,目前仍存在以下问题:1)检测模型无法适应在线数据的轻微波动,使得检测模型将正常样本误判为异常,从而引起较高的误报警率;
学位
在公共卫生方面,传染病对人类生产生活的影响是全方位的,不仅会造成患者身体的不适或功能障碍,还会由于重大传染病的流行而引起人民的恐慌情绪和社会动荡,甚至能够阻滞国家的经济发展。媒介传染病是一类由动物传播的急性传染病,其中蚊媒传染病的占比较高。近年来随着全球气候变化、生态变化、人口流动和城市化等多种自然和社会因素的影响,直接或间接驱动了蚊媒传染病影响范围的扩大和爆发强度的增强。有效及时的预测传染病的暴
学位
按需服务是云计算模式的特色,能够大大降低云平台用户的计算成本。弹性资源管理是云平台实现按需服务的重要手段,而基于负载预测的自动伸缩技术是实现弹性资源管理的重要技术,负载预测的准确性成为影响弹性资源管理性能的关键。随着云平台规模的迅速扩大,计算资源的需求量、种类快速增长,如何对大量的、复杂多样的负载数据建立有效的预测模型,成为大规模云平台负载预测亟待解决的问题。为此,本文从利用任务负载序列间结构化信
学位
计算机网络和多媒体信息处理技术的飞速发展给我们的日常生活带来了很大的便利和效率,同时越来越多的数字信息被存放于公开的网络环境当中,面临着前所未有的被非法获取或者恶意篡改的风险。因此,数字信息的隐私保护以及安全管理问题变得尤为突出。密码学是实现数据隐私保护的主要技术手段,信息隐藏则是保护宿主以及隐秘信息安全传输的主流方式,将二者相结合则可以在保护数据隐私性的前提下通过嵌入信息实现对宿主有效的安全管理
学位