非对称博弈中的多智能体行为决策方法研究

来源 :北方工业大学 | 被引量 : 1次 | 上传用户:jmrys
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
计算机游戏博弈中设定高水平智能体玩家来与人类玩家进行博弈也是其中的精髓所在,这也使智能体行为决策方法成为重点研究方向。但随着由传统博弈到非对称博弈的复杂演变,传统方法的泛化性差和人工干预性强导致智能体的决策水平程度很低。使用深度强化学习自主制定决策的方式让在智能体的动作状态信息、奖励函数与特定算法的共同作用下,通过训练神经网络让智能体具有较强的决策能力。为了让智能体在非对称博弈中拥有自主制定行为决策能力,本文构建了一种全新的非对称博弈环境,并且提出了两种智能体行为决策方法,最后让双方智能体在非对称博弈环境中实现对抗与合作。本文主要工作如下:1、通过分析博弈关系与类似博弈的设定,本文结合生活中多个警察抓小偷的博弈模型,自主设计并建立一个全新的非对称博弈规则和环境。为了增加智能体的决策难度,建立了稀疏奖励的三维博弈场景,并在场景中设置了各类元素包括动态元素,为博弈加入动态扰动,并且加大探索难度。同时为博弈设计了一种自定义博弈框架,该框架可以让单智能体方与多智能体方进行博弈。2、本文针对小偷智能体行为决策,提出了一种结合LSTM网络的RND-PPO的智能体决策方法。方法中使用触发奖励和持续奖励结合的奖励函数,告知智能体规则与并且增加训练效率。建立契合规则的动作和状态空间让智能体拥有观测和行动能力。同时本文对使用RND-PPO算法进行改进。经验储存池中的历史信息组合输入到长短时记忆网络,对未来的状态和外部奖励进行预测,融合内外奖励和预测外部奖励的混合优势函数训练价值网络和策略网络,增强外部奖励函数的引导以应对使用内部奖励造成的策略丢失。针对警察智能体行为决策,本文提出一种基于多智能体深度确定性策略梯度(MADDPG)的多智能体决策方法。方法中使用团队共享奖励函数,配合用MADDPG的中心化学习去中心化执行框架,让多个智能体统一任务目标并拥有合作决策的能力。3、本文构建的对比实验验证了本文算法对小偷智能体决策的有效性和优越性。结合自定义博弈框架构建了博弈实验,验证了结合本文两种方法的双方智能体都具有了制定复杂行为决策的能力,并且在博弈中很好的完成了各自目标。
其他文献
肺炎克雷伯菌(Klebsiella pneumoniae)是常见的条件性人畜共患病原菌,可以引起人和畜禽的各种感染甚至死亡。随着临床和养殖业的长期不规范地使用抗生素,细菌耐药问题日益严重,尤其是肺炎克雷伯菌的耐药问题已引起世界卫生组织的重点关注,迫切需要研发新的抗菌药物。产K1型荚膜多糖的肺炎克雷伯菌为高毒力菌株(Hypervirulent K.pneumoniae,hv Kp),可引起的更高的死
学位
为了研究隔震网壳结构的抗震性能,设计并加工了一个缩尺比为1/10的单层球面网壳模型,在其下部结构的柱顶分别安装了摩擦摆支座(friction pendulum bearing,FPB)以及形状记忆合金-摩擦摆支座(shape memory alloy-FPB,SMA-FPB)以支承网壳屋盖。对上述结构模型进行了不同强度三维地震作用下的振动台试验研究,测量了隔震前后结构的动力特性、加速度、位移响应以
学位
随着社会发展经济转型,农村民间借贷作为一种非正规金融,在农村经济市场一直占有举足轻重的地位,由其操作简便、小巧灵活、业务专业需求不高,是农户普遍选择的融资借贷方式。但是与正规金融相比,其缺乏规范地“野蛮”生长,已经成为社会治理的“顽藓之疾”,其内嵌于农村社会网络体系,严重影响了社会稳定,矛盾纠纷复杂,民事刑事纠纷相互交叉又相互独立。而且由于其地域性和道德性特征,致使国家在法律政策管控和农村社会自治
学位
随着网络业务类型的多样化发展和网络资源部署规模的快速增长,流量分类技术在网络资源调配,网络安全防范等方面发挥着至关重要的作用。基于深度学习的流量分类方法往往需要大量有标签数据集才能体现出卓越的性能,然而收集和标记大量数据集需要耗费巨大的时间和人力成本,并且互联网技术的不断革新加快了网络环境的变化速度,导致费时费力收集的样本面临过时的风险。针对上述问题,本文借助迁移学习的思想,提出一种基于深度神经网
学位
陈玉琨教授曾在课堂上提出:“把课堂还给学生,使课堂充满生命的活力,每个学生各得其所地得到发展,创新精神与实践能力得到最充分的发展。”在“双新”、“双减”等政策推动下,笔者所在学校选择在课堂教学过程中采用合作学习的教学模式,用以改变传统课堂中静态化、单一化、程序化的特点。通过多次听课,笔者发现合作学习有名无实,课堂均存在认识片面化、任务无效化、参与两极化、评价单一化、过程随意化、要求同质化等问题。因
学位
《中华人民共和国民法典》第1232条首次将惩罚性赔偿制度引入生态环境侵权领域,其通过调动被侵权者维权的积极性、增加违法成本、加大环境损害行为的震慑力度,以实现对生态环境损害侵权的救济及保护环境的最终目的。但该制度的利益倾斜必须在适当的范围之内,否则极有可能影响其最终目的的实现效果。首先,从惩罚性赔偿举证角度,根据《最高人民法院关于审理生态环境侵权纠纷案件适用惩罚性赔偿的解释》第4条规定,其适用的构
学位
互联网的兴起与发展已经彻底改变了人们的工作生活方式。“互联网+”已经成为新时期中国产业发展的新方向,互联网巨头相继跨入金融业,对传统银行的业务发展造成了极大地冲击和挑战。商业银行要想经受住冲击,提升竞争力,就必须主动适应时代潮流,加强互联网与传统金融业务的融合,而这些工作都需要依靠人才来完成。员工培训是人才培养最有效、最实际的方法,整合提升企业内部的人力资源,利用移动互联网技术加强员工培养的科学性
学位
随着无线通信技术的持续发展与革新,无线设备与系统应用持续激增,导致日益增长的电磁频谱资源需求与有限的电磁频谱资源之间的矛盾愈发激烈,因此亟需解决无线电用频冲突、高效频谱资源复用等问题。电磁频谱资源也是通信对抗领域各方竞争的焦点,通信对抗的核心目标就是获取电磁频谱资源的控制权,其主要手段是采用智能的干扰与抗干扰通信技术压制对方通信系统的使用效能、保障己方通信系统发挥正常的使用效能。但是,目前的干扰与
学位
研究目的:本研究通过对比哮喘-慢阻肺重叠(ACO)患者与单纯哮喘和单纯慢阻肺患者的一般资料、外周血炎症细胞、PCT、FeNO值和肺功能各项指标之间的差异,及FeNO与外周血嗜酸性粒细胞、淋巴细胞、PCT、肺功能之间的相关性,为临床识别ACO患者提供有价值的参考依据。研究方法:从河南省人民医院电子病历系统及病案室回顾性收集2017年6月至2021年6月在该院呼吸与危重症医学科就诊的115例稳定期慢阻
学位
我国古代长期奉行“男尊女卑”,为了维护男性的统治地位,在继承方面主要强调身份继承,即宗祧继承,由男性继承宗祧,同时宗祧继承决定财产继承,女性由于没有宗祧继承权,在财产继承方面也受到诸多限制,没有与男性平等的财产继承权,继承顺位始终排在男性之后,很难获得财产。这种制度在我国封建社会盛行几千年,严重侵害女性的财产权益,直到鸦片战争后,随着西方男女平等思想的传入、资本主义经济的发展和我国救亡图存运动的展
学位