基于异环境重要性采样的增强DDRQN网络

来源 :火力与指挥控制 | 被引量 : 0次 | 上传用户：cnlhong197416

【摘要】

：

针对局部可观测多智能体学习环境下,智能体与环境频繁交互造成环境不稳定,导致智能体无法使用经验回放机制(experience replay)的问题,采用了一种基于异环境重要性采样的回放

【作者】

：

樊龙涛张森普杰信刘源源

【机构】

：

河南科技大学信息工程学院

【出处】

：

火力与指挥控制

【发表日期】

：

2020年1期

【关键词】

：

多智能体强化学习局部可观测经验回放机制重要性采样 multi-agentreinforcement learningpartially observat

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

针对局部可观测多智能体学习环境下,智能体与环境频繁交互造成环境不稳定,导致智能体无法使用经验回放机制(experience replay)的问题,采用了一种基于异环境重要性采样的回放经验利用机制。并结合该机制再深度强化学习算法,深度分布式循环Q网络(DDRQN)基础上进行了改进,提出一种增强型的深度分布式循环Q网络。通过对DeepMind的PySC2平台DefeatRoaches局部可观测多智能体学习环境实验结果对比分析表明,增强型的深度分布式循环Q网络相比于DDRQN网络,具有良好的学习性能,稳定性、收

其他文献

高校思想政治理论课实践教学模式及其创新

本文通过分析当前高校所采用的各种实践教学模式的利弊,并结合调研成果,分析改进并创新高校思想政治理论课实践教学必须重视作为教学主体的学生对实践教学模式的选择,创新实

期刊

高校思想政治理论课实践教学模式创新

如何引导学生提高自学能力

古人云：“授之以鱼，只供一饭之需，授之以渔，则终身受用无穷。”教给学生学习的方法是“授之以渔”，很多老师也意识到教会学生学习比纯粹地传授知识更为重要。如何有计划地循序渐进地传授学生学习的方法呢?下面谈谈我在语文教学中的一些做法。　　　　一、借助字典、词典进行自学　　　　一年级新生刚入学，我就要求每个学生都要有一本字典或词典，因为学会查字典、词典是小学生形成自学能力的基础，是自学应该掌握的首要手段。

期刊

引导学生自学能力“授之以渔”传授知识授之以鱼循序渐进语文教学学习

新一代指控系统任务控制能力分析与评估

随着新兴信息技术在军事上的广泛应用,联合作战背景下使命任务趋于多样化,同时军事行动对指挥控制系统尤其是任务控制能力提出了更高要求,因此,开展了新一代指挥控制系统的任

期刊

指挥控制系统任务控制能力效能评估指标建模指标体系command and control systemmission control capabilit

基于异环境重要性采样的增强DDRQN网络

与本文相关的学术论文