基于模块强化学习的信息传递与Q值估计研究

来源 :中国科学技术大学 | 被引量 : 0次 | 上传用户:haohaohaobaichi
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,深度强化学习技术在围棋、麻将、星际争霸等复杂游戏任务上取得了成功应用。进一步地,研究者开始探索运用强化学习算法来解决更为复杂的决策问题,如机器人控制、交通信号控制、电力调度等。然而,由于现实任务更具多样性和复杂性,基于单一智能体建模的强化学习方法往往面临着难以求解最优策略的问题。一种有效的解决方案是将整个决策控制器抽象为具有不同功能的实体,从而将原始问题转换为多智能体系统问题。但在转换为多智能体的过程中,现有方法往往忽略了系统内实体间的共性,导致其需要为每个智能体分别训练策略。因此,本文引入模块化强化学习作为新的学习方式,从而将整个决策控制器抽象为多个具有相同功能的模块,同时借助表征信息的不同来体现不同实体的差异性。得益于各个模块间的高度相似性,仅需训练一种策略即可实现整个智能体系统的调度,其训练过程也更为高效稳定。针对复杂系统中智能体的模块化强化学习这一任务设计相关算法,本文的主要工作及贡献如下:·本文针对复杂环境下的决策问题提出了一种基于注意力机制的模块化强化学习方法。该方法将复杂环境中的智能体抽象为具有相同功能的模块,并用基于注意力机制的嵌入方法来实现不同模块间的信息差异化表征。实验证明,在基于MuJoCo修改而来的复杂机器人控制环境中,该方法的性能超越了现有的多任务强化学习算法和模块化强化学习算法。·本文提出了一种基于注意力机制的模块化强化学习信息处理方法。该方法能够将模块间相对关系嵌到注意力网络中,并从智能体的输入信息中提取出不同模块间的相互注意力关系。之后基于注意力计算出模块间交互信息的权重,再对信息进行加权和后续传递。实验证明该方法在信息传递效率以及表征上要优于基于图的信息传递机制。·本文提出了一种基于模块化强化学习在Q值(即动作价值)改进的算法。通过引入随机权重分配机制,能够更好评估模块的Q值,保证稳定且高效的训练。该方法也同样适用于目前所有主流的Actor-Critic强化学习算法。通过在MuJoCo与DM-control等机器人控制任务中的实验证明该方法在性能上超越了以往的集成学习方法,并且能够有效提升相应强化学习算法的性能与稳定性。
其他文献
雷达多目标跟踪(Multiple Target Tracking,MTT),即在雷达监视区域内估计并维持多个目标的状态,是后续目标识别、态势预测等信息融合任务的先决条件,所以在雷达信号处理系统中占有十分重要的地位。海面背景下的目标跟踪,一直以来都面临着复杂海情所致的海杂波干扰、目标回波信号起伏等难题。此外,鉴于雷达分辨能力的提升,以及扫描模式下雷达波束重复照射目标,目标的回波不可避免地在距离维和方
学位
在社会经济高速发展的新时代,交通与旅游融合发展是在依托交通基础设施通达性的基础上,通过挖掘交通与旅游双重属性,带动区域交通、旅游、文化、经济综合协调发展。但风景道作为一种新形式的自驾车旅游目的地与线型旅游目的地,与传统的旅游目的地相比存在很多的不同之处,对于旅游者而言,风景道游憩出行主要受制于旅游者的个人属性、交通属性与旅游目的地属性等条件的制约。目前川西地区存在风景道对沿线旅游资源开发支撑作用不
学位
报纸
城市化步伐加快,我国较多山丘区流域存在没有实测水文数据或实测水文数据序列较短的现象,此外下垫面属性变化也可造成原本有良好的实测水文数据缺乏实用性,流域水文参数不确定性增大,这就使得我国的水文预报存在较大的障碍。因此,研究流域地区的水文模型适用性以及如何将有资料地区的水文参数应用到缺资料地区有着重要的研究意义。现阶段处理无资料、缺资料地区的水文模拟及预报以水文模型参数区域化为常用手段,主要方法以参数
学位
中国企业利用经济全球化和国际分工的好处,通过OEM模式获得了快速发展,借助于仿制和模仿创新等利用性创新行为,使中国成为全球制造第一大国。然而,随着国别竞争加剧,美国围堵中国崛起,对中国实施“卡脖子”技术管制,导致中国关键核心技术受制于人。为此,中国企业必须在做好利用性创新的基础上,加快推进探索性创新,实现二元创新平衡。如何实现二元创新平衡成为企业实践难题,也成为理论研究的重要主题。以往研究多从“供
学位
放疗过程中可能照射到的正常器官或者组织称之为危及器官。危及器官的勾画是癌症放疗计划制定中的关键步骤,其直接关系到放疗照射范围以及剂量的确定。精准的危及器官勾画能够有效避免放疗过程对正常器官造成伤害,从而最大程度地减少放疗的后遗症。临床上,危及器官的勾画主要靠影像医生手工完成,不仅费时费力,还很出现漏判和误判。自从深度学习方法运用于危及器官分割以来,大量的方法层出不穷,然而大部分方法都过于关注性能而
学位
近年来,劳动力市场岗位大量减少,就业压力不断增加。当前疫情频发,大量企业无法维持正常运转,进而倒闭,就业市场逐步缩小。全国两会中也强调要“稳企业保就业”,其具体措施包括加大创新投入,加大新产业新业态的探索力度。由此可知,国家对创业的重视程度日益增强,因而创业相关的文献研究也更具有时代意义。在日益激烈的市场竞争下,新创立的企业往往需要不断适应变化的环境,这就要求创业者具备良好的自我调节能力。只有创业
学位
癌症作为一种多病因、多过程的复杂疾病,已成为人类生命和健康的第一杀手。因此,实现对癌症患者生存期的精准预测,在辅助医生制定个性化的诊疗方案,以及改善患者的生存结局等方面具重要意义。根据现有研究,有效融合癌症组学和病理图像多模态数据对提升生存期预测的准确性具有重大意义。然而,现有基于克罗内克积的生存期预测方法不仅会引入大量参数,从而导致计算成本过高以及模型过拟合等诸多问题,而且现有方法采用的单次融合
学位
为了提升小学数学教学的效果,本文主要对数学游戏在小学数学教学中的应用进行研究,文中先分析了数学游戏的主要特征,以及它和数学教学之间的关系,之后分析了小学数学教学中存在的问题,并提出了数学游戏的应用策略,包括:教师要遵循数学游戏设计原则;在数学实践中加入游戏化的元素;创设游戏情境,激发学生的数学学习兴趣等。希望能为教学同仁提供一些参考。
期刊
在新课改的持续推进下,小学数学的教学模式也发生了改变,逐渐以培养学生核心素养作为教学重点内容。教学期间,除了让学生掌握必备的基础知识之外,也要锻炼其解决问题能力与逻辑思维能力等。由于小学阶段的学生大多活泼好动,无法长时间高度集中注意力,这就要求教师必须立足于课堂实际,采用游戏化教学方法活跃课堂氛围,创设教学情境,使数学课堂变得更加有趣,符合学生心理发展特点。基于此,本文将重点探讨学科核心素养导向下
期刊