强化学习中复杂环境的解析与重构

来源 :南京大学 | 被引量 : 0次 | 上传用户:baofeifly
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
强化学习是目前的一种通过与环境交互试错来学习出最优策略的机器学习领域,相较于给定数据集的监督学习,强化学习其自主与环境交互采样学习出决策能力的特性赋予了其更大的想象空间。强化学习近年来发展迅速,展现了其在解决决策问题方面的巨大潜力。但同时目前的强化学习算法也存在其许多缺陷和问题,其中一个问题在于目前强化学习对于环境复杂度较为敏感,即环境任务难度越高,状态转移机制越复杂,强化学习对于样本的需求量就会越大,算法的训练效率和稳定性都会呈明显下降,甚至一般的强化学习算法都难以直接适配。解决这个问题的一种思路是将强化学习算法针对不同的环境做对应的特异化改造,但是这样做需要对每个环境进行算法改造,而且也破坏了算法自身的泛用性。因此本文提出的思路是从环境解构的角度入手,将环境理解并解构到一种更低的维度,就能够将现有的强化学习算法适配到更多的环境上。因此针对强化学习中复杂环境,本文在多子任务环境与有人复杂环境上提出了两种不同的解析和重构方法,并讨论了环境解构的未来发展方向。具体工作如下:1.对于复杂的多子任务环境,针对现有方法存在需要手动分解子任务导致泛化能力不足的问题,通过引入弱监督语义分割技术,本文提出了一种奖赏引导的强化学习任务自动分解方法。该方法以奖赏作为状态的整体弱标签,通过额外训练判别网络并可视化的方法实现奖赏的定位,并基于定位信息构造出的奖赏函数,实现对环境中子任务的自动化分解,并且对应提出了一种分层强化学习框架,用以完成强化学习策略的训练。该方法在三种不同的多任务环境中进行了实验,显示在高效地自动化分解了任务的同时,也提高了强化学习算法的训练速度和最终性能。2.对于有人复杂环境,因为人的存在使得环境无法简单的用规则建模,为了能够从数据中构造出环境的模拟器,本文结合了目前的生成对抗模仿学习的相关成果,提出了一种将环境进行模块化分解,然后使用多智能体生成对抗算法协同训练出模拟器并构造出虚拟仓库,并进一步应用强化学习全局优化出最优策略的方法。离线和在线A/B测试显示重构出的环境仅用一种简单的强化学习算法便能够训练出在真实环境中有显著性能提升的决策策略。
其他文献
学位
学位
目的:基于COM-B模型,明确血液透析患者自我管理的促进和阻碍因素。分析血液透析患者自我管理的现状及影响因素,阐明各影响因素对自我管理的预测作用,各影响因素之间的相互关系,及各因素对自我管理的路径和作用系数,构建血液透析患者自我管理及影响因素的结构方程模型。为血液透析患者自我管理的干预方案提供科学、合理的依据,完善干预措施,提高患者的生活质量。方法:基于COM-B模型和文献查阅的基础构建血液透析患
2021年9月,我担任上饶市纪委书记后,听取的第一个重要案件汇报就是余干县原县长江某某严重违纪违法案件。令我印象深刻的是,江某某通过投资入股等方式掩盖受贿问题,试图给腐败行为披上“合法外衣”,这正是腐败手段隐形变异的一个突出表现,值得我们警惕和关注。
期刊
高校师德师风事件有性骚扰、学术不端、贪污腐败、言论不当、雇佣学生等类别,具有不定时集中爆发、发酵迅速引起联动效应、交叉爆发舆情复杂、易引发次生舆情、处理困难等特征。舆情应对要敢于担当,敢于面对;组建队伍,建立制度;快速摸清真相,快速开展调查;讲清事实,讲好故事。高校要迅速启动应对流程:率先表达态度;实时监控研判;快速查办解决;及时发布回应;有效控制谣言;组织正面报道;工作重在平时。
21世纪被科学界认为是生物科学与脑科学的时代,在全球性脑研究计划的推动下,我国提出了“脑科学与类脑研究”的战略部署。其中,运动想象在脑机接口领域备受关注与研究,其在医工结合、智能控制等领域有着重要的发展价值。由于脑电信号属于微伏级的生物电信号,易受环境干扰,这就导致从中提取出有效信息十分困难。目前,很多算法成功应用于脑电信号的去噪与分类识别,如利用小波变换或独立成分分析等算法去除噪声;利用经验模态
在过去的数十年内,集成电路的规模在摩尔定律的指导下取得了快速的发展,但是在深亚微米尺寸下芯片设计已经从传统的追求电路性能的提升,转变为对性能和功耗的综合考虑。另一方面,许多计算密集型的新兴应用,例如数据挖掘和机器学习,发展迅速。它们需要消耗大量的计算资源。同时,这类应用又具有一定的容错性,尽管计算过程中出现一些微小误差,最终仍然能产生有效的输出结果。所以结合以上两种特性,近似计算,放宽了精确计算的
随着人工智能技术的发展,对高效灵活的机器学习芯片的需求越来越高。支持向量机是一种被广泛应用的机器学习分类算法,但其计算复杂度高,训练效率低,本文设计了基于可重构计算平台的高性能支持向量机硬件加速器,利用可重构技术对支持向量机的训练和推理进行硬件加速,通过并行计算和流水处理的方式加快了计算速度,同时利用可重构计算的优势,实现了高效的资源共享。本论文基于一款粗粒度可重构硬件平台,采用训练效率更高的最小
以GaN为代表的III族氮化物宽禁带半导体以其高电子饱和漂移速率、高击穿电场、高导热性等优势性能,成为制备新一代电力电子器件的优选材料。GaN基肖特基二极管(SBD)作为转换器和逆变器中的元件,是电力电子电路中重要的组成部分。其中,Al GaN/GaN异质结水平结构二极管因具有高电子浓度、高迁移率的二维电子气(2DEG)以及高达3MV/cm的击穿电场而受到广泛关注。同时,Al GaN/GaN肖特基
有机半导体具有柔性、轻薄、低成本、分子多样性等优势。通过有机分子结构的简单调控,可以高效地优化有机半导体的光电性质。具有优异光电性能的有机半导体广泛应用于有机固态激光器(OSSLs)、有机发光二极管(OLEDs)、有机场效应晶体管(OFETs)和有机发光晶体管(OLETs)等方面。近年来,人们发现由于量子限制效应,二维材料表现出与体材料完全不同的光电性质。例如硫化钨(WS2)材料,当材料的厚度减薄