基于迁移学习和元学习的鲁棒强化学习算法

来源 :南京大学 | 被引量 : 0次 | 上传用户:chinasee_liang
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
强化学习是机器学习中解决序列化决策问题的算法的统称。相较于在给定的数据下进行预测的监督学习,强化学习通过主动的与环境交互,在不断的试错中提升算法的性能。由于人类世界的大部分问题都可以被视为序列化决策问题,因此强化学习被视为目前最可能实现“通用人工智能”的的路径之一。近些年来,强化学习,尤其是与深度学习结合的深度强化学习,已经在多个领域取得了傲人的进展,包括大量虚拟世界的应用,例如围棋,Dota,星际争霸和一些真实世界中的应用,例如推荐系统,任务调度和机器人控制。但是,目前强化学习方法中的一些问题限制了其进一步在更广泛的真实世界场景中的应用。真实世界与虚拟环境存在很大的不同:真实世界的系统是随机且不断变化的;在真实世界中执行动作需要满足严格的安全约束,例如在自动驾驶中,一旦前方发现行人,车辆必须作出停车的行为;在真实世界中而与环境交互昂贵而缓慢,例如一个机械臂的成本可能就要几十万元,且它在物理世界的执行速度比一个物理引擎的模拟速度要慢得多。虽然通过构建模拟器,可以部分将一个真实世界的学习任务转移为一个虚拟环境中的学习任务,但是构造一个高保真的模拟器具有很高的成本,况且无论如何提升模拟器的保真度,模拟器与真实环境的偏差仍然会存在。而解决这些挑战的关键之一,就是提升策略对环境和任务的鲁棒性。本文基于迁移学习和元学习的最新进展,具体分析了不同场景下如何有效提升策略的鲁棒性。本文的前两部分研究了当存在一个与真实环境存在差异的模拟器,以及少量真实环境的样本时,如何使得策略能够鲁棒的部署到真实环境。通过显式的建模模拟器和环境的差异,本文分析了当差异主要存在于转移函数和观测模型时,分别应该采取何种措施。当差异主要存在于转移函数时,我们采用了基于观测的对抗生成式模仿学习和自适应的多步逆运动力学模型。通过在模拟器训练一个状态分布与专家数据一致的策略生成局部的目标状态,并将当前状态与这一目标状态输入在真实环境样本上训练的多步逆运动力学模型。当差异主要存在于观测模型时,我们利用MDP固有的序列性质,将领域适应问题建模为一个变分推断问题,同时利用对抗生成网络处理难以计算的KL散度。我们还为长轨迹的RNN网络设计了独特的残差结构增强了其训练稳定性。针对环境非稳态性和任务的多样性,我们利用并拓展了基于环境上下文的零样本元学习算法,提升了策略对任务的鲁棒性。通过对以往工作上下文特征提取器的改进,本文将上下文特征的学习与策略的学习取得了更好的结合。使得学出的上下文特征能够更好的捕捉不同任务和环境之间的关联和差异。另一方面,同过在特征学习时引入时序的约束,本文使得当环境的参数发生变动时,上下文特征提取器和策略均可以很快的适应。
其他文献
新课程标准下的高中生物课堂,应当立足培养学生的核心素养,凸显对话、多元、开放、具有生命活力的特征。本文以《特异性免疫》新课教学为例,谈谈怎样让课堂充满生命力。一、构建生活课堂,把握好教学的宽度高中生物新课标倡导学生在解决实际问题的过程中深入理解生物学的核心概念,运用生物学的原理和方法参与公众事务的讨论或作出相关的个人决策,因此,我们要构建生活化的课堂,让学生把生活拥入自己的怀抱,去想象、去体
期刊
学位
目的:通过应用自拟紫癜1号方治疗血热风盛证免疫性血小板减少症,观察血小板计数、T细胞亚群(CD3+、CD4+、CD8+、CD4+/CD8+)、中医症候分级量化积分、出血评分、疾病疗效、中医症候疗效,明确自拟紫癜1号方对免疫性血小板减少症的临床疗效,以及中药作用机制,为临床治疗ITP提供一种新的思路及数据支撑。方法:收集2018年11月至2019年12月期间河北省中医院血液科住院部及门诊部治疗的IT
近年来,随着经济社会的发展、党和国家的宣传和公民素质的提升,思想政治课的重要性越来越受到社会各界的关注。在影响思想政治课实施效果的各个因素中,思想政治课教师起着关键的作用。习近平总书记在全国思想政治理论课教师座谈会上强调办好思想政治理论课的关键在教师,关键在发挥教师的积极性、主动性、创造性。但是每一位有经验的好老师都是从初任教师阶段开始成长的,初任教师阶段是每一位教师职业发展的必经阶段,在这个关键
新时代高校法治教育对个人成长成才、高校依法治校以及国家法治建设具有重要意义。本研究从高校法治教育的理论基础出发,通过解读法治教育与高校法治教育的基本内涵,进而阐明了高校法治教育的主要功能。阐释了马克思恩格斯的法律思想、中国优秀传统法律思想、中国特色社会主义法治理念的形成为新时代高校法治教育提供了理论遵循。在此基础上,进一步探索了高校法治教育的实践历程,从而明晰了新时代高校法治教育的实践意义和价值。
《语文课程标准》(2011年版)(以下简称"课标")建议习作教学要"贴近学生实际,让学生易于动笔,乐于表达""注重培养学生观察、思考、表达和创造的能力"。统编本三年级习作教材,很好地体现了课标的意图与要求,既注重习作兴趣的激发和习惯的养成,也重视观察的训练和想象的培养。编者力图通过多次训练让学生掌握写好段落的基本方法,体会习作
期刊
随着生命科学的不断发展,患者遗传信息在临床个体化用药中的作用日益突出。基因突变检测技术被广泛应用于个体化用药相关基因标志物的检测当中,尤其在筛查用药相关基因多态性、指导肿瘤靶向药物使用以及监测耐药突变基因产生等方面有着重要意义。但随着临床需求的增大,现有的基因突变检测方法的问题也逐渐显现出来,主要包括检测灵敏度低、技术难度大、检测成本高、检测耗时长以及容易引起扩增产物污染等。针对目前存在的问题,本
学位
学位