基于特殊专家示范数据优化的模仿学习的研究与应用

来源 :苏州大学 | 被引量 : 0次 | 上传用户:yeyuxx008
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
强化学习智能体通过试错的方式与环境交互获得反馈,目标是学习到一个策略使得整体的长期累计回报最大化,受到了广泛关注,也累积了诸多应用。但是,强化学习过于依赖环境的奖赏函数,以至于在奖赏函数设计不合理时,智能体很有可能学习到性能比较低的策略。为此,研究人员提出模仿学习来缓解该问题,其智能体从示范数据中学习策略,但当示范数据不完美时,智能体也难以学习到优秀的策略。针对此,该文着重针对从示范数据中学习的角度来改进智能体学习性能,涉及完整的示范数据、不完整的示范数据和非最优的示范数据三种情况,主要内容可概括以下三部分:(1)深度强化学习算法中的探索与利用问题是强化学习研究中面临的巨大挑战,尤其是在智能体训练的初期尤为明显,需要浪费大量的时间寻找有效的信息。为了加速模型在训练初期的收敛速度,提出动作概率选择模型(Action Selection Model through Probability,ASMP)来缓解探索与利用困境。ASMP模型利用生成对抗网络塑造智能体的探索空间,对后续的动作进行概率统计,让智能体从动作概率分布中选择探索动作,从而克服随机探索策略的缺点。ASMP模型根据概率从生成的探索空间中选择下一个状态动作对并加以执行,并且作为一种附加的方法,能够与现有的强化学习算法结合起来取得高质量和更稳定的收敛效果。(2)生成对抗模仿学习类的方法奏效的前提条件很苛刻,这一类的方法要求完整且高质量的示范数据作为模仿的数据源。但是实际收集的示范数据往往存在信息丢失或信息质量降低的问题,这将导致学习到的策略可能不能达到任务的要求。针对此,提出在不完整示范数据中排序学习的生成对抗模仿学习方法(Action-Rank Imitation Learning,ARIL),ARIL方法使用基于状态的生成对抗模仿学习方法(State-GAIL)和排序学习(Learning to Rank)的反馈来重置奖赏函数优化策略。排序学习中排序器的任务是将策略补全的状态动作排在示范数据的前面,提供缺失动作的辅助信息。因此,此时智能体将使用判别器和排序器的联合反馈奖赏来更新策略。(3)模仿学习旨在从示范数据中学习策略。但是由于现实世界中各种环境因素的影响,使得收集的示范数据常常是不完美的、非最优的。为了能够从非最优的示范数据中高效地学习策略,该研究提出基于半监督学习中非负的正例和无标记样本学习(Non-negative Positive-Unlabeled Learning,nnPU)算法的非最优示范数据下的模仿学习方法(Non-negative Positive-Unlabeled Imitation Learning,nnPU-IL)。利用nnPU方法给非最优的示范数据评分,然后根据评分设置轨迹权重来优化策略。该方法能够与现有的模仿学习方法相结合完成非最优示范数据下的模仿学习任务。最后在Gym和Mujoco平台分别验证了所提方法的有效性。
其他文献
<正>郑成功(1624年—1662年),是明清鼎革时期的重要历史人物,他戎马一生,在短暂的38年生命中最重要的功绩便是“驱荷复台”,使台湾及其附属岛屿与海域重归大陆版图。郑成功以“春秋大义”为引领,凝聚民心士气,采取边战边治的方式,大大节省了征战成本。与此同时,
期刊
自从首批14家国家级经济技术开发区在我国沿海地区批准设立,迄今为止,全国共有230家国家级经济技术开发区(以下文章中简称为国家级经开区)。国家级经开区作为我国对外开放的成功案例和重要平台,一直是我国吸引外资的主力军。在2019年,国务院通过的《国务院关于推进国家级经济技术开发区创新提升打造改革开放新高地的意见》中,提出了国家级经开区要打造改革开放新高地,提升对外合作水平。在这样的背景下,国家级经开
学位
中国法律儒家化是真实发生的历史过程,该过程在家庭法制变迁中得到集中体现。先秦儒家与法家思想均蕴含父权制因素,但两派所设想的父权制精神和构造迥然有别。儒家偏好世代同居的大型联合家庭,父权在寓“尊尊”于“亲亲”的丧服制中得以弥散化。作为其他一切秩序的基础,家族具有独立价值并优先于国家权力。法家青睐父权制小家庭,父权从属于协助君主管理家庭成员、培养臣民服从性的国家理性要求,小家庭则便利政府的社会控制和赋
期刊
针对人脸识别与年龄估计系统中的环境光照问题,提出了一种基于多任务卷积神经网络的变化光照下人脸识别与年龄估计的方法。所提方法提高了可变光照下人脸图像的识别率和年龄估计的准确率。采用YCbCr颜色空间的Retinex图像增强算法提高人脸识别和年龄估计精度,并进行了3种距离10种调光等级下的人脸识别与年龄估计实验。实验结果表明,与原图相比,利用改进后方法得到的人脸图像的识别率均有提升,年龄估计的平均绝对
期刊
本文在界定相关概念和分析选题背景意义的基础上,围绕T县政府土地招商引资项目遗留纠纷的化解路径展开研究。研究通过查阅文献资料、问卷调查、个别访谈等方式展开。调查发现,T县土地招商引资项目遗留纠纷的个数呈逐年上升趋势,且个别案件涉及金额较大、纠纷存在的时间较长,导致部分项目存在逾期开工竣工、亏损、难以验收等问题,对企业的资金运转、生存发展等方面造成了比较大的影响,同时对T县政府的公信力以及营商环境也造
学位
随着现代社会改革的不断深入,社会文明程度不断提高,我国监狱也伴随着社会的变革不断推进现代化文明监狱的改革,监狱的管理能力与水平都有很大提高。特别是伴随着十九世纪七八十年代一大批监狱“出山进城”的步伐,监狱管理逐渐走出故步自封的境地,主动与社会接轨,引入社会中规范专业的力量和科学化的技术,监狱管理有了质的改变。近年来,各地监狱基本能履行职责,执行刑罚,为社会安全稳定发展贡献着力量。但是突然爆发的新冠
学位
营商环境体现的是一个国家或地区的经济软实力以及国际竞争力,对于深入激发全社会创造力和发展活力而言,是重要着力点。优化营商环境是贯彻习近平新时代中国特色社会主义思想和党的十九大精神的重要抓手,是推动高质量发展、建设现代化经济体系的内在要求。近年来,C市在优化营商环境的过程中,不断探索,取得了市场环境公平开放、政务服务高效便利、监管执法公正有力、法治保障公正透明等一系列成效。同时也存在一些问题和不足,
学位
全国监狱系统于近年提出了建设“智慧监狱”的口号。所谓的智慧监狱,就是通过利用新的技术和信息化工具的运用,如人工智能、大数据、物联网等,提升监狱机关的整体工作水平,包括罪犯管理与警务管理等方面。智慧监狱的目标是监狱安防更加智能、管理改造罪犯更加精细、减刑假释更加科学标准。智慧监狱的建设一方面重视硬件配置的提升,另一方面注重管理方式和管理理念的更新,进一步适应社会发展,进一步提高民警对罪犯管理的科学化
学位
改革开放四十多年来,以外向型经济为主导的昆山经济已经与世界经济融为一体。然而,当今世界正在经历百年未有之大变局,我国经济社会发展也正由追求高速度增长阶段转向追求高质量发展阶段,这一转向的本质特征之一就是经济社会发展从传统的要素驱动向创新驱动的转变。在经济社会发展新旧动能转换的大变局之下,昆山传统以要素驱动为动力的外向型经济必然遭遇瓶颈。为了优化经济结构和产业布局,挖掘经济发展新的增长极,昆山积极响
学位
生态文明建设是实现第二个一百年奋斗目标之美丽中国的重要路径。海绵城市建设是生态文明建设的重要内容,其主要通过建设和运行具有自然积存、自然渗透、自然净化功能的海绵城市低影响设施,进而改善城市水环境,修复城市水生态,保障城市水安全,涵养城市水资源。常熟市自2016年正式启动海绵城市建设工作以来,在海绵城市建设管理中取得了实质性成效,但依然存在一些问题。本文基于公共管理视角,采用文献研究、问卷调查与访谈
学位