基于策略迁移的高效强化学习算法与应用研究

来源 :重庆大学 | 被引量 : 0次 | 上传用户:zhuzhuzhilian
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,强化学习算法已经广泛应用于实际应用中,解决决策与控制等复杂问题,如自动控制、电子游戏、机器人、智能电网和推荐系统等。但是,大多数强化学习方法从零知识状态开始训练一个智能体,需要庞大的数据、时间和计算资源。同时,在现实应用中,学习的计算成本随着任务的复杂度呈指数增加。因此,设计高效的强化学习算法,减少对数据及计算资源的依赖一直是强化学习中最具挑战性的问题之一。一种可行的方法是利用从相关任务中获得的知识来提高在其他新问题中强化学习的学习效率。目前,使用迁移学习加速学习过程的技术已经广泛应用于强化学习领域。然而,在迁移过程中,知识的表现类型和迁移方式都会影响算法的性能,如何寻找到合适的知识表现形式和迁移方式,从而避免负迁移仍然是一个具有挑战的问题。本文围绕相同问题域的任务场景下的强化学习任务间的知识迁移,从策略迁移角度提出相应的解决方法。本文主要研究内容与贡献如下:①针对多个具备相同问题域但状态转移概率不同的强化学习任务的情况下,源任务与目标任务之间正向知识迁移难的问题,提出了一种基于策略迁移和示范学习的迁移强化学习算法。具体地,本文提出通过基于注意力机制网络的教师策略学习方法,可将不同的源任务的所学策略自适应地融合,为目标任务生成一个教师策略。然后,教师策略通过示范学习实现源任务与目标任务之间的知识迁移,从而提升目标任务中智能体的学习效率。这样一来,所提出的方法不仅可以有效地利用多个具有不同状态转移概率的源任务的策略知识,而且还可以将学到的知识用于指导智能体进行探索目标环境,而不是随机探索。在基于连续控制任务上的实验结果表明,本文提出的迁移强化学习算法能够有效提升智能体在目标任务上的初始学习性能、整体学习速度和渐进性能。②针对基于强化学习的推荐系统应用,本文提出一种基于策略迁移的迁移强化学习推荐算法。本文首先将推荐系统基于马尔可夫决策过程进行数学建模,旨在通过深度强化学习的方式来学习有效地推荐策略。然后,通过引入辅助损失函数,采用策略蒸馏(一种策略迁移方式)的方式,从预训练的源策略中获得知识并正向迁移到目标策略中,从而提升推荐智能体在早期学习阶段的策略学习效率。最后,在阿里巴巴天池大赛CIKM 2019 EComm AI数据集上进行推荐物品的离线实验。通过实验验证,本工作提出的方法能够有效提升推荐策略的早期学习性能和策略学习质量。
其他文献
传统行人监控主要依赖视频分析、红外成像等方法,难以有效兼顾经济性、隐私性、可扩展性等诸多要求。近年来,因WiFi具备分布性广、信号普适性高、感知灵敏性强等特点,基于WiFi信道状态信息(WiFi-CSI)的无源感知方法逐渐受到学术界与企业界的广泛关注。然而,目前研究大多基于样本学习方法,往往存在以下两点不足:a)离线阶段样本采集开销大,b)跨场景条件下感知鲁棒性不高且可扩展性不强。鉴于此,本文深入
学位
视网膜是眼睛内部的重要组成结构,视网膜血管的异常变化与眼部疾病和部分全身性疾病息息相关。分析视网膜血管系统的特征不仅有利于疾病的诊断和治疗,而且对维护人体眼部健康和提高患者生活质量具有重要价值与意义。光学相干断层扫描血管造影(Optical Coherence Tomography Angiography,OCTA)是一种新型的、非侵入性的成像技术,在无需造影剂的情况下即可生成各个视网膜层和脉络膜
学位
自卷积神经网络提出以来,计算机视觉有了巨大的发展,各种深度学习网络被提出,广泛用于高效处理图像数据。应用深度神经网络分析点云,学习点云特征的方法自然出现了,但是直接使用处理二维图像数据的方法处理三维数据并不可行,通过多层感知器提取点云数据的有效特征便成为了一个常用的方法。然而这种方法并没能够充分利用点云的层次化特征。在点云的层次化的过程中,常常经过分组和采样的操作,使得点云可以按照全局和局部两种方
学位
三维点云的表面重建,指通过输入无序的三维点云数据,生成与之对应的、紧凑的、流形的、水密的网格模型。三维点云的表面重建,可应用于CAD/CAM,虚拟游戏人物、物体、场景等的快速建模,在智慧城市、游戏、电影、动画等领域有较高的应用价值。点云表面重建的主流方法有:基于构建点云表面隐式函数,根据隐式函数采用移动立方体(Marching Cubes)提取等值面,生成网格模型的表面重建算法;使用三角剖分,生成
学位
与图像这类具有规则形状的数据相比,点云这类不规则结构数据还没有一个基于深度学习公认有效的特征提取方式。点云内数据点的邻居选择对局部特征提取所造成的影响是一个值得讨论的问题,然而该问题却未被专门研究过。另外,点云数据中若存在噪声,则会在利用特征进行点云识别、分割、重建等任务时产生较大误差。基于自然语言处理领域中被广泛使用的注意力机制,结合自然邻居搜索算法,本文提出一种全新的点云特征提取网络模型。该网
学位
数字孪生(Digital Twin,DT)技术从现实世界的驾驶数据中提取测试场景,被认为是智能网联汽车(Intelligent Connected Vehicle,ICV)道路测试的有效解决方案。如何从真实驾驶数据中提取并识别关键测试场景成为研究热点。本文以此问题展开研究,提出了新的DT测试场景选择方法。考虑了碰撞风险、交通因素,定义了三类典型应用场景——前向碰撞预警(Forwarding Col
学位
交通事故风险预测是智能交通领域的重要研究课题,其预测准确度将直接影响道路交通安全水平。交通事故成因复杂,但均呈现出时间相关性和空间相关性,基于此展开研究,具有很好的理论和应用价值。本文在分析事故数据的时间相关性和空间相关性基础上,提出了一种基于时空注意力机制的交通事故风险预测方法,该方法融合空间距离特征和视觉相似特征以捕获交通事故数据高度动态的时空相关性。主要内容如下:(1)分析交通事故数据的时间
学位
动作识别作为计算机视觉中重要的组成部分,几十年来得到了广泛的研究。人体动作识别技术已广泛应用于智慧安防、人机交互、虚拟现实和机器人技术等领域。得益于骨架数据在动态环境和复杂背景下的鲁棒性,近来涌现了许多基于骨架数据的动作识别算法。受限于深度学习网络的结构,卷积神经网络(CNNs)适合处理网格式数据,循环神经网络(RNNs)擅长建模序列数据,而为非结构化数据而提出的图神经网络(GNNs)成为了处理骨
学位
随着智能/辅助/自动驾驶技术的飞速发展,当前汽车配备大量传感器,拥有强大的感知、存储和通信能力,其中出租车、滴滴等智能网联汽车具有城市覆盖规模大和粒度细、以及可用的空闲时间充足等优点,从而为实现智慧城市大规模、细粒度、低成本的感知提供重要机会。因此,本文以智能网联汽车为研究对象,重点研究面向大规模智慧城市的群车感知(Vehicular Crowd-sensing)的三大核心关键问题,即如何激励汽车
学位
由于人工智能算法的迅速发展,卷积神经网络(Convolutional Neural Networks,CNN)模型通过专用硬件加速平台逐渐应用于嵌入式等环境,但是需要设计相应的深度学习编译器才能充分发挥出硬件的性能。目前国内对面向CNN专用加速器的深度学习编译器的研究还比较少,模型在部署方面还存在很多挑战。首先,随着CNN算法的发展,跨层次跳跃连接(Skip Connect)等复杂网络结构层出不穷
学位