基于积分概率度量的正则化强化学习算法

来源 :华东师范大学 | 被引量 : 0次 | 上传用户:FY830126
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
强化学习是目前机器学习领域的热门方向,在游戏博弈,推荐系统等领域都有许多成功应用。强化学习通过与环境进行大量的交互获得反馈进行学习,根据与环境交互的行为策略与学习到的目标策略是否相同可分为on-policy和offpolicy方法,而后者是提高强化学习的样本利用效率的重要方法。本文研究off-policy强化学习算法如何根据行为策略收集的样本数据集学习一个新的具有良好表现性能的目标策略的问题。在以往基于熵正则的工作基础上,本文提出了一种基于积分概率度量的正则化策略迭代算法,主要包括两个步骤:策略评估和策略提升。新的正则项取代了之前的KL散度来计算行为策略与目标策略的差异,在策略提升过程中通过策略约束的方法提高离线强化学习的性能,并给出了在线性函数近似条件下策略评估的收敛性的理论证明。在实验中模拟对比了不同参数的性能,并对比分析了一些相关off policy算法,本文提出的新算法能够在已知行为策略收集的有限样本数据集中学习到一个较好的新策略,与以往算法相比具有更好更稳定的性能表现。
其他文献
作为休闲度假形式的典型代表,邮轮旅游受到越来越多消费者的青睐,全球市场规模增长迅速。虽然受到新冠疫情的冲击,国内外邮轮市场大面积暂停,但随着疫情的有效控制,邮轮业已从停摆状态转向有序复苏,未来仍将延续疫情之前的增长态势。随着市场渗透率的不断提升,如何维系现有顾客、做大客源市场将成为全球邮轮业持续繁荣的根本保障,而深刻理解并不断提升邮轮游客的出游体验将是关键任务。目前,针对邮轮游客的研究已经呈现较为
学位
品牌对于企业而言是一项具有关键意义的无形资产。尤其在近年来产业蓬勃发展、商业竞争激烈以及消费者理念升级的背景下,品牌的重要性越来越值得企业重视。长期以来,学界多从外部的顾客视角来考察品牌价值的影响因素,而忽视了企业内部要素的作用。作为企业的决策主体的管理层,对企业的战略重心和发展方向起到关键性影响。那么,管理层能力是否会正向影响企业的品牌价值?此外,创新作为驱动经济发展的一大动力,也是提高品牌价值
学位
随着移动通讯技术的迅速发展,当今社会人们逐渐走向了“永久在线”的关联状态。在这样一个技术赋能的社会与组织背景下,信息技术的使用迫使员工必须不断适应工作方式与工作特征的实质性改变,对工作状态带来了未知的影响。因而技术压力也成为组织行为研究显著的新兴议题。本研究以压力交互理论与挑战—阻碍性压力源模型为理论基础,通过对上海市基层公务员的访谈调研,利用扎根理论方法提炼出五维度的基层公务员技术压力源,分别为
学位
随着进入大科学时代,投入产出庞大、多学科交叉的大科学装置成为了当代科学技术在前沿领域取得进步的基础设施。大科学装置占用资源庞大,但产出具有不稳定性,由此可能带来投入产出不平衡的“白象难题”,要解决“白象难题”,需要从大科学装置的两类主要产出成果:代表科学的基础研究与代表技术的应用研究入手,探究大科学装置的知识转移特征,减少知识转移过程中的粘滞知识,提升大科学装置知识转移效率,拓展大科学装置的产出效
学位
随着现代技术的发展,数据获取技术以及数据存储能力都有了显著的升,这使得众多科学领域的函数型数据都更容易获得。函数型数据与我们的生活息息相关,在生活中也很常见,比如个人的心电图,个航班的经纬度数据,多普勒超声造影数据等等,都是函数型数据。由此可以看出对函数型数据进行研究的重要性以及必要性。自Ramsay出函数型数据以来,函数型数据一直都是研究的热点。随着研究的深入,非线性结构数据不断涌现,如脑机接口
学位
现代科学研究和应用中经常会遇到碎片化数据,它是有着很高的数据缺失率和复杂的响应模式,这给数据填充和标签预测任务带来了很大的挑战。现有统计学方法在处理碎片化数据时能够提供有用的理论性质,但通常需要依赖于某些模型假设并且能够处理的数据类型不够灵活。另一方面,机器学习领域中基于生成对抗网络的方法要么没有理论保证,要么只考虑完全随机缺失机制的情况。并且它们大多将数据填充与标签预测两项任务分割开来,影响了标
学位
随着我国老龄化程度加深、老年平均寿命延长,老年人群体的照护需求在不断增长。但是目前社会化养老服务体系存在着无法解决所有养老问题的局限性,家庭照料依然是养老的主要选择之一。但是承担照护家中老人责任的家庭护老者却面临着照护压力风险、照护能力提升限制、社会支持短缺的多重困境,家庭护老者生活质量下降,甚至照护悲剧频繁发生。因此本研究在压力过程理论、社会支持理论的指导下,聚焦家庭护老者主观生活质量如何提升的
学位
鸭坦布苏病毒(Duck Tembusu virus,DTMUV)为黄病毒科黄病毒属成员,是严重危害当前养鸭业的重要病原,造成重大的经济损失。DTMUV引起的疾病肆虐流行,主要引起鸭体重减轻、食欲不振、产蛋率下降甚至死亡等特征,其免疫逃逸和致病机制目前仍不清楚。本研究首次克隆了鸭的MAVS基因并分析了其在鸭天然免疫反应中的作用,积累了鸭天然免疫信号通路的研究方法和技术手段,也完善了鸭天然免疫研究平台
学位
深度强化学习是一种极具前景的技术,可用于解决现实场景中的各种复杂控制问题。然而,强化学习系统具有的三个特性使得验证工作变得十分困难,其中这三个特性分别是:(1)系统通常具有连续的状态空间;(2)系统的状态转移方程一般是非线性的;(3)部署在系统中的深度神经网络是不可解释的。因此,在缺乏有效的验证方法来确保可靠性的前提下,强化学习在安全攸关领域中的应用受到了一定的限制。为了缓解该现状,本文提出了一种
学位
长久以来,序列推荐一直是推荐系统领域的研究热点。大多数序列推荐模型仅关注用户行为序列的顺序建模,忽略了有效利用序列中的时间信息、深入挖掘其中蕴含的语义知识,因此推荐性能受到制约。时间信息建模对于序列推荐意义深远。一方面,用户交互行为的时间戳包含丰富语义,各类待利用的时间信息对于理解用户真实意图进而实现精准推荐十分关键;另一方面,时间信息具有容易获取的独特优势,序列推荐能够利用时间信息有效缓解数据稀
学位