基于策略约束与动作矫正的安全离线强化学习

来源 :华东师范大学 | 被引量 : 0次 | 上传用户：shaohuang321

【摘要】

：

【作者】

：

刘少凡

【机构】

：

华东师范大学

【出处】

：

华东师范大学

【发表日期】

：

2023年01期

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

强化学习在现实世界中拥有广阔的应用场景,但强化学习的训练过程需要与环境交互收集数据来更新决策策略,这限制了强化学习在一些对安全性十分敏感的场合的应用。而离线强化学习可以通过数据集来训练出高效的决策策略,训练阶段无需与环境产生交互,因此近些年来离线强化学习受到了研究者们的广泛关注。然而,现有的关于离线强化学习的研究却忽略了离线强化学习决策的安全性。在不与环境交互的情况下,从包含不安全决策的数据集中学习出安全且高性能的强化学习策略依旧是一项重大挑战。为了提升离线强化学习算法在不安全数据上学习到的策略的安全性,本文提出了一种基于条件生成式对抗网络的安全批约束学习（Safe cGan-based Batch-Constrained Q-Learning,SGBCQ）算法。在批约束学习中,扰动模型被用于对动作施加扰动使得输出动作在给定状态下的条件分布接近与数据集中的状态动作条件分布。在本文,我们使用安全评论家（Safety Critics）模型来建模策略输出动作失败的概率,训练批约束训练框架中的扰动模型对动作施加扰动去降低动作的失败概率并提升决策的安全性。同时训练一个判别器网络来约束批约束训练框架中的扰动模型,使得扰动模型的扰动值不会带来额外的分布漂移问题。实验结果表明相比于不考虑安全性的强化学习算法,SGBCQ可以使用很小的性能损失带来决策安全性上的显著提升。在奖励稀疏的现实应用场景下,一般的强化学习算法往往难以训练出有效的策略。而分层强化学习算法被证明是一种可以在稀疏奖励任务下有效收敛的强化学习训练框架,为了在稀疏奖励场景下训练出高性能的离线强化学习智能体,本文提出了一种离线的分层强化学习训练框架。具体的,数据集通过预处理来满足高级策略与低级策略训练的需要,在分别训练高级策略与低级策略之后,再通过测试找到高级与低级策略的最佳参数组合作为最终策略。实验结果表明,这种基于分层策略的离线强化学习训练框架可以学习出高性能的强化学习决策策略。考虑到现实场景下的数据通常只包含少量的不安全决策数据,且收集额外的不安全决策数据的成本过高,我们提出了一种可以高效利用数据中的不安全决策信息的分层安全离线强化学习（Hierarchical Safe Offline Reinforcement Learning,HSORL）训练框架。HSORL使用基于子目标引导的分层强化学习框架来提高对数据中的不安全信息的利用效率,具体来说,高级策略为低级策略制定安全且高奖励的子目标,低级策略采取动作来达到给定的子目标。在训练基于奖励的状态动作值函数的同时训练基于代价的状态动作值函数,并使用自适应的权重对两个估计的值函数进行加权,使用最终的加权值来引导策略做出高效且安全的决策。实验结果表明,HSORL可以学习出安全且高性能的离线强化学习策略。我们还通过消融实验展示了 HSORL中各个子模块的作用。综上,本文提出的SGBCQ可以在离线设置下利用数据中决策的安全信息,在决策的性能与安全性之间做出有效的折中。HSORL算法可以高效的利用包含稀疏不安全决策行为的数据集,来学习出高性能且安全的离线强化学习策略。

其他文献

可证明安全的群密钥管理及其应用研究

近年来,移动互联网的发展带来了诸多基于群组通信的应用,如在线会议,社交网络等,为人类日常生活及工作提供了极大的便利。群组通信安全也日益受到人类社会的关注,成为了当下研究的一个热点问题。利用群密钥管理技术可以实现群组间安全通信信道的建立。由于应用场景的复杂多变性,群密钥管理技术也亟临诸多挑战。本文主要讨论了群密钥管理技术在移动自组织网络、分布式在线社交网络两个场景中的应用。移动自组织网络、分布式在线

学位

面向文档级长文本的关系抽取算法研究

伴随着互联网的快速普及与发展,全球上网人数不断增加,数据的生成量级也迎来爆炸性的增长,如何充分利用好海量的数据为人们提供智能化的信息服务一直以来都是计算机从业者所追求的目标。然而海量无结构的数据所提供的信息量是有限的或者说对于下游应用任务来说是不方便处理的,因此从无结构化的数据之中抽取出结构化的知识这一需求也日益迫切。关系抽取正是解决这一需求的重要任务,从纵向发展来看关系抽取是自然语言处理（信息抽

学位

利用IP-MS技术鉴定水稻典型异源三聚体G蛋白的互作蛋白

G蛋白参与的信号转导途径是真核生物体内高度保守的信号通路,参与调控生物体内多种重要的生命活动。目前对于G蛋白的研究大多集中在动物中,植物中这一重要的信号通路的研究相对较少。水稻体内的异源三聚体G蛋白参与水稻体内多种重要的生物学功能,是水稻粒形调控的重要信号通路之一。已有的研究表明水稻异源三聚体G蛋白的三个典型亚基Gα（RGA1）、Gβ（RGB1）、Gγ（GS3和DEP1）均参与水稻体内的信号转导途

学位

基于品牌信任两维度视角下感知健康风险对品牌态度忠诚的影响——以上海市高端民营医院为例

高端民营医疗作为社会医疗体系的重要补充,有效填补了部分患者追求效率、舒适环境、人性化关怀、定制化服务流程等的需求空白。高端民营医疗的性质决定了其市场化特性和公司化治理模式。因此,管理者目标是通过建立高度信任的关系,来“拥有”客户,从而实现客户的终生价值,这就要求管理者需要不断改进经营管理模式来增加患者忠诚度。因此,本研究探讨影响高端民营医院患者品牌态度忠诚的因素和影响机制。本文首先对现有感知风险、

学位

Mucilaginibacter hurinus ZR32T的分类鉴定与基因组分析

微生物极广泛地分布在地球上,微生物不仅仅在自然界中,同时也在人类生产活动中扮演着极其重要的角色,然而我们目前为止所认识的微生物仅仅为其中很小一部分。分离培养及多相分类学鉴定自然环境中的各种微生物,可以丰富微生物资源库,对实际应用有很重要的意义。这对实际应用有很重要的意义。功能性微生态系统作为一种分解剂具有很高的效率,有助于解决环境问题。如果我们能够准确地理解微生物的价值,并根据需要使用它们,我们就

学位

面向许可链的状态分片研究

随着区块链2.0平台的出现,智能合约成为了区块链的核心,区块链系统需要管理供智能合约访问的状态数据。这使得区块链系统的每个节点完整保留一份数据副本的全复制存储方式受到了巨大的挑战,尤其在吞吐率较高的许可链场景中这一问题显得尤为重要。近来,也有研究人员对离线区块数据采用拜占庭容错的分片存储来缓解这一问题。而状态数据,由于受到防篡改数据结构的约束,很难直接分片存储。本文主要解决区块链系统中的状态分片问

学位

面向推荐任务的用户行为序列建模技术研究

用户行为序列是按时间排列的用户行为数据,反映了用户随时间变化的偏好特征。序列推荐系统通过序列化地建模用户的行为序列学习用户不断进化的兴趣,关注的核心问题是:（1）如何为用户精准提供感兴趣的商品,（2）在怎样的适宜时间点推荐。对于第一个精准推荐的问题,图神经网络模型由于能够建模序列中复杂的转移关系,在序列推荐领域具有很好的表现。但是此类方法面临两个挑战,首先是将序列转为图时,物品的顺序信息缺失;其次

学位

基于有序对比学习的零样本事件检测技术

事件检测是自然语言处理中的经典任务之一,也是事件抽取与构建知识图谱的关键步骤。利用大量标注样本训练基于深度学习技术的语言模型,然后对非结构化文本按照预定义的事件类型分类,是完成事件检测的传统思路。然而面对互联网中日益增长的非结构化文本内容,大量未被发现的新事件类型层出不穷,为这些未知事件标注样本的工作将消耗大量的人力物力。因此,零样本事件检测任务被提出,旨在使模型自动发现并归类新的事件类型,而不依

学位

基于深度学习的多目标跟踪

多目标跟踪是计算机视觉中一项重要的的任务,在自动驾驶、视频监控等领域有着广泛的应用。该任务旨在跟踪视频中出现的所有目标,具体而言是将当前视频帧中检测出的目标与历史帧中的目标进行匹配。近年来,深度学习算法在图像和视频任务上取得了重大突破,也得到了广泛应用。基于深度学习的多目标跟踪模型目前主要包括两类:检测跟踪（Tracking-By-Detection,TBD）模型和联合检测与嵌入（Joint de

学位

水稻垩白主效QTLs的鉴定及Chalk6的精细定位

水稻（Oryza sativa L.）是世界上最重要的粮食作物之一,也是一种被广泛应用于基础研究的模式植物。垩白是稻米中白色不透明的部分,垩白直接影响稻米的外观品质、商品流通、蒸煮食味品质和加工品质,是衡量稻米品质的重要性状之一,并且与稻米其他外观品质显著相关。垩白是复杂的数量性状,受多基因调控,且易受环境影响。随着全球气候变暖,高温胁迫尤为严重,特别是我国长江流域水稻受高温影响最大,因此研究高温

学位

基于策略约束与动作矫正的安全离线强化学习

与本文相关的学术论文