鲁棒的强化学习智能体研究

来源 :华东师范大学 | 被引量 : 0次 | 上传用户:a36020a
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
深度强化学习以其强大的感知—决策能力已经成功被应用于人工智能领域的各种场景。而多视图表示学习凭借其对数据的建模能力,通过利用来自多个视图的丰富信息可以提高模型的鲁棒性。由于现有的深度强化学习算法缺乏对多视图数据建模的能力,这限制了多视图表示学习在强化学习框架下的优势。此外,深度神经网络作为函数近似器已经被证明容易受到对抗攻击,因此,非常有必要研究强化学习智能体的鲁棒性。首先,为了完成对多视图数据的建模并提升深度强化学习算法的鲁棒性,本文在强化学习框架下通过引入多视图表示学习提出了一种多视图深度注意力网络(Multi-view Deep Attention Network,Mv DAN)。Mv DAN基于函数近似器在中间表示层为智能体生成多个策略函数,并应用注意力机制在决策层集成所有策略,最后采用多视图广义策略提升来联合优化所有策略。实验结果表明相对于单视图强化算法,Mv DAN性能更优,同时收敛更快且训练更稳定。其次,为了消除对抗扰动的负面影响,提升智能体的对抗鲁棒性,本文基于风格迁移的思想提出了一种对抗防御框架,该框架由变分自动编码器和生成式对抗网络组成,称为RL-VAEGAN。RL-VAEGAN参考对抗样本生成的逆过程,利用深度生成式模型将对抗样本进行恢复。实验结果表明,在白盒攻击和黑盒攻击场景下,RL-VAEGAN都能成功地防御不同扰动幅度的多种攻击算法。综上,本文提出的Mv DAN能够借助多视图表示学习的数据建模能力有效地提升强化学习算法的性能,提出的RL-VAEGAN能够利用深度生成式模型的生成能力有效地将对抗样本迁移到原始样本空间中,从而实现强化学习智能体的对抗防御。
其他文献
本文研究在内部边界随机的情况下求解Bernoulli自由边界问题的数值方法,通过截断的Karhunen-Lo(?)ve展开法对边界上的随机变量进行参数化,采用随机配点法对形状梯度进行高维积分估计.基于目标泛函的梯度,用水平集方法表示所求的最优自由边界,基于有限元方法离散状态方程和伴随方程,最后我们进行了相关的数值实验,并与确定性Bernoulli自由边界问题进行比较,结果表明随机性对自由边界问题具
格子玻尔兹曼方法(LBM)是一种用于流体流动建模的介观方法.本文选择FEM和LBM耦合来研究不可压缩稳态Navier-stokes问题并提出了两种算法:LBM-FEM的二重网格和FEM-LBM的局部并行算法.LBM-FEM的二重网格算法主要是利用了LBM在处理稳态流时对初值不敏感的特性和有限元两重网格的思想.首先将LBM应用在较大的格子上计算稳态解,随后将其解插值到相应的细网格的有限元空间中,接着
缺陷对调控光电器件性能有着重要作用,但同时缺陷诱导的非辐射载流子俘获也是限制其性能的关键因素。实验上可以通过DLTS等手段来测量载流子俘获截面,然而运用第一性原理计算研究该截面却很难。近年来,基于电声耦合效应和静态耦合理论计算俘获截面的方法已经应用在Ga N等体系中,但硅体系的研究却鲜有报道。本文主要研究硅中硫杂质的微观结构和载流子俘获截面。计算俘获截面的关键步骤是计算电声耦合矩阵元,而原有的Qu
在现代量子信息理论的背景下,量子纠缠被视为执行许多不同方案(从隐形传态到量子计算)的资源。作为区分量子与经典物理的显著特征,多粒子系统纠缠态的产生和操纵对未来的量子技术具有重要意义。与此同时,玻色爱因斯坦凝聚由于其基本特性以及高相干性,而受到越来越多的关注。然而,在任何真实的实验中,系统总或多或少地受到环境的影响和作用,从而导致退相干。这给量子通信和量子计算带来了极大的挑战。因此,了解纠缠态的退相
一维硒(Se)、碲(Te)纳米材料由于具有独特、优异的光电性能而被广泛应用在通信、化工、生命科学等领域,然而离实际大规模应用还有一段很长的路要走。首先,在一维纳米结构生长机理研究方面,先前的许多文献已经报道了多种Se纳米线的合成方法,但是从热力学角度研究Se纳米线生长机理的文献却比较少。其次,搭建半导体纳米器件的成功率都比较低,极大地限制了Se、Te半导体材料在光电探测器方面的应用。针对以上问题,
近年来,图的控制理论及其相关问题是图论中一个比较活跃的研究领域,它是从实际的应用领域提出来的.研究它不仅具有重要的理论意义,而且在通讯网络的设计与分析、优化理论、社会科学、计算的复杂性和算法设计等很多领域也有广泛的应用.由于确定一个图的控制数是NP-完全的,因此目前只有少数图的控制数已经得到很好研究.本文主要研究了I-图和广义Petersen图的控制数.在已有研究成果Pe-tersen图存在有效控
作为替代传统内存的理想候选者,尤其是在并行系统中,磁畴壁存储(DWM)具有许多优秀特性,例如低泄漏功耗,高密度和低访问延迟。但是,由于DWM具有类似磁带的条带型结构,因此访问数据之前的移位操作对DWM的访问延迟性能具有至关重要的影响。考虑到并行系统中的数据密集型访问应用程序,它们往往具有大量的循环程序且访问数组类型的数据。提高循环程序的并行度进行相应的指令调度,辅以在DWM上进行适当的数据放置,将
二维(2D)材料由单层或少量原子层组成。相对于三维材料,二维材料的载流子迁移被限制在二维平面内,展现出许多优异的性质,有望解决材料尺度极限等带来的新一代高性能技术瓶颈。值得注意的是,2014年人们通过机械剥离的方法制备出二维单层黑磷(Black Phosphorus),称为磷烯(Phosphorene)。与石墨烯不同,磷烯是二维半导体,展现出很多独特的性质,例如:高各向异性有效质量、高载流子迁移率
从历年中考题对圆的问题的考察来看,圆的问题的综合性和创新性逐年增强,重点考察学生数学思维能力。攻克圆的问题,是学困生头疼的内容,也是学优生能否取得高分的关键。任何具体问题解决过程中一定存在着思维过程,解决圆的问题不仅要有坚实的基础知识,思维还要灵活变通,如果解题过程中存在思维障碍,会影响题目解答过程和结果,导致解题失败。本文查阅了大量文献资料,在认知心理学和信息加工理论指导下,通过试卷检测,采用测
无证书公钥密码机制可在解决传统公钥密码机制证书管理问题的同时避免身份公钥密码机制的密钥托管问题,因此受到广泛关注。无证书签名是现代密码学的重要组成部分,也是信息安全的核心技术之一。其在继承无证书公钥密码机制优势的同时,可对信息完整性进行检验、对信息发送者的身份进行验证、避免用户的抵赖行为,为信息传递提供了可靠性保障。无证书聚合签名在无证书签名的基础之上,可同时给多个消息、多个用户提供不可否认服务;