面向强化学习模型的扰动注入攻击算法研究

来源 :沈阳航空航天大学 | 被引量 : 0次 | 上传用户：wm3033

【摘要】

：

【作者】

：

郝英宇

【机构】

：

沈阳航空航天大学

【出处】

：

沈阳航空航天大学

【发表日期】

：

2023年01期

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

强化学习的深入研究推动了相关技术在无人驾驶、智能对抗等领域中的实际应用,并表现出了卓越的性能。但近年有研究指出,强化学习模型在实际使用中表现出不稳定的情况,既攻击者在模型的输入信息中注入扰动,从而使模型输出错误导致性能下降或决策失误。所以设计有效的对抗攻击是构建鲁棒的强化学习模型必不可少的前提。对于对抗样本对强化学习模型的干扰情况,本文提出了全时攻击算法进行评估,探究了强化学习模型对于不同对抗样本生成算法的抗干扰能力以及累积奖励衰减程度,通过实验可知对抗样本可使模型的累积奖励大幅。本文围绕着黑盒与白盒攻击形式,提出了精确关键帧攻击和精确诱导攻击两种算法。提出的精确关键帧攻击算法,在不干扰环境交互的正常进行下,通过预测每个状态下动作的最大概率与最小概率差值来缩短攻击范围,并观察相邻状态下智能体最大决策概率的差值来判断扰动的添加时刻。通过Atari实验场景证明了,在攻击频率为2%左右即可使智能体累积奖励降为最低,并对一种强化学习算法的攻击应用到其他强化学习算法训练的模型下,攻击效果同样有效。提出的精确诱导攻击算法,根据当前状态制造多组干扰动作序列,将每组干扰动作序列输入到模型中,并设计度量函数来评估攻击前的最终状态与攻击后的最终状态之间的差异值,并挑选出最具攻击性的动作序列。通过对智能体一部分决策的干扰,不断的积累损失最终使得累积奖励大幅降低。通过Atari实验证明了,在攻击频率不超过10%的情况下,即可使累积奖励降为最低,并对其中一种强化学习算法的攻击应用到其他模型中,攻击效果仍然显著。

其他文献

面向事件流数据的多复杂事件实时监测技术研究与应用

随着信息社会的进一步发展,越来越多的行业采用复杂事件处理技术来对海量的事件流进行实时的监测与分析。目前在复杂事件处理领域已经有了很多研究成果,先前的研究主要集中在事件处理语言、事件过滤、事件监测等相关技术。而当前的复杂事件处理系统往往要求在实时约束条件下并行处理数百个甚至数千个由用户定义的查询。在多复杂事件处理的优化问题上,研究人员往往基于经典的复杂事件监测模型的基础进行上层的多查询的优化。例如在

学位

国际医学的社会办医“起飞”？

报纸

中国特色社会主义医疗卫生资源性质探讨

将政府办医与社会办医对立起来，不仅会使医疗卫生资源难以得到有效配置，也会使社会办医畸形发展。文章认为，政府办医和社会办医统一于社会主义医疗卫生制度中，都是中国特色社会主义医疗卫生资源不可分割的重要组成部分。把握中国特色社会主义医疗卫生资源性质，切实推进医疗卫生资源社会化，既是推进医疗卫生资源合理有效配置的客观需要，也是落实分级诊疗、推进健康中国建设的内在要求。当前，在推进医疗卫生资源社会化过程中，

期刊

基于改进UCT的藏久棋博弈技术研究

计算机博弈,也被称为机器博弈,其本质是期望计算机能够和人一样做出智能的决策。计算机博弈作为人工智能领域最富有挑战且十分重要的一个研究方向,对人工智能学科的发展起到推动作用。近年来,随着深度强化学习的快速发展,以Alpha Go为代表的博弈智能体取得了举世瞩目的成就,不仅促进了机器博弈理论与技术的进步,同时对人工智能的发展产生了深远的影响。藏久棋作为一种完备信息博弈的棋类游戏,主要流行于我国藏民族地

学位

基于深度学习的小样本工艺过程生成研究

工艺过程自动生成一直是计算机辅助工艺设计追寻的目标。但限于强专业性、复杂逻辑、少数据等问题,派生、规则、本体与浅层神经网络的方法受到了诸多挑战,效果与实用性不佳。在此背景下,本文开展了基于深度学习的小样本工艺过程生成研究,具体包括:针对现有工艺过程生成方法对于不同专业适用性较差的问题,提出一种基于深度学习编码器-解码器的工艺过程生成方法。该方法利用工艺大纲文件数据,通过编码器提取工艺属性特征,解码

学位

公共医疗服务效率的时空演化与影响因素分析

文章借助超效率SBM模型、ESDA模型、Malmquist指数模型、固定效应模型分析了我国中医医院公共医疗服务效率的时空演化特征和影响因素。结果显示，我国中医医院医疗服务综合效率整体处于中等水平，地区间差异较大，TFP年均下降1.9%，效率值呈现空间集聚。医师日均担负诊疗人次数、日均担负住院床日、病床使用率和人均GDP对医疗服务综合效率有正向影响。应推进中医医疗资源均衡布局，推动医疗服务和管理模式

期刊

不一致数据混合修复方法研究与应用

互联网技术的快速发展催生了大数据时代的到来,数据在积累的过程中常常伴随各种类型的数据错误,其中不一致错误就是最常见的一种。针对数据中的不一致错误,现有数据修复方法分为子集修复和更新修复两种,大多基于完整性约束规则,采用最小代价原则,通过删除或更新少量元组使得数据一致。然而当数据中的错误较多时,这种方法的准确率将大大降低。为此,本文提出规则与概率相结合的混合式数据修复方法,利用概率统计信息指导错误修

学位

边缘网络下智能化缓存策略优化技术

随着智能交通系统越来越普及,车辆用户产生大量的数据需求。近年来,大量的研究人员聚焦于如何解决车辆用户获取请求内容的问题,但这些研究都缺乏不同网络环境对用户体验质量（Quality of Experience,Qo E）影响的思考。本文针对不同网络环境提出了网络质量好的环境下的智能化边缘缓存策略和网络质量差的环境下的智能化边缘缓存策略。首先,针对网络质量好的环境下车辆的高速移动性导致的车辆在基站之间

学位

基于深度学习的摘要生成技术研究

随着互联网的高速发展及移动客户端的普及,人们越来越依赖于通过互联网来获取信息,文本信息过载问题日益严重,因此如何高效准确的获取信息变得尤为重要,文本摘要便是其中一个重要手段。本文在先前的研究基础上进一步探索,并提出了相应的改进算法,主要包括以下两个方面:（1）鉴于中文n-gram蕴含着丰富的局部上下文信息,本文提出一种将n-gram信息整合到现有模型的神经框架Ngram Sum。该框架以现有的神经

学位

基于时间序列的乳腺MRI影像配准方法研究与应用

动态对比增强磁共振影像（Dynamic-contrast Enhanced Magnetic Resonance Imaging,DCE-MRI）可以显示平扫影像中不明确的病灶区域,因此被广泛用于乳腺癌的早期诊断中。在检查过程中,患者的呼吸行为等会导致乳腺部位的形变,导致对于同层面不同时相的乳腺区域出现错位。此外,造影剂随时间的衰减也会对配准效果造成一定程度的影响。本文针对现有配准方法存在的准确率

学位

面向强化学习模型的扰动注入攻击算法研究

与本文相关的学术论文