面向异步优势演员—评论家模型的安全性分析

来源 :北京交通大学 | 被引量 : 0次 | 上传用户:s5871212
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
强化学习基于其自主学习特性,在很大程度上推动了人工智能的发展。同时随着深度学习的兴起,该领域进一步迈入了深度强化学习时代。在各种主流的深度强化学习模型中,以异步优势演员-评论家模型(A3C)为代表的异步深度强化学习模型,凭借其独特的异步并行框架,引领了由并行计算带来的深度强化学习革命。随着A3C模型越来越多的部署于高安全敏感性的应用场景,其所面临的安全问题日益凸显,包括A3C模型健壮性分析、模型安全漏洞分析以及模型隐私泄露分析等,以上安全问题的存在已成为阻碍该领域蓬勃发展的关键壁垒。本论文针对A3C模型的安全问题,结合异步框架下的并行计算特点,对A3C模型开展相关安全性分析。本论文的主要研究内容及其贡献包括以下三个方面:(1)面向A3C模型训练过程中的弱决策现象,提出了针对A3C模型的健壮性评估方法。A3C模型在训练时,由于学习率设置不恰当、智能体数量多、状态空间尺寸以及训练中智能体初始状态的分布等多种复杂的因素,会出现一种弱决策现象。由于这一现象的存在,针对A3C模型的健壮性衡量无法直接利用现有的深度强化学习模型健壮性评估方法,即基于神经元覆盖率的健壮性评估、基于模型性能表现的健壮性评估等。因此,A3C模型的健壮性评估成为了深度强化学习安全研究领域中的关键安全挑战之一。本研究针对异步框架中的弱决策现象,提出了新的A3C模型健壮性评估指标:偏态和稀疏态。同时,基于A3C模型全生命周期上的状态价值提取,分别提出了针对A3C模型的静、动态健壮性评估方法,实现细粒度、过程可量化的模型健壮性评估。(2)面向A3C模型渗透测试,提出了针对A3C模型安全漏洞的重训练攻击方法。A3C模型中存在由异步框架下并行计算带来的重训练触发漏洞,容易受到对抗性攻击威胁,严重影响了A3C模型的安全性。然而,目前针对对抗性攻击的深度强化学习安全性研究,忽视了异步框架下与A3C模型重训练机制相关的安全分析,国内外尚未发现该相关研究。本论文聚焦异步框架下A3C模型重训练机制的安全漏洞分析,提出了基于梯度带构建和穷举策略的重训练攻击构造方法。开展了渗透测试,进行了充分的安全漏洞分析,进而验证了A3C模型中重训练攻击漏洞的存在。同时,针对重训练攻击设计新的攻击效果量化指标,并给出相应模型防御建议。(3)面向A3C模型超参数隐私保护,提出了针对A3C模型奖励函数隐私泄露的对抗性轨迹生成方法。奖励函数作为深度强化学习模型中的关键超参数之一,往往需要大量的专家经验与实际检测确定,其设计与模型性能的优劣息息相关,属于具有很高商业价值的模型隐私。目前,在针对奖励函数的深度强化学习模型隐私保护研究领域中,大多数工作仅从对抗攻击者角度开展对抗加固研究,而忽视了加固本身可能引发灾难性状态,从而导致模型本身性能大幅衰减的情况。针对该问题,本论文面向A3C模型提出了一种基于奖励值聚类互信息的,模型奖励函数隐私泄露评估方法。同时,面向灾难性状态规避,提出了一种基于关键性状态选择和内在恐惧模型构建的对抗性轨迹生成方法,增加超参数逆向难度,在一定程度上保障了模型奖励函数隐私安全。
其他文献
数学计算是小学数学的基础内容之一,如何提升学生的计算能力已成为数学教师需重点研究的内容。结构化视域下的小学数学计算教学策略,是指将小学数学计算的内容和方法按照其内在的结构和逻辑关系进行分析和组织,从而帮助学生更好地理解数学计算道理和方法,培养数学核心素养。基于此,教师教学时应在结构化视域下,运用科学的教学方法,帮助学生建立结构化的数学思维模式,提高学生的计算能力和数学素养。
期刊
传统宗教园林是中国园林重要的组成部分,研究基于风景园林学,以泰山肥城地区为研究样本,以历史源流、空间分布为主线,系统分析了肥城地区传统宗教园林的发展脉络、分布特点、单体以及整体特征。以此为根基提炼了儒释道思想在传统宗教园林中的表达方式以及坛庙、佛寺、道观各自特点,为中国传统宗教园林增添活力,也为城乡居民记录可以感知传统文化的公共空间。通过整理研究现状发现,以往传统宗教园林研究集中于寺观园林,缺乏与
学位
高速动车组具有高效、高速、安全、准时以及运输容量大的特点,不仅方便了人民的生活,也带动了国民经济的发展。牵引变流器作为动车组的关键组成部分,由于采用牵引网单相供电,输入功率中包含交流分量,将会导致内部交直流系统相互耦合。传统解决方案是采用LC二次谐振支路来解耦交流功率,然而这种无源硬件解耦方案不仅降低了牵引变流器的功率密度,还会因谐振解耦电容参数变化导致解耦性能下降。因此,本文针对动车组牵引变流器
学位
场景理解是现代智能应用的重要基础,能够为智慧城市、自动驾驶、移动机器人等诸多应用提供场景中目标物体、语义关系、环境位置等必要的上下文信息,帮助智能系统做出更合理的决策。场景理解进一步可以分为场景分类、场景属性识别、场景解析等子任务,其任务难度不断增加,也对场景特征的表示能力、场景模型的分类判别能力提出更高要求。一方面场景图像的复杂结构和背景噪声,使类内不一致问题尤为突出;另一方面,场景类别、属性、
学位
化石燃料的燃烧是人类获取能源的主要方式。随着世界人口的增长和社会经济的发展,人们对能源的需求也日益增加,但化石燃料燃烧所产生的污染物对全球气候环境造成了巨大压力。人类因生存发展的需要与之伴随而来的对生态环境的压力之间的矛盾越发突出,因此必须发展具有高燃烧效率、低污染的燃烧新技术。近些年,温和或剧烈的低氧稀释(moderate or intense low-oxygen dilution,MILD)
学位
以文化语用学思想为指导,以2021年高考英语全国卷(新高考Ⅱ卷)为例,探讨高考英语阅读理解测试中的文化语用能力评价情况。结果发现:就测试指向而言,文化语用能力的3个层面都有考查,但以文化信息应用能力考查为主;就考查特点来看,涉及的英语国家日趋多元,基本能做到“点”“面”结合,且重视核心文化信息评价。在新高考改革的背景下,英语阅读理解试题可进一步丰富测试文本的英语文化背景,充实文化语用能力评价语料库
期刊
风荷载是控制高柔结构安全性和舒适性设计的主要因素,高层建筑、烟囱、桅杆等具有钝体截面的高柔结构对风荷载敏感性较高。风绕经高柔结构所形成的周期性漩涡脱落会诱发结构发生横风向振动,当漩涡脱落频率接近结构自振频率时,漩涡脱落频率被结构自振频率“锁定”并发生大幅涡激振动。涡激振动会诱发结构发生疲劳、局部构件破坏甚至整体垮塌,因此在实际工程设计中需准确评估高柔结构横风向振动。造成高柔结构发生大幅横风向振动的
学位
全自动驾驶列车已成为轨道交通领域新的发展方向,为保障列车安全稳定运行,需要解决的重点问题是对于运行环境的实时智能监控和有效感知。现阶段所采用的手段多聚焦于在轨旁安装视频监控装置或人工定期巡检,这些方法效率低、成本高,无法满足轨道交通长距离、全天候条件下的环境监控需求。研究基于列车车载视觉的环境感知系统,对轨道环境进行实时监测和异常检测是保障列车安全运行的重要手段,也是智能化铁路的发展方向。本文以轨
学位
基于模块化多电平换流器(Modular Multilevel Converter,MMC)的柔性直流电网可提升新能源消纳水平,正在成为以新能源为主体的新型电力系统重要支撑。柔性直流电网容易受到直流故障的影响,其固有的弱阻尼特性导致直流故障电流上升速度快、过流幅值大,易造成“局部故障、全网停运”,严重影响系统安全稳定运行。揭示直流故障发展演化的内在机理并提出快速有效的选择性故障清除方法对柔性直流电网
学位
教师专业生活是教师专业发展研究领域里的一个重要课题。已有研究常将教育实习视为职前教师培养的重要环节,但并未足够重视其对指导教师专业生活的影响。本研究以教育实习中与指导教师关系最为密切的实习生个体为切入点,探究实习生教育实习活动对指导教师专业生活所产生的影响,认为关注教育实习带来的积极影响,能够激发学校管理者将教育实习与推进指导教师的专业成长做出必要联结,促使实习生更主动地参与到教育实践中,同时推进
学位