针对DQN在路径规划应用中的对抗性样本生成及预测研究

来源 :北京交通大学 | 被引量 : 1次 | 上传用户:star225
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,深度强化学习在许多领域都取得了一定的成功并得到了广泛的应用。其应用是否具备承受攻击能力和强抗打击能力也随之成为近年来的关注热点。因此,在人工智能安全性的大背景下,本文挑选了深度强化学习中极具代表性及经典的深度Q网络(DQN)算法进行研究。同时将强化学习系统中的智能体自动寻路应用作为对抗应用场景,构建应用上贴近民用的无人驾驶和军事实战的具有代表性的AI强化学习系统,并针对DQN对对抗性样本的脆弱性,对其进行攻击。本文利用DQN算法实现智能体的自主寻路,寻路路径为最优最短路径,同时对寻路路径的规则及特点进行分析和评估。基于此,本文提出了基于白盒的对抗性样本生成算法(WAG)和基于WAG算法的对抗性样本预测模型(APM)两种方法。在对抗性样本生成的研究中,通过对影响DQN路径规划算法的两个的因素Q值和梯度值进行分析和总结,提出了基于白盒的对抗性样本生成算法(WAG)。该算法可以实现对所有可能对路径规划造成攻击的对抗性样本点的检测。这些对抗性样本会不同程度的干扰智能体寻路,使其通过自主寻路无法达到应有的最优最短路径并能够成功的降低它的训练效率。在对抗性样本的预测研究中,本文提出了对抗性样本预测模型(APM)。对通过WAG算法找到的所有疑似对抗性样本的特征进行分析,根据对抗性样本对路径的影响程度即寻路时长和寻路步长将对抗性样本分为两类,分别为普通攻击点和致命攻击点。然后,提取对抗性样本的Q值和梯度值特征,利用典型相关分析算法(CCA)实现特征之间的关联和融合。同时对对抗性样本建立标签,将对路径规划影响最大的点命名为“致命攻击点”,除该点外的点命名为“普通攻击点”。最后利用K近邻算法(KNN)实现对两种类型对抗性样本点的预测。为了证明WAG和APM两个方法的有效性,本文构建了一个仿真环境作为平台进行实验。首先制定了是否为对抗性样本的判定标准,然后通过大量的实验发现通过提出的WAG算法可以成功的找到对抗性样本,并且从多个角度对实验结果进行分析。最后,通过APM方法建立分类预测模型,通过实验证明该模型能较好的实现对两种类型的对抗性样本点的预测,且分类模型的准确率达到了94.8%。
其他文献
延安精神是中国传统革命优秀的精神代表,中国共产党的革命经验,精神风貌和革命传承,都能在延安精神当中得到很好的诠释。在中国无产阶级革命的历史洪流中,中华民族的民族智慧,民族
博山传统民居建筑在当地悠久陶瓷生产的历史长河中孕育而生。其具有地域特色的独特民居建筑形式的形成、发展与演变,凝聚着当地陶瓷文化的传承与沿革,是当地陶瓷文化与建筑文化
<正>1调研时间2018年11月10日——2018年11月19日2调研地点深圳(中建二局深圳分公司道桥项目部)成都(中建一局集团成都分公司道桥项目部)武汉(中建一局集团建设发展有限公司
在我国加入世界贸易组织的今天,我国的国民经济以及工业化的脚步也在逐渐加快,随之而来的新能源以及新资源也如雨后春笋般的涌出,与此同时,也出现了越来越多的职业病有害物质
我国是一个以煤炭为主要能源的国家,煤炭不仅是重要的燃料,还是重要的化工原料。发展现代煤化工在我国“缺油、少气、富煤”的国情下具有战略性意义。但现代煤化工先进技术绝大
循环经济是以资源循环利用为核心,以减量化(Reduce)、再使用(Reuse)、再循环(Recycle)为主要特征的经济发展模式。20世纪90年来以来,随着可持续发展理念的深入发展,发展循环经济已成为
在高度信息化、技术化和全球化的现代经济社会里,现代企业管理已经进入了战略管理的时代。传统的预算管理体系中,预算与战略、非财务指标等相脱节,导致预算管理以短期目标利
本研究以西安市培华学院2011级640名大学新生为研究对象,以陈支那的《田纳西自我概念量表》(大学生版)和卢谢峰的《大学生适应性量表》的问卷为研究工具,采用方差分析、回归分析
本文通过对嵌入式系统技术、CAN总线技术的研究,设计一种具有CAN总线接口的智能传感器,可以完成对图像数据、温湿度数据的实时采集和传输,并以智能传感器组建网络系统。网络
对建筑形态的控制是历史街区保护与规划工作中非常重要的环节。我国在城市风貌控制方面,现行的控制体系还不完善,如规划控制条文笼统,缺少专业角度的解析,缺少有效的监督评价