面向源代码处理模型的对抗攻击和防御研究

来源 :河北大学 | 被引量 : 0次 | 上传用户:howard2000_0
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来人工智能迎来了快速的发展,深度学习技术作为人工智能的核心技术之一被广泛应用在各个领域。由于深度神经网络模型在图像处理、自然语言处理以及语音识别等领域的出色表现,一些学者开始研究使用该技术解决源代码处理领域的相关任务。然而,随着对深度学习技术的深入研究,相关学者发现对抗样本很容易对深度学习模型进行攻击,通过向输入样本中添加微小的扰动就会使得模型的预测发生改变,这种现象引起了人们对源代码处理模型安全性的担忧和关注。为了研究基于深度学习技术的源代码处理模型的脆弱性,相关研究的学者提出了不同的对抗攻击和防御策略。然而,现有的对抗攻击策略只考虑程序中标识符名称对模型预测结果的影响,而程序包含的结构信息对源代码处理模型同样至关重要。相应的对抗防御策略主要侧重于增强源代码模型对标识符变换攻击的鲁棒性,对进行等价结构转换的程序鲁棒性不强。为了研究程序的等价结构转换对基于深度学习的源代码处理模型鲁棒性的影响,本文从对抗攻击和对抗防御两个方面进行研究,主要的研究内容及贡献如下:1.提出了一种基于重要标识符等价结构转换的对抗程序生成方法。首先,本文提出了一个表达式粒度的程序等价结构转换集合,通过这些转换能向程序中添加扰动同时保证程序的语义在转换前后保持一致。现有的向程序中添加扰动的方法大多只涉及程序中标识符名称的改变,存在扰动范围小、难以扰动程序结构语义的问题。本方法利用标识符的重要性计算公式定位到程序中对模型预测重要的标识符,然后利用等价结构转换集合对重要标识符执行程序转换,进而成功利用了程序结构转换来生成对抗样本。2.提出了一种应用对抗攻击生成对抗样本进行对抗训练的防御方法。先前的研究发现,使用对抗训练技术对基于深度神经网络的模型进行重新训练能有效提升模型的鲁棒性,现有的用以提升源代码处理模型鲁棒性的对抗防御方法仅针对程序中的标识符名称,对抗训练后的模型依然难以抵御代码等价结构转换的攻击。本文提出的对抗训练方法,对原始的训练集中的每一批数据进行攻击生成对抗样本,然后将对抗样本和原始数据混合对模型进行重新训练。实验结果表明该方法在两个模型上分别提升源代码处理模型的21.74%和21.84%的对抗鲁棒性。
其他文献
随着机器视觉在三维领域的发展,点云以其便于采集、数据量小和信息丰富准确的优点得到了大量关注,相比于其他数据表现形式,诸如体素、mesh网格等,点云的特性使其更适用于自动驾驶、机器人视觉等需要快速处理的应用。点云通常由激光传感器或深度相机扫描获取,会出现物体不完整和坐标系不统一的情况。点云补全是从不完整的点云中挖掘信息,补全点云的缺失信息,构成一个完整对象,常用于解决扫描物体不完整的问题,点云配准是
学位
车辆再识别是在海量车辆图像或视频中检索目标车辆的过程,属于图像检索的子问题。在交通系统中引入车辆再识别技术,既能提高交通管理自动化程度又能保证对车辆定位追踪的准确性,传统的车辆图像处理技术不能很好的提取车辆特征,从而影响后续车辆再识别的效果。本文针对车辆特点及其所处复杂外界环境的特点,研究有效的车辆图像再识别算法。主要工作有:(1)基于MAPANet的车辆图像特征提取。依靠车辆图像中具有区分性的局
学位
软件漏洞导致了许多系统攻击和数据泄露,软件安全问题逐渐引起关注,软件漏洞检测现已成为一个重要的研究方向。近年来,深度学习技术已应用于漏洞检测,基于深度学习的漏洞检测方法不需要手动定义特征,实现了低漏报和低误报。深度学习技术依赖于数据集,最近的研究发现,不同的漏洞数据集对基于深度学习的智能漏洞检测方法的效果有不同的影响。漏洞数据集的真实性、不平衡性和重复率会影响基于深度学习的智能漏洞检测方法的有效性
学位
近年来,随着大数据、人工智能、高速网络等技术的发展,入网的物联网设备数量迅猛增长。物联网设备在智能家居、智能电网、智慧城市等应用场景下为人们生活生产带来便利的同时,也给网络带来了潜在的威胁。为了保证物联网网络的安全,需要对物联网设备进行高效,准确的管理和识别。针对物联网设备进行管理时,时效性要求较高,这意味着在网关处进行设备识别和管理具有十分重要的意义。然而目前提出的物联网设备识别方案普遍开销较高
学位
模糊蕴涵是模糊集理论中一类主要的逻辑连接词,在模糊逻辑、近似推理、模糊控制、模糊专家系统、模糊神经网络、图像处理和数据挖掘中发挥着重要的作用。一方面,广泛的应用推动着模糊蕴涵理论的研究。另一方面,随着人工智能的发展,模糊蕴涵在不确定性知识表示与推理中发挥着不可或缺的作用。因此,在过去十几年中,关于模糊蕴涵的性质、刻画、构造方法与应用一直是模糊逻辑中的研究热点。本文主要围绕几类新型模糊蕴涵的性质、构
学位
随着各领域对目标检测任务的需求日益增多,目标检测模型面临的挑战也逐渐多样化。虽然无锚框目标检测模型当前性能突出,但在特征学习过程中存在锯齿问题,并且对多尺度目标处理的结果不够理想,因此,设计了一种抗锯齿无锚框目标检测模型;针对无锚框目标检测模型存在的参数量冗余、计算复杂度高等问题,设计了一种由注意力模型引导的模型压缩方法。具体研究内容如下:(1)抗锯齿无锚框目标检测模型为了解决无锚框目标检测模型存
学位
隐私问题限制了数据的流通和利用,使拥有数据的各方形成了一座座数据孤岛。联邦学习和同态加密或差分隐私相结合能够实现跨孤岛的联邦学习,打破这种数据孤岛。基于同态加密的联邦学习在实现分布式机器学习的同时能够保护用户数据隐私,但加密后的数据是透明的,无法检测正确性,因此对恶意节点的容忍能力不足。使用差分隐私能够在联邦学习过程中保护各节点的数据隐私,但在模型参数中添加噪声会降低模型检测的准确率和收敛效率。针
学位
近年来,深度学习理论和技术都取得了突破性的进展。应用基于深度学习的技术自动识别和分类程序源代码,提高了开发人员对程序的理解和分析效率,并且有助于后续软件的开发和维护,在代码分类实际应用中有着出色的表现。然而,深度学习模型往往容易受到恶意对抗样本的干扰,致使其做出严重的错误决策。针对这类问题,如何有效生成对抗样本来参与对抗训练提高模型的鲁棒性引起了源代码处理领域研究人员的广泛关注。源代码的离散化和结
学位
随着互联网技术和移动通信技术的高速发展,数据呈现爆发式增长,越来越多的个人或者企业将信息存储在云服务器和雾服务器中。云存储和雾存储为用户提供便捷、性价比高的数据存储服务,用户将数据加密外包到服务器后,用户失去数据的管理权,这将会产生许多数据安全问题。为预防发生数据安全问题,过期数据需要被及时删除,并且在删除后需要执行删除验证以确保数据被真实的删除,所以数据确定性删除受到研究者们的广泛关注。本文基于
学位
伴随着互联网规模不断扩张,微博逐渐成为国民获取新闻资讯、传播信息的重要平台,用户量屡创新高。但由于微博具有匿名性,不可信用户也悄然滋生,并产生大量诈骗、网络钓鱼、詈言侮辱等不良信息,轻则对正常用户造成干扰,重则可能产生社会不稳定因素。因此,如何对用户可信性进行建模、精确识别不可信用户,已成为在线社交网络分析的热点问题。“用户可信性”顾名思义指用户客体能够被主体信任或依赖的能力,带有评价主体的主观色
学位