安全缺陷报告检测模型的对抗攻击方法研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:h120568
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着软件产品的广泛应用,软件缺陷也随之增多,其中包含的安全漏洞如果不被尽早修复,会被恶意攻击者利用攻击系统造成安全风险,因此出现了利用机器学习的方法来帮助安全专家在缺陷追踪管理系统中检测安全缺陷报告。但是近年来,随着对抗样本概念的提出,在原有数据上添加微小扰动便能降低原始分类模型的准确率,暴露了机器学习模型本身存在的脆弱性。针对以上问题,本文对安全缺陷报告检测模型进行了对抗攻击方法的研究,具体工作如下:首先选取两类经典的安全缺陷报告检测模型作为受害者模型,分析其工作原理和基本流程,一类是基于文本安全关键词过滤非安全缺陷报告的检测方法,简称为FARSEC(a framework composed of a combination of Filtering And Ranking methods to reduce the mislabelling of SECurity bug reports by text-based prediction models),一类是基于内容相关性过滤非安全缺陷报告的检测方法,简称为LTRWES(combining Learning To Rank with Word Embedding for Security bug report prediction)。选取现有的4种文本对抗攻击方法对这两个受害者模型进行对抗攻击,在4个数据集上进行实验,结果表明受害者模型确实存在一定的脆弱性,对FARSEC的平均攻击成功率为37.17%,对LTRWES的平均攻击成功率为94.10%。由于LTRWES使用词嵌入的方法表示缺陷报告,更容易受到扰动,而FARSEC使用的安全关键词将缺陷报告表示为稀疏化向量,在较大程度上能够抵御这4种攻击方法。因此,为了探索更加强大的攻击策略,以及解决现有攻击方法存在的未将样本质量考虑在内的问题,本文提出了一种基于词粒度的综合考虑攻击成功率和文本质量进行样本搜索的对抗攻击方法,简称为WLHGBA(Word-level heuristic greedy and beam search attack methods),在扰动策略和搜索方法部分进行了改进。在扰动策略方面,已有方法主要基于替换单词策略进行攻击,本文利用词重要程度和类别相关性计算得到的安全交叉词作为插入候选词对扰动策略进行补充。在搜索方法方面,结合删除单词的启发式贪心和束搜索,提出综合考虑攻击成功率和文本质量的评分函数对候选样本进行保留迭代,利用基于上述方法生成的对抗样本对受害者模型进行对抗攻击。实验表明,WLHGBA方法在FARSEC模型上的平均攻击成功率达到了96.35%,比本文选择的四种文本对抗攻击方法提高了59.18%。在LTRWES模型上得到的平均攻击成功率达到了98.87%,比本文选择的四种文本对抗攻击方法提高了4.77%,且对抗样本质量优于这四种攻击方法,能够在保持较低文本修改率的前提下获得语义相似度更高和文本困惑度更低的对抗样本。最后,本文研究了利用对抗样本补充数据集进行模型重训练的方法来检验对抗样本的有效性,实验表明经过重训练后的模型能够识别出一定的对抗样本,在一定程度上提高了模型的鲁棒性。
其他文献
大数据质量问题是普遍存在的。在工业传感器、可穿戴设备、智能手机、平板电脑等设备中会源源不断的产生大量数据,由于数据来源的多样性,以及由软硬件故障引起的错误,都会给数据带来噪声,导致数据质量问题,影响数据的可用性。数据质量低劣不仅影响大数据真正价值的体现,甚至会造成严重的后果,数据质量问题亟需解决。其中,不一致是典型的数据质量问题,在数据管理领域,目前已经有自动化的一致性错误检测、不一致数据修复和一
学位
近年来,胃肠道间质瘤(gastrointestinal stromal tumor,GIST)的发病率和死亡率均呈上升趋势,多数GIST都有c-KIT组成型激活突变。手术治疗是GIST最重要的治疗手段,但是c-KIT突变的GIST术后复发率较高。目前市面上治疗c-KIT突变阳性GIST的药物已出现耐药现象,因此亟需开发新型c-KIT抑制剂来改善GIST的预后。在本研究中,我们研究了新型c-KIT抑
学位
<正>为喜迎党的二十大,绍兴市上虞区崧厦街道中心小学少工委编印了《故事中的党史》红色校本教材。少先队员时时读故事、讲故事、演故事,兴致勃勃地当起党史故事的小主播,成为红色文化的小先锋。校内+校外:百名队员讲党史“为了麻痹敌人,民兵们研究了一种在地雷腹中自动点火的‘慢雷’……”队课上,各中队“党的故事我来讲”红色故事擂台赛如火如荼地进行着。根据优秀红色故事的评选标准,四(2)中队张欣沂经民主投票被选
期刊
近年来,以互联网为媒介的电子媒体迅速发展,网络新闻作为基础应用之一正在影响越来越多的网民,拥有巨大的市场前景。然而在感受着网络新闻带来的快捷化信息便利的同时,网络新闻文章数目庞大、文章质量参差不齐、阅读过程耗时延长等弊端也日益显现。在这种时代背景下,自动文本摘要技术逐渐受到关注:文摘结果可推送给用户,吸引用户点击提升用户阅读效率,进而提高用户对产品的依赖性;作为中间结果代替原文本参与信息检索过程,
学位
心血管疾病是近年来不容忽视的公共卫生问题,随着社会与经济的高速发展,心血管疾病的患病率在逐渐上升。冠心病是患病率最高的心血管疾病,而冠脉CT造影技术则是有效、非创伤性的冠脉相关疾病评估与诊断方式。实效性强的冠心病计算机辅助诊断方法是智慧医疗在心血管临床场景应用中的关键技术。然而受限于冠脉狭窄的复杂性和不确定性,基于冠脉CT造影的自动冠脉狭窄分析依然是一项具有挑战性的任务。本文设计了局部Transf
学位
学位
随着强化学习的迅速发展。其他行业的研究人员也不断的将强化学习思想应用到自己的研究领域中。随着以强化学习为核心的应用不断增多,强化学习存在的问题也逐渐的暴露出来。其中最主要的一个问题就是强化学习的效率问题,强化学习在完成运动规划任务的过程中,需要与环境进行大量的互动,如果没有一个好的探索策略,会大大延长智能体学习的时间。除此之外,强化学习需要使用奖励函数来激励学习,而在实际应用中,外界环境往往是复杂
学位
随着人工智能时代的到来,机器学习应用的领域越来越广泛。伴随着数据处在爆炸的时代,机器学习在训练数据规模和计算等问题上正面临诸多严峻的挑战。比如,现有的数据管理技术无法直接为机器学习数据提供智能的存储,现有数据选择方法不能很好地满足机器学习样本数据的概要提取需求,目前尚无高效的连接顺序选择算法等。为了推动数据库内机器学习的发展,使智能数据管理技术赋能机器学习,本文研究了支撑数据库内机器学习的关键智能
学位
随着互联网的蓬勃发展,视频资源日渐丰富,公共场所的监控摄像头越来越多,网络视频的流量飞速增长,信息传播速度进一步加快,导致视频信息的安全性问题逐渐暴露出来,因此基于视频的暴力行为识别越来越受到关注,而从视频中自动识别犯罪场景变得至关重要且具有挑战性。目前,在暴力行为识别任务上,主流的方法是基于深度学习的,但普遍会存在两个问题,(1)目前很多深度学习网络模型都是基于C3D网络结构作为骨干网络进行识别
学位
改革开放以来,我国经济增长突飞猛进,各项事业取得了显著成就,但是消耗资源、消耗人力的粗放式发展也带来许多弊端,我国人口、资源、环境的矛盾越来越突出,可持续发展的压力越来越大,产业结构不合理、资源浪费严重,因此必须转变依托要素驱动的经济发展方式,走创新驱动的新路,科技创新才是经济发展的不竭动力。从国内看,推进科技创新是形势所迫,但从国际范围看,创新驱动已是大势所趋。近年来,我国也在不断鼓励大众创业、
学位