面向漏洞检测的样本标注及结构化表征模型研究

来源 :华中科技大学 | 被引量 : 0次 | 上传用户:fntshb
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,网络空间安全事件频发,对社会造成了难以估计的影响。在这样的背景下,针对软件系统的漏洞检测研究愈发重要。深度学习因其强大的建模能力和智能化学习能力受到了广泛关注,研究人员纷纷应用深度学习技术进行源代码的表征学习以生成漏洞检测模型。然而,当前漏洞检测领域极度缺乏用于训练模型的真实软件漏洞数据集,目前有效的数据大都用人工的方式生成,效率低且成本高。此外,现有基于深度学习的漏洞检测方法大多是使用线性模型,依赖于源代码的文本信息而忽略了语法结构信息,从而造成了源代码语法和语义信息的丢失,同时也遗漏了许多漏洞特征。
  为了有效解决上述问题,提出了基于启发式规则的真实软件漏洞样本标注策略GenDoHE和基于结构化表征的深度学习漏洞检测模型Astor。GenDoHE策略首先分析了开源软件的源代码和漏洞信息,其次根据分析结果生成启发式规则,最后基于规则自动标注出源代码的漏洞行,从而构建真实软件漏洞数据集。Astor模型首先对源代码提取细粒度样本,其次基于抽象语法树对样本进行结构化表征,最后使用双向门控循环神经网络学习表征结果,能够准确地学习源代码所承载的语法结构和语义信息。
  实验阶段首先针对两款开源软件的漏洞文件验证了GenDoHE策略的有效性,此外基于多种类型的数据分析了Astor模型的性能。实验结果表明:(1)GenDoHE策略可以有效解决漏洞检测领域所存在的真实软件数据集匮乏问题;(2)Astor是一个有效且实用的漏洞检测模型,能够满足当前漏洞检测领域的需求;(3)基于结构化表征而构建的Astor模型对于代码长度大、类型较复杂且蕴含语义信息更丰富的漏洞数据具有更高效的检测能力;(4)与传统的线性表征模型相比,Astor的检测效果更优,整体漏报率降低了8.9%,F1指数提高了将近2.0%。但由于结构化表征计算复杂度高,Astor模型所需的训练时间会相对较长。
其他文献
研究背景与研究目的:近年,大量的癌症差异长链非编码RNA(lncRNA)被发现。这些lncRNA潜力巨大,可望作为分子标志物,用于临床癌症的预后预警和诊断等。然而,迄今,大部分lncRNA的功能尚不清楚,这严重阻碍了lncRNA在临床癌症中的应用。研究显示,许多lncRNA经常通过竞争性內源RNA(ceRNA)方式调控癌症的发生发展,本文称之为ce-lncRNA。运用生物信息学方法可以高通量预测c
学位
研究背景  胶质瘤是中枢神经系统中最主要的一种原发性肿瘤,具有侵袭性高、难治愈和致死率高等特性。由于恶性胶质瘤手术难度大,难以完全切除,胶质瘤容易复发且预后不佳,中位生存率仅为12个月。胶质瘤细胞的生长速度快、侵袭能力强是胶质瘤易于复发、难以根治的重要原因。其中,上皮间质转化(Epithelial mesenchymal transition, EMT)所导致肿瘤细胞的侵袭能力增强是胶质瘤术后复发
学位
血管性血友病因子(von Willebrand factor, VWF)与血小板糖蛋白Ibα(GPIbα)的结合介导血小板粘附和活化。而发生在VWF-A1结构域上的2B型和2M型突变均可导致严重的出血性疾病。这里我们采用了可以模拟生理环境的平行平板流动腔装置分析野生型WT-A1、2B型突变体R1308L、2M型突变体G1324S所介导的血小板运动行为。由于底板静电吸附导致纤维蛋白原(Fibrino
研究背景  胶原蛋白是动物体中最丰富的蛋白质,并且是细胞外基质(ECM)中最普遍的成分之一。目前模仿ECM自然特征的胶原蛋白的水凝胶已被广泛制造以支持干细胞的增殖和分化。然而,关于水凝胶支架中不同来源的胶原蛋白和ECM蛋白的百分比如何调节干细胞特别是间充质干细胞(MSC)的功能的了解还很少。  研究目的  探索水凝胶中ECM组分及其比例对间充质干细胞活性的调控作用  实验方法  1、实验材料:新生
学位
有研究发现糖胺聚糖(GAG)的硫酸化模式在细胞培养中对神经元突起形成和神经元极化起重要作用。其中硫酸软骨素6(chondroitin-6-sulfate,C6S)的硫酸基团位于GAG的6-O位置,通过前期实验我们发现C6S对小脑神经元的轴突生长起抑制性作用。我们认为C6S结合肽有望通过阻断C6S的功能,促进脊髓损伤后的轴突再生及功能恢复。本课题主要通过细胞存活实验、神经元轴突生长实验,组织免疫荧光
当今无线系统要求天线的定向性高、可辐射角度范围宽,以达到电磁波信号传播距离远、覆盖范围广的目的。而波束扫描天线定向性高,并且可以通过改变频率、机械、电子元件、特殊介质等条件来改变波束方向,从而拓宽天线的辐射范围。目前应用最广泛的波束扫描天线是相控阵天线,相控阵天线通过移相器、衰减器等组件来实现波束方向的控制,这使得相控阵天线成本高昂、体积庞大、结构复杂。漏波天线具有随频率变化扫描波束的能力,并且具
随着无线网络的广泛部署和智能移动终端的普及,移动流量日益激增,其中无线视频流量已经占据了主要部分。海量的视频内容以及新兴的服务业务为无线视频传输设计带来了巨大的挑战,包括视频传输效率以及传输质量的信道适应性。在传输效率方面,需要考虑在有限无线资源情况下,如何最小化大容量且高相关性视频的传输失真。在信道适应性方面,需要考虑在时变衰落的无线信道以及异构的多播信道场景下,如何使得视频恢复质量随着信道条件
动态有向图中具有更新依赖关系,即有向边的目的图顶点的状态值依赖于源图顶点的状态值。当沿着动态有向图中更新依赖关系传递的方向依次异步串行地处理图顶点时,图顶点状态值能够在动态有向图中快速传递。然而,现有软件图处理系统和硬件图加速器无法实时感知和利用更新依赖关系的这种特性,因此,现有方法在处理动态有向图增量计算时无法同时实现快速迭代收敛和低预处理开销。  针对现有软件和硬件方法在处理动态有向图增量计算
随着网络功能虚拟化和边缘计算的演变和发展,网络功能被部署在靠近用户的边缘服务器上来减少用户和云之间的数据交换和端到端的延迟。由于边缘服务器集群的资源有限,现有许多研究致力于开发轻量级的基于容器的网络功能虚拟化平台。然而,在基于容器的网络功能虚拟化平台中,多个容器共用同一个核来节省资源。这样会引起虚拟网络功能之间相互竞争资源,从而导致虚拟网络功能所服务的流的性能需求无法得到保证。  基于容器的网络功
学位
核值是一种反映图的聚合度的重要指标,也是图数据分析中紧密子图挖掘的一个热点,它适用于对网络拓扑结构的分析以及社区的查找,还可以用来遏制谣言的传播。静态图上的核值计算以及动态图上的核值更新分别称作核值分解和核值维护问题,这一类问题已经得到了广泛的研究。然而,绝大多数的这些研究都只关注于无权图,但是在现实场景下,大部分的图都是有权的,每个个体在网络中都自带一定权重。然而,目前还没有较为高效的算法能解决
学位