基于文本分类技术的漏洞分类

来源 :贵州师范大学 | 被引量 : 0次 | 上传用户:sasa826
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
伴随着信息技术的飞跃发展,计算机应用的不断普及,人们的生产生活已经无法离开这个不可或缺的工具。随之而来的则是计算机和网络所带来的安全问题。计算机和网络的安全问题成为近几年来信息安全领域中的研究热点。计算机上的操作系统和应用软件中存在的安全漏洞则成为计算机和网络安全的罪魁祸首。同时,由于近几年来计算机上的安全漏洞呈现爆炸式的增长,如何有效地对已存在的漏洞进行分类,则成为计算机漏洞有效管理的瓶颈。本文的主要工作是针对漏洞分类技术的研究,将文本分类技术作为漏洞分类技术的支撑,故而漏洞分类以漏洞文本为依据;同时深入学习了机器学习中有关信息熵的相关理论知识,为下文提出的基于模糊熵的漏洞文本特征提取算法和基于类别熵的二叉树多类支持向量机的漏洞分类算法做理论支撑。最后通过收集国际通用的公共漏洞和暴露(CVE)列表中的相关漏洞文本信息和参考国际上通用的弱点枚举(CWE)对漏洞分类类别的定义,结合二者为本文的漏洞分类实验做数据支撑。具体工作如下:(1)给出了计算机漏洞的定义和漏洞分类的原理;深入分析文本分类的特点和文本分类的六个步骤;深入研究了机器学习中的有关本文所使用的分类算法。(2)将信息熵理论和模糊集理论结合起来,阐述了模糊熵的概念,并将模糊熵应用于漏洞文本特征的提取中,提出基于模糊熵的漏洞文本特征提取算法。根据此算法将计算出的每个特征的模糊熵值按升序排列,取熵值较小的特征组成特征子集,并对特征子集中的特征进行加权后构成漏洞向量空间。通过实验与其他两种常见的且特征提取效果良好的提取算法进行分类对比实验,进而体现本文提出的特征提取算法的优越性和先进性。(3)将类别熵和二叉树在分类中的优点结合起来,提出基于类别熵的二叉树多类SVM的分类算法,并将此算法应用于漏洞分类中。同时为了可以通过计算漏洞类别的熵值来量化样本分布的混乱程度,还定义漏洞类别的最小超球体和延伸超球体这两个概念来分别描述某一类别的漏洞样本空间中的聚集程度和与其周边不同漏洞类别的样本的混乱程度。(4)最后从CVE列表中收集到3000个漏洞作为实验数据,取出其中的2500个漏洞作为训练基于类别熵的二叉树多类SVM的分类算法的训练样本,剩余的用于测试分类模型的测试样本。通过与基于KNN和基于二叉树多类SVM的漏洞分类算法进行对比实验,验证本文提出的漏洞分类算法的准确性和先进性。测试实验结果表明,本文提出的漏洞分类的平均正确率高达93.3%。本文的研究成果能够大大提高漏洞的修复和分析等管理的效率,能够最大限度的减少计算机漏洞管理所需要的人力物力,故而具有一定的应用研究价值。
其他文献
Web服务组合可以有效地支持企业内部跨部门的横向业务集成,以及横跨业务伙伴的企业间业务集成。组合Web服务验证可以检查集成业务是否是可终止的、有效的和正确的。两者蕴藏着
Petri网是对具有并发、同步、异步、冲突、资源共享以及不确定性等特点的离散事件系统进行建模分析的有效工具。随着现实中系统规模的不断增大,作为支持Petri网可视化建模与
网上商城平台是电子商务模式的一个重要分支。它依靠现代互联网技术,在网络上创建一个公共的虚拟区域。在这样一个区域中,用户可以申请自己的空间开店售买商品,也可以以普通顾客
近年来,高性能计算技术蓬勃发展,越来越多的科学计算问题能够通过并行程序设计得到解决。但在基础理论研究等众多领域,问题规模越来越大,需要更多的计算资源,所以并行计算系
如今,各种机器视觉的软件、硬件被大量应用到各类工业现场和安检现场。作为计算机视觉一个重要分支,明暗恢复形状(SFS)方法,也在很多现场软件当中得到应用,并以其输入信息量小和
我国的交通问题和其它大多数国家一样已成为一个相当重要的问题,如何运用现代的科技手段来缓解日益严峻的交通压力,是目前研究的重点。 本文根据Agent的特点首先介绍了运用A
热缩材料是用途广泛的高科技产品,具有较高的绝缘、阻燃、防腐、隔热性能,主要应用于电力、通讯、航天、军工、电子、船舶、石油化工、汽车、造船等诸多领域[1]。随着热缩材
网格服务工作流是一组成员服务的集合,服务之间存在着时序或因果的约束条件,并最终完成一个特定的目标。调度是网格工作流中重要的课题,它不仅影响网格工作流的执行成功与否
P2P技术是国际互联网的研究热点之一,已被广泛应用于互联网领域之中,在资源共享、协同工作、搜索引擎和分布式计算等方面有着非常好的应用前景,这些应用的大多数问题都可归结
随着计算机技术和通信技术的飞速发展,用户存储了越来越多、具有很高使用价值的内容,整个互联网内容存储的中心,渐渐从网络核心移向靠近终端用户的边缘。内容存储方式的转变趋势