论文部分内容阅读
伴随着信息技术的飞跃发展,计算机应用的不断普及,人们的生产生活已经无法离开这个不可或缺的工具。随之而来的则是计算机和网络所带来的安全问题。计算机和网络的安全问题成为近几年来信息安全领域中的研究热点。计算机上的操作系统和应用软件中存在的安全漏洞则成为计算机和网络安全的罪魁祸首。同时,由于近几年来计算机上的安全漏洞呈现爆炸式的增长,如何有效地对已存在的漏洞进行分类,则成为计算机漏洞有效管理的瓶颈。本文的主要工作是针对漏洞分类技术的研究,将文本分类技术作为漏洞分类技术的支撑,故而漏洞分类以漏洞文本为依据;同时深入学习了机器学习中有关信息熵的相关理论知识,为下文提出的基于模糊熵的漏洞文本特征提取算法和基于类别熵的二叉树多类支持向量机的漏洞分类算法做理论支撑。最后通过收集国际通用的公共漏洞和暴露(CVE)列表中的相关漏洞文本信息和参考国际上通用的弱点枚举(CWE)对漏洞分类类别的定义,结合二者为本文的漏洞分类实验做数据支撑。具体工作如下:(1)给出了计算机漏洞的定义和漏洞分类的原理;深入分析文本分类的特点和文本分类的六个步骤;深入研究了机器学习中的有关本文所使用的分类算法。(2)将信息熵理论和模糊集理论结合起来,阐述了模糊熵的概念,并将模糊熵应用于漏洞文本特征的提取中,提出基于模糊熵的漏洞文本特征提取算法。根据此算法将计算出的每个特征的模糊熵值按升序排列,取熵值较小的特征组成特征子集,并对特征子集中的特征进行加权后构成漏洞向量空间。通过实验与其他两种常见的且特征提取效果良好的提取算法进行分类对比实验,进而体现本文提出的特征提取算法的优越性和先进性。(3)将类别熵和二叉树在分类中的优点结合起来,提出基于类别熵的二叉树多类SVM的分类算法,并将此算法应用于漏洞分类中。同时为了可以通过计算漏洞类别的熵值来量化样本分布的混乱程度,还定义漏洞类别的最小超球体和延伸超球体这两个概念来分别描述某一类别的漏洞样本空间中的聚集程度和与其周边不同漏洞类别的样本的混乱程度。(4)最后从CVE列表中收集到3000个漏洞作为实验数据,取出其中的2500个漏洞作为训练基于类别熵的二叉树多类SVM的分类算法的训练样本,剩余的用于测试分类模型的测试样本。通过与基于KNN和基于二叉树多类SVM的漏洞分类算法进行对比实验,验证本文提出的漏洞分类算法的准确性和先进性。测试实验结果表明,本文提出的漏洞分类的平均正确率高达93.3%。本文的研究成果能够大大提高漏洞的修复和分析等管理的效率,能够最大限度的减少计算机漏洞管理所需要的人力物力,故而具有一定的应用研究价值。