论文部分内容阅读
随着网络空间安全形势日益复杂,网络入侵手段更加多样化,这些入侵行为给网络生态环境带来了巨大危害,如何对网络入侵实现更加精准快速的识别检测是目前研究入侵检测的重点。得益于人工智能近些年来的快速发展,机器学习技术在网络完全领域也崭露头角。它通过在真实的网络环境下采集的数据集上训练分类模型,实现对异常网络流量样本的智能判别,打破了传统的基于特征知识库的检测手段限制,因此,机器学习算法在入侵检测领域合适应用,对实现高效能轻量级的入侵检测系统大有帮助。但是,基于机器学习的入侵检测技术仍然存在一些问题,比如模型检测时间长,误报率高以及通用性不好等问题。针对目前基于机器学习的入侵检测技术研究不足的现状,本课题从研究机器学习中随机森林算法、网络流量特征选择算法以及不平衡数据分类技术出发,以降低入侵检测模型的时间开销,提高入侵检测准确率和入侵检测模型泛化性能为目标,对网络入侵检测数据的特征选择算法,入侵检测模型进行改进。本文的主要研究内容包:(1)设计简单易实现、低开销的混合式特征选择算法目前较为流行的特征选择算法分为过滤式和包裹式。过滤式特征选择算法利用数据的基本数据特性,采取独立于分类器的方法评估特征之间的相关性,时间开销小,但由于独立于分类模型,选出的特征有可能是冗余特征,甚至不利于数据分类的特征。包裹式特征选择算法因为和具体的分类算法相结合,在保证优异的分类性能的同时,选出最优特征子集,由于这种方法与特定分类器相关,往往计算开销大,导致入侵检测模型的响应时间较长。为了克服单纯使用两种方法带来的准确率低以及时间开销大的缺点,本文提出一种基于卡方检验和随机森林算法的混合式特征选择算法。(2)提出基于混合特征选择和随机森林算法的入侵检测方法针对网络入侵类别多,网络数据维度高以及检测率低等问题。本文结合设计的混合式特征选择算法与随机森林算法的优势,提出基于混合式特征选择与随机森林算法的入侵检测方法,并建立入侵检测模型。该模型利用上混合式特征选择算法挑选出最优特征子集,结合随机森林算法一起训练分类模型,实现入侵检测,在保持高检测率的同时降低入侵检测模型的时间开销。(3)提出面向不平衡网络流量数据的入侵检测方法针对真实网络流量数据中不均衡的入侵类别分布,以及目前的入侵检测方法对少数入侵类别检测率低的局限。本文改进SMOTE数据不平衡处理技术,将SMOTE算法与KNN算法相结合,对少数类入侵样本实施过采样。并基于此方法在已经提出的基于混合式特征选择和随机森林算法的入侵检测模型中引入不平衡数据的处理方法,构建新的检测模型,提高对入侵类别的细粒度检测性能。实验结果表明,和常用的几种特征选择算法相比,本文设计的混合式特征选择算法简单易实现,在两个测试集模型的训练时间分别降低了29.48%和15.76%。这有助于实现更加轻量化的入侵检测系统。本文利用提出的基于混合式特征选择和随机森林算法的入侵检测方法建立模型,相比常用的机器学习算法建立的模型,入侵检测准确率提高了12.38%。最后,本文通过改进SMOTE算法,并将设计的不平衡数据处理方法引入基于混合式特征选择和随机森林算法的入侵检测模型中,能够大幅度提高对特定入侵类别的细粒度识别,提高了模型的泛化能力。这有助于提高入侵检测系统的通用性。