论文部分内容阅读
入侵检测在计算机安全系统中发挥着越来越重要的作用,目前入侵检测系统使用的规则或模式还是主要依赖于领域专家分析提取,自适应能力不强,可扩展性差。并且由于入侵检测系统审计数据量很大,使用人工分析的代价非常昂贵。将数据挖掘技术应用于入侵检测的数据分析,可以有效的减少人工分析的工作量和经验成分,并使入侵检测系统具有自适应和自我学习的能力。
本文主要探讨数据挖掘的聚类分析及相关技术在入侵检测中的应用。传统的异常检测方法需要从大量纯净的正常数据集中获得检测模型,而在现实网络环境中,很难保证在数据采集阶段没有入侵的发生,也很难对采集的数据进行标识,这就使其应用受到很大的限制。本文尝试在未标记的、正常数据中混杂了少量入侵数据的网络审计数据源上,采用聚类分析及相关技术,尽可能准确的将训练数据集中少量的入侵数据从大量正常数据中分离开来,并自动建立一个反映系统行为模式的检测模型,并给出使用该模型进行入侵检测的方法。该检测模型所用训练数据集易于从实际运行环境中获得,因而有更大的实用价值。
本文的研究工作主要包括以下内容:(1)对构建检测模型的数据准备方法,即网络审计数据的收集与预处理方法,进行了研究。介绍了使用网络嗅探器收集网络上传输的数据的原理与方法,以及从嗅探器原始输出中组合成TCP连接纪录并构造记录特征属性的方法。
(2)提出了一种基于聚类分析和孤立点挖掘的无指导异常检测模型的构造方法。该方法首先使用一种快速、简洁的、可以粗略检测孤立点的聚类分析算法划分训练数据集,并标记各个聚类(“正常”,或为“可疑”,“异常”);之后提出了新颖的孤立点定义及相应的基于聚类剪枝的快速孤立点挖掘算法,从标记为“可疑”的类中进一步标记出入侵记录和正常记录,并以记录标记为指导,将“可疑类”的记录重新聚类,从而优化聚类结果;最后,提取各聚类的类特征,形成检测模型。
(3)给出了利用上述检测模型检测入侵的方法,并使用KDD99数据集对检测模型进行了性能测试,并对算法改进措施的效果进行了对比与分析。实验结果表明,本文所采取的改进措施提高了检测模型的性能。