论文部分内容阅读
随着网络安全问题日益突出,传统的安全防护措施(如防火墙等)已经无法保护系统的安全。入侵检测技术作为一种新的安全保障技术,相对于传统的安全保护措施,它不是处于被动激发,而是主动的检测,在网络系统受到危害之前拦截入侵,有效的弥补了传统网络安全防护技术的缺陷,己经成为网络信息安全的一个重要研究领域。但是,海量的计算机系统和网络数据给入侵检测带来了极大的困难。数据挖掘技术的出现提供了解决这一问题的有效手段。数据挖掘可以从海量的数据中提取出有用的信息,将数据挖掘技术与入侵检测技术相结合,增加了入侵检测系统对海量数据的处理能力。数据挖掘中的聚类分析方法是一种典型的无监督学习技术,可以在未标记数据集上直接建立入侵检测模型或者发现异常数据,对于提高入侵检测系统的效率有着重大的研究价值。本文以聚类分析技术为基础,以对聚类分析在入侵检测技术中应用的研究为核心。首先,对入侵检测技术和聚类分析技术进行了研究和分析,探讨了目前聚类算法在入侵检测中的应用情况。其次,对经典的聚类算法k-means进行了深入分析,指出了传统k-means算法的不足(需要事先输入最终的聚类个数k),给出了针对这个不足之处的改进方法,目的是在输入条件只有初始数据集的基础上,得到较好的聚类结果。给出了一种新的集群评估指标Dispersion Measure for Clusters Index (DMC)指标。利用集群评估指标Davies-Bouldin Index(DBI)指标和本文给出的DMC指标,对k-means进行改进,得到了两个k-means改进算法:DBIk-means和DMCk-means算法。详细分析了入侵检测的模型结构,针对入侵检测系统的高误报率的不足,给出了一种入侵检测改进模型,在检测模块和报警模块之间加入了一个聚类检测模块,将改进的算法加入到该模块中,以降低入侵检测系统的误报率。最后,采用KDD CUP99数据集作为源数据集,对k-means以及改进后的算法进行了检测实验,实验结果证明对k-means算法的改进是有效的,将其应用到改进的入侵检测模型中,可以降低系统的误报率,符合改进的目的。