论文部分内容阅读
计算机网络技术的迅猛发展和广泛应用,特别是Internet的快速普及,促进了计算机与互联网技术的不断创新与升级。社会信息化程度的提高使人们的日常生活与网络的关系越来越密切,同时大量的网络系统面临攻击和入侵。入侵检测是继防火墙、数据加密等传统安全保护措施后的更为有效的安全保障技术,它广泛应用于识别和响应恶意使用计算机和网络资源的行为。当前多数入侵检测方法是使用大量的标记数据来训练入侵检测模型的,然而很多情况下并没有已准备好的可供使用的标记数据。如果对收集到的数据进行手工标记,由于数据量十分庞大,将会耗费大量的时间和精力。而基于聚类的入侵检测方法以一组没有标记的数据作为输入,进而发现其中存在的攻击数据,这与传统的检测方法相比,免去了手工标记数据的繁琐性,因此具有一定的应用优势。本文分析了传统聚类方法在入侵检测领域中的优势和不足,以提高对异常攻击的检测有效性为目标,分别从检测率和误报率两个重要指标出发,提出了半径可调的覆盖聚类算法(Radius Adjustable Covering Clustering Algorithm,RACCA),将其应用于入侵检测,并通过大量的仿真实验验证了该检测算法的有效性。本文的主要工作集中体现在四个方面:1.在深入分析入侵检测技术和聚类技术的基础上,探讨了运用聚类算法解决入侵检测问题的方法。由于聚类的方法可以在未标记数据集上找出异常,因此可以采用聚类方法对数据集进行标记,以便于关联规则、序列规则、分类等数据挖掘方法在这些已标记好的训练数据集上进行模式挖掘,进一步更新规则库;也可以直接利用聚类算法在训练数据集上生成检测模型,并进行实时入侵检测。2.在入侵检测中使用了不需要进行初值选择且聚类速度快的覆盖聚类算法(Covering Clustering Algorithm,CCA),同时针对CCA存在误报率高的问题,设计了用于入侵检测的高效聚类方法RACCA。为了降低误报率RACCA对CCA的两个方面做了改进:一是增加两个改变覆盖半径的参数,使覆盖半径变得可调;二是在确定下一步覆盖的中心时,选择离当前所有剩余未聚类样本点重心最近的样本点为下一步覆盖的圆心。3.用KDD Cup 99数据集对RACCA的效率进行了评估,实验结果显示本算法在入侵检测误报率上和CCA相比有很大程度的降低。4.通过实验反复精简特征属性集,构造出一个在检测率和误报率方面部有一定改善的重要属性集,并对利用重要属性集实现的聚类进行实验及结果分析,证实采用RACCA检测入侵能有效提高检测率,同时降低误报率。