论文部分内容阅读
随着Internet技术的迅猛发展,网络安全问题也显得日益突出。入侵检测技术作为一种主动的安全保障措施,有效地弥补了传统网络安全防护技术的缺陷,已经成为网络信息安全的一个重要研究领域。由于数据挖掘技术能够从海量数据集中挖掘出人们感兴趣的特定模式,所以人们十分重视将数据挖掘技术应用到入侵检测的研究与开发中。基于聚类的无监督异常检测方法可以在无标记数据集上发现异常数据,克服了传统数据挖掘方法的缺陷,使标记数据集和入侵检测建模过程自动化,逐渐发展成为一类重要的入侵检测技术。本文将信息熵理论应用于入侵检测的聚类问题,给出在混合属性条件下数据之间距离、数据与簇之间距离、簇与簇之间距离的定义;采用划分聚类算法将数据集的数据划分到类中,以整体相似度的聚类质量评价标准作为聚类合并的策略,通过凝聚层次聚类的方法将聚类进行合并;合并后清除噪音簇以提高检测效率,并根据划分出的大小簇的边界来标识正常簇和异常簇,最后给出算法参数选取的方法,进而提出一种基于划分和凝聚层次聚类的无监督异常检测算法。算法分析和实验结果表明,该算法具有较好的检测性能并能有效检测出未知入侵行为。本文引入克隆选择算法对划分聚类进行优化,提出了一种应用于入侵检测的基于克隆选择的聚类方法。该方法通过比较数据到簇心距离和簇半径的大小来划分数据,得到初始聚类,并给出簇半径阈值的计算方法;针对入侵检测所处理的数据具有混合属性的特点,改进数据差异度度量,定义适合混合数据聚类的目标函数,实现具有混合属性的入侵检测数据的聚类分析;通过引入克隆选择算法优化聚类,得到更好的聚类结果,解决了聚类算法在入侵检测应用中所遇到的混合属性差异度计算和最终聚类数目未知以及易陷入局部极值的问题;并在基于克隆选择的聚类基础上进行增量式聚类,提出了一个可增量更新的聚类模型。算法分析与实验结果表明所提出的方法具有较好的检测性能,可以获得较高的检测率和较低的误报率。