论文部分内容阅读
摘 要:在聚类分析中,距离及差异性(或相似性)度量方法是最基础的概念,度量方法的选择直接影响聚类结果的质量。本文在已有聚类算法的基础上,将混合数据的相异度矩阵与K-means算法相结合,提出了一种切实有效,具有较强通用性、稳定性的方法,对于入侵检测具有重大的现实意义。
关键词:聚类算法;入侵检测;相异度;遗传算法
中图分类号:TP393.08
1 混合数据的相异度的基本原理
1.1 KDDcup99数据集。该数据集首先在与KDD99同时举办的第三届国际知识发现和数据挖掘工具竞赛上使用,它包含了在军事网络环境中仿真的各种入侵数据。大多数的算法试验采用这一数据集,但往往都只对原始数据集进行简单的处理,以满足实验算法的需要,并没有考虑到原始数据集的特点,甚至破坏了原始数据集的特性。因此得出的实验结果并不能真正的反映问题,而且现实应用具有一定的局限性。
1.2 特征提取与主成分分析。对于实验所用的KDD99数据集,维数较高,数据量很大,聚类时需要耗费大量的时间,使得聚类变的难以实现。因此我们需要对其进行特征提取,使原有庞大的数据集改变的简单短小,并且可以保留原有数据的完整性,在这样抽样的数据上进行数据处理,效率变的更高。
1.3 K-Means算法原理。原始k-means算法的处理的过程为:要随机地选择若干k个对象,其中每个对象原始地代表了一个簇的平均值或中心。对其他剩余的每个对象,根据其与各个簇中心的距离,将它赋给最近簇。然后重新进行计算每个簇的平均值。此过程不断重复,一直到准则函数收敛。
2 基于相异度矩阵的K-means算法
参考文献:
[3]Eskin E,Arnold A,Prerau M et al.A geometric framework for unsupervised anomaly detection: Detecting intrusions in unlabeled data.In Data Mining for Security Applications,2002.
[4]Jiawei Han,Micheline Kamber.數据挖掘概念与技术(原书第二版)[M].范明,孟小峰.北京:机械工业出版社,2007,3.
作者简介:翟玲(1975.9-),女,1997年毕业于西安科技大学计算机及应用专业本科,项目管理专业研究生,助理工程师,从事数字图书馆、手机图书馆研究,现工作单位:西安科技大学图书馆。
关键词:聚类算法;入侵检测;相异度;遗传算法
中图分类号:TP393.08
1 混合数据的相异度的基本原理
1.1 KDDcup99数据集。该数据集首先在与KDD99同时举办的第三届国际知识发现和数据挖掘工具竞赛上使用,它包含了在军事网络环境中仿真的各种入侵数据。大多数的算法试验采用这一数据集,但往往都只对原始数据集进行简单的处理,以满足实验算法的需要,并没有考虑到原始数据集的特点,甚至破坏了原始数据集的特性。因此得出的实验结果并不能真正的反映问题,而且现实应用具有一定的局限性。
1.2 特征提取与主成分分析。对于实验所用的KDD99数据集,维数较高,数据量很大,聚类时需要耗费大量的时间,使得聚类变的难以实现。因此我们需要对其进行特征提取,使原有庞大的数据集改变的简单短小,并且可以保留原有数据的完整性,在这样抽样的数据上进行数据处理,效率变的更高。
1.3 K-Means算法原理。原始k-means算法的处理的过程为:要随机地选择若干k个对象,其中每个对象原始地代表了一个簇的平均值或中心。对其他剩余的每个对象,根据其与各个簇中心的距离,将它赋给最近簇。然后重新进行计算每个簇的平均值。此过程不断重复,一直到准则函数收敛。
2 基于相异度矩阵的K-means算法
参考文献:
[3]Eskin E,Arnold A,Prerau M et al.A geometric framework for unsupervised anomaly detection: Detecting intrusions in unlabeled data.In Data Mining for Security Applications,2002.
[4]Jiawei Han,Micheline Kamber.數据挖掘概念与技术(原书第二版)[M].范明,孟小峰.北京:机械工业出版社,2007,3.
作者简介:翟玲(1975.9-),女,1997年毕业于西安科技大学计算机及应用专业本科,项目管理专业研究生,助理工程师,从事数字图书馆、手机图书馆研究,现工作单位:西安科技大学图书馆。