论文部分内容阅读
聚类分析一直是数据挖掘技术的重要方法,在无监督学习任务中比重最大,在社会各个领域中应用广泛并取得了良好的社会效益。网络信息科技的进步和发展,丰富了人们获取资源的渠道,人们可以从网络上获取海量的信息资源,与此同时,网络访问行为产生了海量的网络流量数据。而网络异常、恶意操作和黑客入侵的行为致使网络流量中存在着大量的异常数据。因此,从海量网络流量数据中检测出异常数据成为了一个重要的课题。研究此课题时,有两个与聚类相关的任务:一是在数据预处理阶段建立聚类模型,用于数据归约和探索数据内在的分布结构;二是建立无监督的异常检测模型。密度峰值聚类算法是一个典型的基于密度的聚类算法,是2014年Science上提出的。由于其可以快速搜索发现聚类中心,算法简单且具有较高的准确性,引起了众多学者的关注。本文采用密度峰值聚类算法的思想建立聚类模型,来对大规模数据下的网络流量数据进行分析处理。针对密度峰值聚类算法快速搜索发现聚类中心并进行有效聚类的特点,本文提出了结合基于网格的聚类算法与密度峰值聚类算法的聚类模型,用于数据预处理。该模型以多粒度网格划分的角度出发,从粗粒度网格和细粒度网格两个方面,做了如下工作:1.粗粒度网格,提出了基于粗粒度网格的密度峰值聚类算法。首先在粗粒度下进行网格划分,然后对每个网格单元的数据独立进行密度峰值聚类,最后通过网格边界合并网格空间中的聚类结果,进而得到最终聚类结果。实验结果表明,粗粒度网格的算法模型能够有效处理大规模数据,且具有较高的运算速率。2.细粒度网格,由于粗粒度网格的算法丢失了部分全局的数据分布信息,从而影响聚类结果的精度,因此本文提出了基于细粒度网格的密度峰值聚类算法。首先在细粒度下均匀划分网格,然后根据密度峰值的思想计算中心单元,最后合并与中心单元相近的网格单元,得出聚类结果。实验结果表明,细粒度网格的算法模型能快速寻找到全局的聚类中心,进而拟补基于粗粒度网格的算法模型的缺陷。最后将本文算法应用到“基于大数据的WEB攻击检测系统”中,并在系统中稳定运行且效果良好,说明本文算法具有实用性。