论文部分内容阅读
随着信息技术在各个领域的普及,各种应用每天产生的数据量呈指数增长。如何有效处理这些数据,从中提取有用的知识,是迫切需要解决的问题。数据挖掘是近些年来发展起来的新技术,通过数据挖掘,人们可以发现数据背后隐藏的有价值的、潜在的知识,为科学地进行各种商业决策提供强有力的支持。聚类分析是数据挖掘中的一项主要技术,它将物理对象或抽象对象的集合分组成为由类似对象组成的多个簇。而基于网格的聚类算法研究已经成为聚类分析研究领域中非常活跃的一个研究课题。
本文首先介绍了数据挖掘研究的相关背景及理论知识,对数据挖掘中的聚类分析的相关工作做了一个简要的概述。在研究传统聚类算法的基础上,针对基于网格方法的聚类算法进行专门研究,比较分析了传统的和改进的基于网格方法的聚类算法,并分析了参数对网格聚类的影响以及网格聚类的优缺点。
对处理大型空间数据集的聚类算法SGRIDS进行研究分析改进,算法中采用一种新的基于网格的数据压缩方法,这个压缩方法只有在能确认一组数据都属于同一个簇时,才对这组数据进行压缩。算法通过对数据集的一次扫描,以较高精度快速找到大型空间数据集中的簇。考虑该方法中输入参数对聚类算法质量有较大影响,对密度阈值的确定进行了改进,从而减小输入参数的影响。改进后的算法能发现任意形状的簇,并且不受输入顺序的影响。实验表明,该方法能够获得较好的聚类效果。
已有的基于网格方法的聚类算法基本使用数据点计数方式计算网格单元的密度,这种方法会造成数据点对其周围空间影响信息的部分丢失,容易导致同属一类的相邻数据点被分配到不同的数据类中。针对这个问题,基于网格和密度的微粒群混合聚类方法CGDP算法中提出“贡献度”概念。“贡献度”是指在网格划分的空间中,数据点对相邻网格单元(即数据点的周围空间)的影响程度。然后将“贡献度”作为网格单元密度,使用密度阈值函数来定义网格的密度阈值进行聚类。实验分析表明,改进后的方法能够有效减少数据点对周围空间影响信息的丢失,改进后的算法能以较高精度去除数据集中的噪声。
本文首先介绍了数据挖掘研究的相关背景及理论知识,对数据挖掘中的聚类分析的相关工作做了一个简要的概述。在研究传统聚类算法的基础上,针对基于网格方法的聚类算法进行专门研究,比较分析了传统的和改进的基于网格方法的聚类算法,并分析了参数对网格聚类的影响以及网格聚类的优缺点。
对处理大型空间数据集的聚类算法SGRIDS进行研究分析改进,算法中采用一种新的基于网格的数据压缩方法,这个压缩方法只有在能确认一组数据都属于同一个簇时,才对这组数据进行压缩。算法通过对数据集的一次扫描,以较高精度快速找到大型空间数据集中的簇。考虑该方法中输入参数对聚类算法质量有较大影响,对密度阈值的确定进行了改进,从而减小输入参数的影响。改进后的算法能发现任意形状的簇,并且不受输入顺序的影响。实验表明,该方法能够获得较好的聚类效果。
已有的基于网格方法的聚类算法基本使用数据点计数方式计算网格单元的密度,这种方法会造成数据点对其周围空间影响信息的部分丢失,容易导致同属一类的相邻数据点被分配到不同的数据类中。针对这个问题,基于网格和密度的微粒群混合聚类方法CGDP算法中提出“贡献度”概念。“贡献度”是指在网格划分的空间中,数据点对相邻网格单元(即数据点的周围空间)的影响程度。然后将“贡献度”作为网格单元密度,使用密度阈值函数来定义网格的密度阈值进行聚类。实验分析表明,改进后的方法能够有效减少数据点对周围空间影响信息的丢失,改进后的算法能以较高精度去除数据集中的噪声。