论文部分内容阅读
随着信息时代的来临,人们在日常生活中获取的信息量与日俱增。如何在海量数据中选取对自己有用的信息,成为目前广大用户面临的主要任务。在此情况下,数据挖掘技术应运而生并且在日常生活中发挥着越来越重要的作用。借助数据挖掘技术,人们可以发现大量数据背后的隐藏的、有价值的知识。聚类分析,作为数据挖掘中的一项重要技术,近年来也得到了飞速的发展和广泛的应用。在众多的聚类方法中,基于网格的聚类方法以其计算速度快的优势,成为数据挖掘的研究领域中一个比较活跃的课题。然而,目前存在的各种聚类方法都不能满足用户得到均匀簇这一约束条件。因此,本文提出了一种基于网格的均匀簇的划分算法。本文首先介绍了数据挖掘技术的概念、兴起和在目前信息时代中的重要作用。接着论述了聚类技术的概念、应用、现有的聚类方法的分类、每个聚类任务的详细步骤,并指出了每个步骤中应该注意的问题。其次,本文对目前存在的五种传统的聚类方法,特别是基于网格的聚类方法进行了详细的论述;分别阐述了每种方法的算法思想,算法流程,算法的发展过程和算法的优缺点;并对这五种聚类方法进行了纵向对比,从而为我们在实际应用中选取合适的聚类方法提供了参考。再次,本文在对现有聚类方法研究的基础上,指出了现有的聚类方法都只是把具有“相似性”的数据聚在一个簇内,将整个数据对象划分为若干个簇,每个簇内含有的数据对象的数目各不相同。而在有些情况下,用户的约束条件是要求聚类得到的每个簇内包含的数据对象的数目相等。很明显,目前的聚类方法都不能满足这一约束条件。基于以上问题,本文提出了一种基于网格的均匀簇的划分方法。此方法是先将要进行聚类处理的对象空间划分为若干个网格,再通过对网格的二分和与其邻居网格的合并操作,将数据空间上的点按距离相近的原则划分为若干个簇。这样得到的聚类结果不仅能保证具有相似性的点聚在一个簇内,还能保证每个簇内含有的点数目相等。此算法既有基于网格的聚类方法计算速度快的优点,又克服了传统的聚类方法不能得到均匀簇的不足。本文利用MATLAB软件实现了该算法,并通过仿真实验证明了其有效性。最后,本文对此算法在实际生活中的应用前景进行了展望,并指出了该算法的不足和改进之处。