论文部分内容阅读
随着计算机网络的普及,人们的工作和生活更多的与数据信息产生联系,制造和使用的数据量越来越巨大,我们进入了一个大数据时代。人们每天接触大量的数据资源,而所需的信息只是其中极小的一部分,或者是隐藏于其中的潜在信息。如何快速高效的从海量的数据资源中获取所需的那部分信息,如何找出数据之间的联系和规律是我们亟需研究的课题,数据挖掘技术便是在这种需求驱动下出现的多学科交叉的技术。数据挖掘技术的核心功能是从大量的信息资源中发现隐藏的、有效的、有价值的知识,从而更好的理解和应用隐藏在数据中的有效信息,充分发挥数据的价值,为科学决策或政策的制定提供帮助。聚类分析是数据挖掘中常用的技术,在图像分割、电子商务、市场分析、生物学、地理学以及文档分类等众多领域有着广泛的应用。聚类分析的基本原理是:在没有先验知识的情况下,将一个数据集划分成多个簇,使得同一个簇中的数据对象的特征较相似,而不同簇间的数据对象的特征相似性小。聚类分析中有众多的聚类算法,其中基于划分的算法应用最为广泛,因为算法的思想原理简单、算法实现相对容易且对大规模数据集聚类收敛性好等优点而成为应用最为广泛的聚类算法之一,其最具代表性的是k-means聚类算法。然而,传统k-means算法也有多个明显的缺点:如聚类需要凭借经验先指定一个聚类数k值,并且随机选择k个初始聚类中心;聚类结果对初始聚类中心和聚类数k值的依赖性强,对孤立点和噪声点敏感。针对以上缺点,本文提出了一个改进的k-means聚类初始中心点选择算法和一种确定聚类数k值的算法,并用实验验证了改进算法的有效性,两个算法的改进之处在于:(1)针对k-means算法聚类结果受初始聚类中心和异常数据的制约,易出现聚类结果不稳定和收敛于聚类局部最优的问题,提出了一种选取数据集中k个处于密集区域的数据对象作为初始聚类中心的改进算法。该算法提出了一个用于表示数据集中每个数据对象密度的参数m-dist,然后根据该密度参数的值,选取k个相对分散且密度较高的数据对象作为初始聚类中心。该算法可以有效的避免选取到数据集中的孤立点和噪声点作为初始聚类中心,能有效减少聚类的迭代次数,对聚类结果的准确性提高显著。(2)经典k-means算法需要凭经验给定一个聚类数k值,k值的确定具有一定的主观性,容易产生偏差,本文提出了一种确定聚类数的方法,首先根据样本的密度从数据集中选择处于高密度区域的若干数据对象产生一个初始聚类中心点候选集合U,然后根据提出的聚类有效性指标AIBWP的值搜索最佳聚类数,当AIBWP的值达到最大时,聚类有效性指标最优,指标值所对应的聚类数就是最佳聚类数。