论文部分内容阅读
聚类分析是数据挖掘与模式识别等领域的一个重要的研究课题。随着IT技术的迅猛发展,人们应用的数据库的规模和应用的范围不断地扩大,数据采集技术不断更新,人们快速产生和收集数据的能力不断增强,大规模数据集受到了整个社会的广泛关注。大规模数据集的出现给数据聚类分析的许多算法带来了极大的挑战,许多算法变得不能很好地、甚至不能对大规模的数据集进行有效地聚类分析。如何使这些算法能够有效地处理大规模数据集已经成为数据挖掘领域的一大研究热点。本文在对现有数据聚类算法的相关研究进行总结的基础之上,以一些真实和人造的大规模数据集为应用背景,深入研究了大规模数据集数据聚类分析算法中的如下几个关键问题。(1)针对大规模数据集k-means算法因为容易收敛于局部最优解而产生的聚类结果的质量不高、对初始聚类中心点敏感的问题,提出了基于最大三角形法则的k-means聚类算法和基于最大三角形法则的半监督k-means聚类算法,通过利用最大三角形法则选取初始聚类中心和借鉴半监督聚类的思想,提高了算法处理大规模数据集的聚类结果的质量和稳定性。(2)针对谱聚类算法在处理大规模数据集时计算复杂度高的问题,提出了一种基于Nystr?m方法的快速谱聚类算法。该算法利用有约束的抽样模型和Nystr?m方法降低了谱聚类算法的计算复杂度,提高了聚类结果的质量。(3)针对最小距离分类法和最近邻分类法在训练样本很少或训练样本偏离类中心较远时,分类效果较差的问题,提出了基于均值更新(MU)的分类模型和基于均值更新的最小距离(MU-MD)分类模型,通过纠正MU分类过程中的错分,提高分类效果。在此分类模型的基础上,针对常用聚类方法在大规模数据处理上的不足,提出了一种划分聚类新方法。该方法采用了大规模数据集的抽样技术,对多次抽取的规模足够大的样本进行聚类以确定自然簇质心的初始位置,在此基础上采用抽样后剩余数据样本对质心的初始位置进行更新,以便校正偏离理想位置的初始质心。实验结果表明本文提出的新聚类算法不仅能得到比常用聚类算法更理想的结果,而且运行速度快,适合处理大规模数据的聚类任务。(4)针对常用谱聚类算法在对大规模彩色图像数据进行分割处理时计算复杂度高和分割效果较差的问题,提出了基于mean shift和谱聚类集成算法的彩色图像分割算法。该算法利用了mean shift和谱聚类集成算法的优点,并综合考虑了局部区域像素的亮度和细节信息。在多幅大规模彩色图像数据上的分割实验验证了本文算法的优越性。