论文部分内容阅读
聚类分析是一种无监督的机器学习技术,是从无标记数据集中获取信息和知识的重要手段,目前已经被广泛应用于客户推荐、模式分割、视频图像处理等领域。作为一种基于划分的聚类算法,由于具有适用范围广泛和算法伸缩性强等优点,K-means算法被广泛应用于聚类分析领域。然而初始类簇中心点的随机选取导致了K-means算法准确性较差和聚类结果不稳定的特点,同一数据集多次聚类划分结果可能存在较大差异。聚类有效性指标是用来评价聚类算法划分结果最常用的方法,聚类有效性指标基于聚类划分结果类簇内紧密性、类簇间分离度等信息对聚类结果质量进行评价。目前已经有众多聚类有效性指标被提出,然而现有的大多数聚类有效性指标都存在聚类结果稳定性差,不能有效反应真实数据集的聚类结果质量等问题。针对以上的问题,本文首先对传统的Kmeans算法进行了改进,然后提出了一种新的聚类有效性指标CSI。本文主要做了以下几个方面的工作:(1)针对传统K-means聚类算法存在的随机选取类簇中心点导致算法结果不稳定和容易陷入局部最优解的问题,提出了一种优化中心点选取的改进K-means聚类算法:DT-Kmeans算法。算法根据数据对象与数据集中其它数据对象第t近邻的欧式距离确定邻域参数Eps,基于邻域参数Eps统计数据对象密度。在初始类簇中心点选取阶段,算法首先随机选取第一个类簇中心点,随后的类簇中心点选取将基于数据对象密度信息和数据对象与已存在类簇中心点的距离信息。(2)提出了新的聚类有效性指标:CSI指标。新提出的CSI指标适用数据集聚类划分结果簇内紧凑度和簇间分离度对聚类质量进行评价,通过对这两个参数进行加权并使用线性组合平衡二者的关系,使得指标能在对数据集聚类质量评估时有着稳定的评估效果。(3)使用了多个的模拟数据集和真实数据集对新提出的DT-kmeans聚类算法和CSI聚类有效性指标进行了实验测试。实验结果表明,DT-kmeans算法与传统K-means算法、K-medoids算法和K-means++算法相比有着更高的聚类质量,同时聚类划分结果的稳定性与其它算法也有了明显提升。CSI指标与其它5种现有的指标(COP指标、CSP指标、DBI指标、DI指标、I指标)相比,能够更准确地对数据集的聚类质量进行评价,同时适用范围也有了提升。