论文部分内容阅读
K-means聚类算法是一种主流的迭代下降聚类算法,收敛于局部最优化状态。由于K-means随机选取k个初始聚类中心,使得聚类结果的有效性随初始输入而波动,为此文中采取一种预处理的方式来选取初始聚类中心。首先在某种范数的意义下,确定相隔最远的两个数据点之间的距离,然后采用数据分段的方法,将数据集分成k段,在每段中选取一个中心,以此来减小聚类结果随初始输入的波动。实验显示优化后的K-means有效地消除了初始输入的影响,并显著地减少了算法迭代次数和聚类误差。