论文部分内容阅读
聚类是数据挖掘理论中重要的研究内容之一,聚类算法主要分为软聚类和硬聚类两大类算法,模糊C均值聚类是经典的软聚类算法,K均值聚类是经典的硬聚类算法,两大类算法均被广泛应用在模式识别、图像处理、医学研究等领域。本文针对模糊C均值聚类算法和K均值聚类算法存在的抗噪性能差、选取初始聚类中心为噪声数据时容易陷入局部极值等问题,进行了较深入的研究,主要研究成果如下:(1)针对模糊C均值聚类算法抗噪性能差的问题,给出了一种利用模糊熵约束的模糊C均值聚类算法。该算法通过引入模糊熵,对目标函数进行了重新定义,并对新的目标函数进行推导,给出了新的隶属度求解公式,可有效地抑制噪声数据对聚类中心的影响;采用UCI数据集,实验验证了该算法有效地提高了模糊聚类的准确率和抗噪性。(2)针对K均值聚类算法容易选到噪声数据使算法迭代次数增多且容易陷入局部极值等问题,给出了一种基于平均值和H权值的K均值聚类算法。该算法首先根据平均值理论,给出了选取初始聚类中心的新方法,有效地降低了算法迭代次数,避免了算法容易陷入局部极值的缺陷;其次根据数据集中每个样本对聚类的影响程度不同,通过引入H权值,重新定义了欧式距离,更新了K均值聚类算法的迭代公式;最后采用UCI数据集,实验验证了该算法有效地提高了K均值聚类的准确性和抗噪性。(3)在集群环境下,给出了一种基于平均值和H权值的K均值并行化算法。该K均值算法首先将数据集以水平划分方式分配给各个节点,在各个节点上计算数据子集中相同分量之和,并将其和上传服务节点。服务节点利用平均值方法,计算初始聚类中心,并将其下传至各个节点;其次各节点采用H权值的K均值聚类算法迭代公式,对数据子集进行归类划分,将其上传给服务节点进行汇总,给出新的聚类中心,并下传至各节点,如此循环反复直到超过预先设定的最大迭代次数,或目标函数值小于某个阈值为止;最后在hadoop云计算平台下,采用海量天体光谱数据,实验验证了该并行算法具有良好的加速比、可扩展性和可伸缩性。