论文部分内容阅读
随着信息技术的飞速发展和广泛应用,社会进入了一个信息化的时代。数十年来,信息产生、组织和流通方式正发生着革命性的变化,各行各业每天都会积累大量的数据。然而,数据规模爆炸性增长的同时,数据产生的附加价值似乎没有与之同步增长。如何从数据中提取出有价值的信息成了最迫切的问题。在这种环境下,数据挖掘开始受到了学者们的广泛关注,而数据聚类正是数据挖掘领域的热门课题之一,在现实世界中有着广泛应用。传统的聚类算法主要是针对单一属性的数据而设计的。然而,大量的研究表明目前的数据大多都不是单一属性的,而是混合属性的数据。这就导致传统的聚类算法无法处理这类混合属性的数据集。因此,如何提出一种适合混合属性数据集的聚类算法成了目前聚类分析领域的一个热点问题。本文对混合属性聚类这一热点进行了深入的研究,主要工作和成果体现在以下几个方面:1.对数据挖掘的研究背景及现状、热点趋势、数据挖掘的任务和数据挖掘语言做了简要地介绍,并且对聚类算法进行了概述,重点介绍了混合属性数据、聚类算法中的相似性度量方式、一些具有代表性的聚类算法以及混合属性聚类的研究现状。2.改进了混合属性数据集的相异度计算方式,并引入了图论中的连通性的概念,提出了一种基于维度频率相异度和强连通融合的聚类算法:CADFSC。算法中,利用KPrototypes对初始中心点的敏感性,多次运行得到多个不同的预聚类结果,通过强连通融合的策略对预聚类结果进行合并剪枝,从而得到最终的聚类结果。通过仿真实验表明,相较于K-Prototypes等算法,CADFSC算法在聚类精度和聚类纯度方面都有所提高。同时,就算法中的参数对聚类结果的影响作出了讨论,并给出了参数设置的建议。3.针对近邻传播聚类算法不能处理混合属性数据集的问题,提出了一种新的距离公式,并应用到近邻传播聚类算法中。与传统聚类算法不同的是,该算法不需要计算虚拟的中心点,同时考虑了数据集整体分布对于聚类结果的影响。通过仿真实验表明,算法具有较好的聚类效果。