论文部分内容阅读
数据挖掘技术能够从大量的、无规则的数据集中提取有价值的信息,它是信息技术自然演化的结果,可以解决人们对有用信息搜索的需要。聚类分析是数据挖掘中一个应用广泛的工具,它能在无先验信息的前提下,从潜在的数据集中发现令人感兴趣的知识。其目标是通过聚类将数据集分成若干个类或簇,使得同一簇内的对象相似度尽可能大,而不同簇的对象相似度尽可能小。在实际应用需求的驱动下,研究者们已经提出了多种聚类算法,并在生物医学、客户关系管理、图像处理、模式识别等领域取得了大量的成果。然而,现实世界中的数据大多是由数值属性和分类属性所构成的混合数据,而能够处理这类数据的大多数算法存在性能及聚类质量不高等问题,所以混合属性数据聚类算法的研究成为聚类分析领域的一个热点问题。从提高聚类算法准确率和效率的角度出发,本文对已有的混合属性数据聚类算法进行了研究,主要解决了k-prototypes算法中初始聚类中心点选取以及分类属性相异度计算问题,并在此基础上,提出了基于平均差异度的改进k-prototypes聚类算法。首先,通过利用平均差异度选取初始聚类中心,避免了k-prototypes算法选取初始聚类中心的不确定性。其次,针对k-prototypes算法中的混合属性数据度量公式忽视了数值属性数据的重要性以及不能有效利用聚类集信息,尤其当数据量增多、属性类型复杂时,不能完全体现出数据对象与类之间差异的问题。通过利用信息熵对数值数据进行加权,提高了算法效率,并对分类属性度量公式进行了改进,使得数据对象能够更科学地划分到所属的聚类集中,进而给出了一种混合属性数据度量公式。为验证改进算法的有效性,在真实数据集上进行仿真实验,分别用不同的聚类算法进行比较分析,实验结果表明:改进的算法提高了聚类的准确率和稳定性。最后,将改进后的聚类算法应用到医学数据集的分析中。对皮肤病数据进行了分型识别,以判断患者的疾病类型。并对心脏病患者的诊断数据进行聚类,分析患者的各项指标,对患者是否存在心脏病的风险进行了预测,说明了算法在医学数据分析方面具有良好的应用前景。