论文部分内容阅读
数据挖掘是当前在大数据分析中被广泛应用的一门技术;其中,聚类算法主要是通过无监督的方式对数据进行聚类,它包含了对各种数据类型进行聚类的多种算法,因而得到许多的计算机人员与统计人员的重视。虽然其中的各种算法的已经被广泛应用。但是没有一种算法能够对所有的数据类型是通用的,同时针对这种无监督类型进行聚类的效果,聚类的质量指标评价是非常重要的。但是,如果要通过聚类评价指标来判断聚类效果的好坏,以及实现最佳的聚类通常在计算的方面与评价方面还比较困难。论文在基于PolyAnalyst软件下,根据聚类的K-means算法针对不同类型的数据集进行了可视化的聚类,就K-means实验后的结论进行了深入的分析研究,并且辅以大量的可视化散点图和实例数据集实验结果图。根据清晰的实例图与鲜明的结果,本课题提出了一种新型的组合指标评价方法,来验证聚类的质量效果。该算法引进了三个概念:第一,组合概念,该指标不同于传统的指标评价,它运用了传统指标与新改进的指标相结合来评价聚类的质量效果;第二,图形颜色所占百分比概念,根据聚类间类与类所符合阈值的颜色百分比来进行评价;第三,离散度概念,它针对于整体和局部的计算进行评价。实验的验证证明了该指标的有效性和精密性。最后,文章在基于K-means算法的结果与所需求的结果散点图进行比较,运用了四种不同类型的数据簇集进行了详尽的描述和验证。在不同类型的数据集上的实验结果表明,课题提出的组合评价质量聚类算法是有效的与可用的。组合指标加强了聚类算法结果的解释性与算法的适用性。实验表明,本论文的K-means法和组合模式评估方法对处理实数据集的聚类是有效的,可用性较高,聚类结果的可解释性良好。