论文部分内容阅读
数据挖掘是从大量数据中提取可信的、新颖的、有效的并能被人们理解的模式的处理过程。它汇集了统计学、机器学习、数据库、模式识别、人工智能等学科的内容,是一门新兴的交叉学科。聚类分析是数据挖掘中的一个重要研究领域,是一种数据划分或分组处理的重要手段和方法。它将数据对象分组成为若干个类或簇,使得在同一个簇中的对象比较相似,而不同簇中的对象差别较大。聚类的应用非常广泛,无论在商务领域,还是在生物学、Web文档分类、图像处理等其他领域都得到了有效的应用。
本文对聚类进行了分析研究,介绍了聚类的相关理论知识,讨论了主要的聚类算法及其相关技术。重点分析了应用较为广泛的K-means算法,讨论了它的优缺点。针对K-means算法需要提供簇的个数作为输入参数的不足,提出了一种能估计簇个数的自适应AK-means算法,该算法无需对不同的输入参数重复运行,而是对初始簇进行分裂直到满足一定的终止条件为止。在初始划分时,引入最大最小距离法选取初始聚类中心,以提高聚类质量。在簇的分裂过程中采用两分策略,应用Ward最小方差方法来决定待分裂的簇。最佳的簇个数由一个基于组间方差的分值指标来判定。实验结果表明,AK-means算法不仅能正确估计实际的簇个数,而且运行效率较高。最后,将AK-means算法应用到系统质量属性分析中。对系统质量属性进行了收集并做统一化编码处理。针对系统质量属性是分类型数据,引入近似中位数选取算法,选取实际的数据对象代替均值作为聚类中心。实验结果合理地给出了系统质量属性的划分,有效地将数据挖掘技术应用到软件工程领域中。