论文部分内容阅读
作为社会信息化、数据爆炸式增长的一种产物,数据挖掘具有发现数据中隐含信息的功能,能有效的从混乱无章的数据中提炼有用知识。聚类分析是一种无监督的学习方式,能有效发现数据自身的固有属性,也是数据挖掘的重要组成部分。随着聚类分析算法大量深入的研究,其理论价值和实际应用价值日益凸显,受到科研工作者和技术从业者的广泛关注。聚类分析算法主要包含以下几种:基于划分的聚类、层次聚类、基于密度的聚类、基于模型的聚类等。每一种聚类算法都有其特定的适用领域,没有一种聚类算法能够适应多种数据类型以及应用领域。针对这一现状,本文提出了一种相对能适合多种数据类型及应用领域的实用分级聚类算法,通过理论分析和实例应用验证了算法的有效性。本文所做工作如下:1.研究聚类分析的典型算法,分析了典型聚类算法所存在的优缺点,重点分析了K-means算法以及DBSCAN(Density-Based Spatial Clustering of Applications with Noise)算法的聚类原理以及优缺点。最后,从多种角度分析了聚类算法的要求以及算法是否有效的评价指标。2.针对K-means算法以及DBSCAN算法的缺陷,提出了一种实用分级聚类算法。算法引入数据竞争以及联系性权重,将聚类过程分为小簇划分和小簇合并两级。竞争思想和联系性权重的引入保证了小簇合并的合理性。3.针对五种不同类型的二维人工数据集,利用Matlab实验平台从聚类准确度、聚类时间、能否处理凸状和非凸状等复杂数据类型等角度以及评价聚类有效性的外部准则验证了所提实用分级聚类算法的有效性和实用性。最后在高维、公开的鸢尾花数据集上验证了算法对于高维数据的聚类准确性。4.将本文提出的实用分级聚类算法同主元分析(PCA)结合,提出PCA-分级聚类算法。将实用分级聚类算法以及PCA-分级聚类算法运用到冠心病病理数据以及肝炎病理数据中,验证了本文提出的实用分级聚类算法和PCA-分级聚类的有效性,同时实用分级聚类算法和PCA-分级聚类能够发现病理数据中隐含的小簇类型,具有知识发现的功能。