论文部分内容阅读
聚类是数据挖掘的重要研究内容,其中对大规模、高维数据库的聚类分析是研究的热点和难点问题。由于高维数据的稀疏性、空空间现象及维数灾难的影响,高维数据不可能在全维空间密集,于是传统聚类方法不能获得理想效果。针对高维数据聚类方法存在的问题,本文的主要工作如下:分析了传统聚类算法在处理大规模、高维数据集时遇到的困难和问题。比较了各种降维处理方法的优劣,从原理上论证了子空间聚类算法处理大规模、高维数据集的优势。在此基础上,进一步对已有子空间聚类算法进行分析,基于Aporiori算法思想的子空间聚类算法在应用中存在一些问题:首先在确定簇的相关维时需要多遍扫描数据库,降低了聚类的时间效率;其次,这些算法都只能对单一数据类型进行处理。关联规则挖掘中频繁模式的发现与簇相关维的确定具有很大的相似性。因此本文提出了一种基于模式树的子空间聚类算法PSC,仅需扫描数据库一遍,大大提高了子空间聚类算法的效率。同时通过扩展簇的定义,将对符号型和数值型数据的聚类整合到一个统一的框架中。目前大多数聚类算法都是用对象在属性集上的距离来衡量对象相似度。然而距离函数并不总能有效的发现对象之间的联系。事实上距离很远但属性值具有相似变化模式的对象也可能属于一类。基于模式相似度的聚类算法是子空间聚类算法的一种,它能有效发现这一类的簇。但是已有的方法在高维大规模数据库中效率不高,并且对聚类所得的簇质量没有评价。为此本文提出了一个新的算法,该方法应用新的簇质量评价标准来挖掘最优的簇,从而聚类的结果更加有意义,同时应用基于模式树发现簇的相关维方法也有效地提高了算法效率。