论文部分内容阅读
聚类分析是数据挖掘领域的一个热点课题,目前国内外学者已提出许多算法,这些算法依据其自身不同的特性可适用于不同的应用环境。其中传统基于密度的聚类算法以其良好的可伸缩性、抗噪能力和发现任意形状簇的能力得到广泛应用,然而由于其采用全局参数,即绝对密度作为簇的度量标准,故传统密度聚类算法有一重要缺点:不能发现不同密度等级的聚类。以相对密度作为簇的度量标准能很好的解决该问题,因此产生了基于相对密度的聚类算法。同时,在实际应用中,待聚类的数据通常是动态变化的,当数据发生变化时,原挖掘出的聚类模式也应进行更新。因此,如何设计增量聚类算法以避免计算资源的浪费和提高聚类效率,已成为当前聚类分析的一个重要挑战。本文首先介绍聚类的相关知识,对数据挖掘中常用到的基本概念如聚类、相似性度量、密度等进行了简单介绍;对传统聚类算法进行回顾,并给出了分类和性能比较。其次,在分析传统密度聚类算法的不足的基础上,提出了基于相对密度的混合属性数据集聚类算法M_RDBCA(Relative Density-Based Clustering Algorithm for Mixture Data Sets),该算法克服了传统密度算法的不足,保持了基于密度聚类算法可以发现任意形状的聚类和对噪声不敏感的优点;由于算法定义了混合属性距离用于度量混合属性对象之间的相似度,并引入了纯邻居的概念,因此该算法在聚类时既考虑了数值属性也考虑了分类属性;算法以相对密度作为聚类标准,能区分不同密度等级的簇,同时提出纯核心对象集的概念,使簇中对象能更好的融为一体;另外,算法为参数的设置提供了理论依据,避免了诸如DBSCAN算法的聚类结果对于参数过于敏感的问题。最后,对M_RDBCA的增量聚类方法进行了深入细致的研究。首先,介绍了增量聚类算法的数据模型和基本思路;其次,研究了M_RDBCA算法三种不同操作方式下的增量聚类算法:①影响集重新聚类——确定受增删操作影响的对象集合,增量聚类仅对该影响集进行处理;②单个增删更新方式——依据插入或删除对象对聚类的影响,对簇执行合并、分裂或吸收等操作,并通过实验分析,绘制了性能加速图;③批量更新方式——简单说明了批量更新的思想和方法,即分析更新对象对聚类的影响时,不仅考虑更新对象和数据库中已有对象,还应考虑更新数据库中的插入和删除的对象。