论文部分内容阅读
聚类是数据挖掘中一种重要的技术。它从数据库中寻找数据间的相似性,并依此对数据进行分类,使得不同类中的数据尽可能相异,而同一类中的数据尽可能相似,从而优化大规模数据库的查询和发现数据中隐含的有用信息或知识。目前对于数值属性数据的聚类分析已经相当成熟,而对类属性和混合属性数据的聚类分析则并不十分完善。由于在实际应用中,类属性和混合属性数据是大量存在的,因此研究一种好的适用于类属性和混合属性数据的聚类分析算法就成了本文研究的重点。同时,我们发现将模糊理论引入聚类分析后能有效提高聚类的结果,因此对模糊理论的研究并将其和提出的算法结合也是本文研究的另一个重点。 本文首先对数据挖掘中的聚类分析进行了阐述,重点介绍了几种适用于类属性和混合属性数据的聚类算法并提出一种新的聚类方法——类属性分解法(CVAD),然后在研究了模糊理论基础上,将模糊理论和类属性分解法结合起来并提出一种聚类效果更好的聚类方法——模糊类属性分解法(FCVAD),接着对各种聚类分析方法进行了详细的分析评价,并实现了一个聚类分析系统,最后介绍了聚类分析的应用。