论文部分内容阅读
数据挖掘技术是机器学习、数据库和统计理论相结合的产物,是从大量的、不完全的、有噪声的、模糊的、随机的实际数据中,提取隐含的、先前未知的并有潜在价值的信息的非平凡过程。在数据挖掘领域中,聚类分析是一项重要的研究课题。与分类不同,聚类的目标是在没有任何先验知识的前提下,根据数据的相似性将数据聚合成不同的簇,使得相同簇中的元素尽可能相似,不同簇中的元素差别尽可能大,因此又被称为非监督分类。聚类分析作为数据挖掘系统中的一个模块,既可以作为一个单独的工具以发现数据库中数据分布的深层信息,也可以作为其他数据挖掘分析算法的一个预处理步骤,因此研究如何提高聚类算法的性能具有重要的意义。粗糙集理论是一种刻画不确定性和不完整性知识的数学工具,由波兰数学家Pawlak在上世纪八十年代初首先提出的。粗糙集理论善于分析隐藏在数据中的事实而不需要关于数据的任何附加知识。该理论以其独特的优势正赢得越来越多的研究者的关注,并在各个领域获得了广泛的应用。在数据挖掘领域,粗糙集最初主要用于分类,而今有关粗糙集的研究已深入到该领域的各个方面。本文首先介绍了数据挖掘的定义和主要方法,重点对聚类分析技术的各种算法作了详细的介绍和比较,并提出了一种改进的层次聚类算法;本文仔细学习了粗糙集理论,提出了一种基于代数运算的属性约简方法,针对粗糙集理论善于处理不精确和不确定性知识的特点,将粗糙集理论引入聚类分析中,对传统聚类方法作了相应的改进,然后通过实验验证了这种改进有效性;本文最后分析了粒度和聚类的关系,在粒度框架下研究了粗糙集理论在聚类中的应用,并提出了一种基于粒度原理的聚类算法,然后对UCI数据库中两个数据集进行了实验,结果表明与没有引入粒度概念的传统聚类算法相比,该基于粒度原理的聚类算法明显提高了对数据点的分类正确率,验证了在粒度框架下将粗糙集理论用于聚类可以有效的提高聚类质量。