论文部分内容阅读
数据挖掘是最近几年来随着数据库和人工智能发展起来的一门新兴的数据库技术。其处理对象是大量的日常业务数据,目的是为了从这些数据中抽取一些有价值的知识或信息。数据挖掘算法对其处理的数据集合一般都有一定的要求,比如数据完整性好、数据的冗余性少、属性之间的相关性小。然而,实际系统中的数据一般都具有不完全性、冗余性和模糊性,很少能直接满足数据挖掘算法的要求。另外,海量的实际数据中无意义的成分很多,严重影响了数据挖掘算法的执行效率,而且由于其中的噪声干扰还会造成无效的归纳。数据预处理已经成为数据挖掘系统实现过程中的关键问题。 数据预处理是数据挖掘的重要一环,而且必不可少。属性选择作为数据预处理的重要步骤,已经成为一个非常热门的话题。尤其是在面对包含数量巨大的记录和大量的与挖掘任务不相关的属性的大数据集时,属性选择就更加重要。 粗糙集理论是一种刻划不完整性和不确定性的数学工具,能有效地分析和处理不精确、不一致、不完整等各种不完备信息,并从中发现隐含的知识,揭示潜在的规律。粗糙集理论的应用和其算法的研究,是近年来知识发现、数据挖掘领域的一个热门话题。粗糙集当中一个核心问题就是约简,所以,有关约简算法的研究也有很多。 本文简要介绍了属性选择问题和粗糙集模型,并研究了基于粗糙集模型的属性选择算法。由于传统的粗糙集模型没有与关系数据库系统结合,该模型许多计算的基本操作都是在平面文件上进行的,没有利用高性能的数据库集合操作。鉴于此,研究人员提出了新的基于数据库系统的粗糙集模型,在关系代数的基础上对核属性和约简进行重新定义,从而利用高效的面向集合的数据库系统操作。 本文对基于数据库系统的粗糙集模型进行了改进,提出了两个新的基于数据库系统操作的定义:属性集合的分类准确度和属性价值;并在此基础上,我们提出了基于数据库系统的属性选择算法和利用遗传算法的属性选择算法;最后对算法的性能进行了测试,得出相应的结论。