论文部分内容阅读
随着信息时代的来临,人类在各种领域中面临着越来越多的数据信息。与此同时,这些数据还在以惊人的速度不断增长。因此,为了提高工作效率和生活质量,人们必须获取蕴藏在其中的有价值的信息。为了达到这个目的,人们开始致力于从数据库中发现知识的研究。然而,众所周知,数据库中往往存在冗余数据(Redundant data)、缺失数据(Missing data)、不确定的数据(Incertain data)和不一致的数据(Inconsistent data)等诸多情况,这些数据成了发现知识的一大障碍。因此,在从数据库中发现知识之前必须对数据进行预处理。本论文着重研究数据挖掘中的数据的预处理,尤其是属性约简。粗糙集(Rough sets)理论是由Z.Pawlak教授于20世纪80年代初提出的一种用于处理不确定性和含糊性属性的数学工具。它的基本思想是在保持分类能力不变的前提下,通过属性约简,导出概念的分类规则,它无需提供相关数据集合以外的任何先验信息,适合发现数据库中隐含的、潜在有用的规律,即属性,找出其内部数据的关联关系和特征。近年来,粗糙集理论和应用取得了很大的成就,已成为软计算方法的重要分支,其涉及的领域包括模式识别、机器学习、决策分析和决策支持、属性获取、属性发现等。本文主要研究基于区分矩阵的粗糙集属性约简算法在数据挖掘中的应用。首先,阐述了数据挖掘与粗糙集理论的基本知识,在分析和总结基于粗糙集理论的数据挖掘算法的基础上,针对HORAFA算法进行了详细的分析。HORAFA算法是基于区分矩阵的启发式属性约简算法,为了改善该算法的完备性、提高它的属性约简效率和减少算法运行时间,因此,本文对HORAFA算法进行了改进,提出了基于区分矩阵的HORAFA-AFVDM(HORAFA base on Attribute frequency value of discernibility matrix)算法。该算法以核为基础,加入属性重要性最大的属性,计算属性频率函数,即等于区分矩阵中删除当前属性所在的元素之后,属性出现的频率。具体表示为:f(a)=f(a)+|A|/|c’|,对于每个a∈c,其中|A|是信息系统总的条件属性个数,|c’|为区分函数项中删除加入到核中的属性之后还剩的属性个数。为了能够找到信息系统的最优约简,在此基础上增加一个反向消除过程,从已得到的核中删除可以删除的属性,直到不能再删为止,从而保证算法的完备性。文中通过一个实例完整说明了本方法。其后,对算法进行具体的实现。为了在MATLAB环境下完成实验,对属性进行约简之前,首先要对被约简的数据集进行数据预处理。文中提出了实验中数据预处理的方法。具体过程是:将UCI数据集在SQL SERVER 2000中建立数据库,然后,通过SQL语句将数据值限定在特定的范围之内。最后在MATLAB环境下进行了实验,通过比较改进前后两种算法,表明HORAFA-AFVDM算法在属性约简情况和算法运行时间上都比HORAFA算法有明显的改进。