论文部分内容阅读
随着信息时代的来临,人类在各种领域中面临着越来越多的数据信息。与此同时,这些数据还在以惊人的速度不断增长。因此,为了提高工作效率和生活质量,人们必须获取蕴藏在其中的有价值的信息。为了达到这个目的,人们开始致力于从数据库中发现知识的研究。然而,众所周知,数据库中往往存在冗余数据(Redundant data)、缺失数据(Missing data)、不确定的数据(Uncertain data)和不一致的数据(Inconsistent data)等诸多情况,这些数据成了发现知识的一大障碍。因此,在从数据库中发现知识之前必须对数据进行预处理。本论文着重研究数据挖掘中的数据的预处理,尤其是数据离散和属性约简。 本论文首先介绍了数据挖掘的历史、现状和可能的发展方向,并回顾了它的主要方法和技术。然后,论文对粗糙集理论和数据预处理从理论和技术上做了一些介绍,并对数据挖掘中的各环节运用粗糙集理论的方法进行了分析;随后论文重点对作者在数据离散和属性约简两个方面做的研究工作进行了阐述。论文先提出了连续性数据离散定义的一般性数学描述,然后在此基础上提出了一个属性类别差异离散(Attribute-Class Difference Discretization,ACDD)算法分割点的计算公式。因为目前的离散算法很少既是监督的又是动态的,所以本文研究并提出了这种既是监督的,又是动态的离散算法。它的优点是既考虑了类标示,又考虑了各个属性间内在的联系。文章中提出的约简算法则是一种改进的基于差别矩阵的算法,它的目的不在于寻找所有的约简,而是找到一个比较好的约简。