论文部分内容阅读
知识是人类从数据中提取凝练的经验总结。随着数据的获取方式越来越多,获取的数据量也越来越大,如何从海量数据中正确地、准确地获取有价值的知识是当前人工智能领域所研究的重要问题之一。粗糙集理论作为一种处理不确定和模糊信息的有效数学工具,已经成功地被应用到数据分析、数据挖掘、知识获取和聚类分析等众多研究领域。在经典的粗糙集模型中,数据是以信息系统的形式存在的。信息系统中的每个对象都有若干个属性值来说明该对象的具体信息。一般情况下,信息系统中每个对象在属性集合上的值都是唯一的、完备的。然而在实际获取数据的过程中,由于获取方式的不同或不当导致数据缺失、数据错误以及数据本身并不完整等,很难直接得到完备的信息系统,因此普通的单值型信息系统不再适合表示这种类型的数据。为了更有效地表示这一类数据,本文采用区间集作为对象的属性值,构造了区间集信息系统。区间集由一对下、上边界集来表示目标边界,下边界集中的元素表示对象在该属性上一定能够取得的值,上边界集中的元素表示对象在该属性上可能取得的值。相对于单值型的表示方式,这种模糊的表示方式能更完整、更有效地保存原有的信息。不确定性是粗糙集理论的重要研究内容之一,分析和讨论信息系统的不确定性有助于挖掘数据的潜在信息和知识。不确定性度量在属性约简和规则提取中有着重要的应用。本文基于粗糙集理论研究了区间集信息系统的不确定性度量理论及方法,归纳起来主要包括以下几个方面:(1)提出了区间集信息表的不确定性度量方法。由于区间集信息表中对象的属性值不再是常见的单值或名词性属性值,经典粗糙集模型中的等价关系或其他相似关系不再适用于区间集信息表中对象之间的不可分辨关系。针对这一问题,本文从对象属性值的下、上边界集中元素的重要程度出发,提出了基于对象属性值平均重要程度的二元相似关系,并基于该相似关系从标准粗糙集方法和信息论方法两方面定义了两种类型的不确定性度量。通过结合信息论和粗糙集理论,最终给出了四种不确定性度量模型,为解决同时度量区间集信息表中由近似集合和粒度划分产生的不确定性问题提供了新思路。此外,本文还提出了一个两阶段转化普通信息表至区间集信息表的算法,为验证不确定性度量提供了数据的保障,也为后续研究区间集信息系统的属性约简和动态更新提供了数据支持。(2)提出了区间集决策表的不确定性度量方法。在区间集决策表中,每个对象都有唯一的决策属性及其决策行为,在决策应用中起着重要的作用。然而目前并没有人研究区间集决策表以及其不确定性度量方法。针对这一问题,本文首先给出了区间集决策表的定义。根据提出的基于对象属性值相互作用程度的二元相似关系,建立了区间集决策表的粗糙集模型。在此基础上,本文结合条件信息熵提出了一种新的不确定性度量,能够同时度量由粒度结构的变化和粗糙分类产生的不确定性。在UCI数据集上的实验结果表明,新的不确定性度量比扩展的近似精度和近似粗糙度能更好地度量区间集决策表的不确定性,为接下来研究区间集决策表的属性约简方法提供了理论的基础。(3)提出了区间集决策表中基于不确定性度量的属性约简算法。由于提出的不确定性度量满足单调性,在约简的过程中不需要对所有的子集进行检查,能够化简属性约简的过程。基于此,本文首先给出了基于不确定性度量的属性约简的定义,并给出了核属性和属性重要度的定义。其次,本文基于删除策略和添加-删除策略设计了两种启发式属性约简算法。最后,在UCI数据集上的实验说明了约简后的数据在KNN分类器和PNN分类器上的分类精度比没有约简的数据的分类精度要高。而且基于对象属性值相互作用程度的二元相似关系定义的约简比基于其他二元相似关系定义的约简在约简后数据的分类正确率上有更好的结果。(4)提出了四种基于区间集信息系统的动态更新算法。本文分析了数据频繁更新时,下、上近似集合的变化规律。考虑到对象和属性在添加或删除时,原有的近似集合只会部分的发生改变,而这部分变化的近似集合远远小于原本的近似集合。因此,本算法只对变化的近似集合进行求解,通过与原本近似集合的合并或求差能够快速地得到更新后信息系统的近似集合。通过理论上时间复杂度的分析和在UCI数据集上的实验说明了本算法比静态的算法时间复杂度更低,效率更高。