论文部分内容阅读
粗糙集理论诞生于二十世纪八十年代,是一种重要的新型数据处理工具,尤其在不确定性和不完备性数据处理方面表现出了显著的性能。粗糙集理论以等价关系为核心,通过数据的粒化来粗糙逼近研究目标,从而对模糊不确定性的知识达到了清晰的认识,其中信息系统的特征选择是粗糙集理论的重要应用。邻域粗糙集和模糊粗糙集是整个粗糙集理论体系中两个重要的分支,同时这两种模型也是处理数值型数据的强有力工具,数值型数据是一种常见的数据类型,因此基于这两种模型的特征选择具有重要的研究意义。在邻域粗糙集模型中,基于完备型数据的特征选择研究未考虑数据的聚集分布,从而对特征选择的结果带来一定的误差;基于不完备型数据的特征选择大多是基于容差关系构建,在描述的数据相似性方面存在一定的缺陷。在模糊粗糙集模型中,基于完备型数据的特征选择未考虑数据的类与类之间的间隔问题,因此不能够选择出很好的特征结果;基于不完备型数据的特征选择目前相关研究较少,因此模糊粗糙集对不完备型数据的研究是一块空缺。针对以上存在的问题,本文将依次对其进行改进,并提出对应的特征选择算法,本文的主要工作内容如下:(1)针对邻域粗糙集模型关于数值型完备信息系统特征选择存在的缺陷,本文通过方差来评估数据的聚集分布,然后提出一种自适应邻域粒化,将自适应邻域粒化结合模糊熵度量,提出自适应邻域模糊熵,并用于数值型信息系统的属性重要度评估,构造出一种启发式特征选择算法。最后通过仿真实验证明在数值型完备信息系统中,所提出的特征选择算法比邻域粗糙集的其他特征选择算法具有更高的特征选择性能。(2)针对邻域粗糙集模型关于数值型不完备信息系统特征选择存在的缺陷,本文将量化容差关系与邻域关系进行结合,提出邻域量化容差关系,然后在邻域量化容差关系的基础上提出条件熵模型,本文称之为邻域量化容差条件熵,并作为数值型不完备信息系统的属性重要度评估,进一步地构造出一种启发式特征选择算法。最后通过仿真实验证明在数值型不完备信息系统中,所提出的特征选择算法比邻域粗糙集的其他特征选择算法具有更高的特征选择性能。(3)针对模糊粗糙集模型关于数值型完备信息系统特征选择存在的缺陷,本文引入大间隔学习来评估属性下类与类之间的分类间隔,并根据间隔学习得到的属性权重结果来构造模糊粗糙集模型下的模糊粒化,本文称之为大间隔模糊粒化。然后在大间隔模糊粒化的结果上定义依赖度和知识粒度两种度量,并将它们结合起来用于信息系统中属性重要度的评估,从而构造出一种启发式特征选择算法。最后通过仿真实验证明了在数值型完备信息系统中,所提出的特征选择算法比模糊粗糙集的其他特征选择算法具有更高的特征选择性能。(4)模糊粗糙集模型在数值型不完备信息系统中的特征选择研究较少,本文在模糊粗糙集模型中引入容差关系,提出一种基于模糊容差关系的模糊粗糙集模型,然后在该模型下定义模糊信息增益率,并将模糊信息增益率用于信息系统中属性重要度的评估,同时给出了一种启发式特征选择算法。最后通过仿真实验证明了在数值型不完备信息系统中,所提出的特征选择算法比其他相关的特征选择算法具有更高的特征选择性能。因此在本文中将提出4种特征选择算法,分别为基于邻域粗糙集模型的数值型完备信息系统和不完备信息系统的特征选择算法和基于模糊粗糙集模型的数值型完备信息系统和不完备信息系统的特征选择算法,在本文的最后将通过仿真实验来对比所提出的算法之间的性能。