论文部分内容阅读
近些年来随着信息技术的快速发展,大量的信息呈现爆炸式的增长,这导致了许多冗余信息的出现,对做出正确的决策产生了影响,因此,对冗余信息的预处理变得更加迫切。特征选择,又称属性约简,作为数据预处理的核心内容已取得了快速的发展,其主要目的是在原始信息系统中选择出一些最有效特征以减少搜索空间,提高数据处理效率,同时保持原始系统数据分类能力。目前,特征选择已被广泛应用到人工智能、数据挖掘、模式识别等领域。传统的特征选择方法仅从代数观点或信息论观点单方面来研究不确定性。本文针对含有符号型和数值型数据的信息系统,引入Lebesgue测度,提出基于邻域粗糙集的特征选择模型和算法,通过实验分析验证所提方法的有效性。本文的主要研究内容包括3个方面:
(1)针对含有符号型和数值型混合数据的信息系统,为了从代数观点和信息论观点分析邻域粗糙集的不确定性度量,基于Lebesgue测度和熵度量,提出一种邻域粗糙集特征选择方法,该方法能在保持原始信息系统分类能力不变的情况下直接处理混合数据,提高分类性能。首先,将Lebesgue测度引入到邻域粗糙集模型中弥补传统粗糙集模型不能从理论上分析可数无限集的缺陷;其次,在代数观点和信息论观点的理论基础上,分别给出粗糙度和邻域熵的度量,定义邻域粗糙联合熵;然后,基于Lebesgue测度和熵度量设计一种处理混合数据的邻域粗糙集特征选择算法;最后,在5个UCI数据集和4个基因数据集上进行仿真实验,实验结果表明该方法能有效的获得特征子集和较好的分类性能。
(2)针对含有符号型和数值型混合数据的不完备信息系统,基于Lebesgue测度和熵度量提出一种不完备邻域决策系统特征选择方法。首先,构建基于Lebesgue测度的邻域容差关系,研究不完备邻域决策系统中代数观点下的正域和依赖度;其次,在信息论观点下,给出基于Lebesgue测度的邻域容差熵定义,在两种观点的理论基础上,定义邻域容差依赖联合熵;然后,基于Lebesgue测度和熵度量设计一种邻域粗糙集特征选择算法,处理混合不完备邻域决策系统;最后,在7个UCI数据集和8个基因数据集上进行数值实验,实验结果表明该方法对于混合不完备邻域决策系统具有较好的分类能力,能选择相关的特征子集。
(3)在特征选择过程中,针对多数基于单一二元关系的粗糙集模型计算复杂度较大的问题,引入多粒度粗糙集模型,在含有符号型和数值型混合数据的不完备信息系统中,基于Lebesgue测度和熵度量提出一种邻域多粒度粗糙集特征选择方法。首先,在不完备邻域决策系统中,给出乐观和悲观邻域多粒度粗糙集模型,并与Lebesgue测度相结合;其次,给出代数观点下乐观和悲观邻域多粒度粗糙集度量,以及信息论观点下邻域多粒度熵度量,定义悲观邻域多粒度依赖联合熵;然后,基于悲观邻域多粒度依赖联合熵设计一种邻域多粒度粗糙集特征选择算法,处理混合不完备邻域决策系统;最后,在7个UCI数据集和8个基因数据集上进行仿真实验,实验结果表明所提方法是有效的。
(1)针对含有符号型和数值型混合数据的信息系统,为了从代数观点和信息论观点分析邻域粗糙集的不确定性度量,基于Lebesgue测度和熵度量,提出一种邻域粗糙集特征选择方法,该方法能在保持原始信息系统分类能力不变的情况下直接处理混合数据,提高分类性能。首先,将Lebesgue测度引入到邻域粗糙集模型中弥补传统粗糙集模型不能从理论上分析可数无限集的缺陷;其次,在代数观点和信息论观点的理论基础上,分别给出粗糙度和邻域熵的度量,定义邻域粗糙联合熵;然后,基于Lebesgue测度和熵度量设计一种处理混合数据的邻域粗糙集特征选择算法;最后,在5个UCI数据集和4个基因数据集上进行仿真实验,实验结果表明该方法能有效的获得特征子集和较好的分类性能。
(2)针对含有符号型和数值型混合数据的不完备信息系统,基于Lebesgue测度和熵度量提出一种不完备邻域决策系统特征选择方法。首先,构建基于Lebesgue测度的邻域容差关系,研究不完备邻域决策系统中代数观点下的正域和依赖度;其次,在信息论观点下,给出基于Lebesgue测度的邻域容差熵定义,在两种观点的理论基础上,定义邻域容差依赖联合熵;然后,基于Lebesgue测度和熵度量设计一种邻域粗糙集特征选择算法,处理混合不完备邻域决策系统;最后,在7个UCI数据集和8个基因数据集上进行数值实验,实验结果表明该方法对于混合不完备邻域决策系统具有较好的分类能力,能选择相关的特征子集。
(3)在特征选择过程中,针对多数基于单一二元关系的粗糙集模型计算复杂度较大的问题,引入多粒度粗糙集模型,在含有符号型和数值型混合数据的不完备信息系统中,基于Lebesgue测度和熵度量提出一种邻域多粒度粗糙集特征选择方法。首先,在不完备邻域决策系统中,给出乐观和悲观邻域多粒度粗糙集模型,并与Lebesgue测度相结合;其次,给出代数观点下乐观和悲观邻域多粒度粗糙集度量,以及信息论观点下邻域多粒度熵度量,定义悲观邻域多粒度依赖联合熵;然后,基于悲观邻域多粒度依赖联合熵设计一种邻域多粒度粗糙集特征选择算法,处理混合不完备邻域决策系统;最后,在7个UCI数据集和8个基因数据集上进行仿真实验,实验结果表明所提方法是有效的。