论文部分内容阅读
高维不确定性数据的规则提取和高维非平衡数据的分类问题是当代信息技术领域面临的重要挑战。属性约简作为一种常用的降维手段,是基于粗糙集的相关粒计算方法的主要研究内容之一,通过属性约简可以有效去除信息系统中存在的冗余成分,缩减知识空间,从而更好地服务于高维数据的模糊规则提取与非平衡数据分类等数据挖掘工作。本文以粗糙集属性约简为研究基础,研究了在高维模糊系统中获取单约简和应用二进制分辨矩阵动态获取多约简的两类方法,并将他们分别应用于无冗余模糊决策规则提取与脑功能连接多通路的获取上。最后,将这两类约简方法与随机森林相结合,构造集成约简森林,用于解决高维非平衡数据的分类问题。本文主要研究内容如下:(1)提出了一种区间二型模糊粗糙集单约简算法及其模糊规则提取算法。将高斯核函数引用到区间二型模糊粗糙集中构建模糊相似关系,定义了高斯核区间二型模糊粗糙集上、下近似和正区域等关键概念,并设计了相应的单约简算法。之后,证明了三个无冗余规则提取定理,保证了后续提出的模糊规则提取算法所提取决策规则的无冗余性。实验结果表明,算法在约简子集大小和分类正确率上都优于传统算法,并且可以提取无冗余决策规则。(2)提出了一种基于二进制分辨矩阵的动态多约简算法。通过证明约简等价性定理,保证了算法正确性,并通过引入动态更新机制,在属性约简过程中使二进制分辨矩阵的大小动态减小,减少了计算量。同时还将提出的多约简算法应用到脑数据分析上,成功从大脑认知功能核磁共振成像数据中获得了与文字-图像认知相关的三条脑功能连接通路。(3)提出了一种适用于非平衡数据分类的集成约简森林分类方法。将属性约简与随机森林相结合,以约简结果替换全部属性的同时,采用一种择优挑选策略以提高分类正确率和负类负分率。多约简结果的引入,使得集成约简森林可以从不同知识粒度空间的角度对数据进行分类,并结合SMOTE过采样算法,从算法和数据两方面同时提升集成约简森林的非平衡数据分类性能。在最终分类投票阶段,还提出了一种矫正性组合投票机制,以解决数据经SMOTE平衡化后可能造成的正确率降低问题。实验结果表明本文提出的集成约简森林分类方法较传统方法,在分类性能上具有显著提升。