论文部分内容阅读
粗糙集理论常被用来挖掘数据内部信息和数据提炼。属性约简是粗糙集领域的一个核心研究内容,属性约简是将数据中冗余属性排除,压缩数据样本并提升分类性能的过程。约简结果的好坏主要从分类性能和时间消耗两个维度进行衡量。本文首先从分类性能入手提出集成投票属性约简方法,提升约简结果的分类精度、解决实际需求;接着提出属性约简的三支加速方法,进一步降低了约简的时间消耗。为了提高约简结果的分类性能,众多研究者将目光聚集于局部视角。在此基础上发展出了集成属性约简,即将样本依据决策类别划分为多个决策系统分别计算。针对传统求解约简算法将所有样本作为一个整体,忽视了不同样本具有的决策类别不同,导致约简结果无法综合平衡各个决策类需求的这一情况。(1)本文提出了一种基于集成投票的约简求解算法。具体算法由三个步骤组成:1)将决策类相同的样本挑选出来组成多个新决策系统;2)在多个决策系统中分别计算局部属性重要度,找到每个决策系统中重要度最大的属性;3)依据上一步得到的局部重要度最大的属性,利用多数投票机制选择出合适的属性并将其放入潜在的约简集合中,直到其满足约束条件时为止。从计算约简的时间维度来看,传统的基于适应度函数的属性约简方法无论是站在全局视角还是局部视角,约简过程均存在着冗余计算,这会导致约简的时间消耗偏高。针对这一情况,本文将三支决策思想引入到属性约简的计算过程中,通过减少对冗余属性的计算,提高约简的计算效率,达到降低时间消耗的目的。(2)本文提出了一种基于序贯三支决策的属性约简加速方法。具体算法由三个步骤组成:1)计算决策系统中的属性重要度;2)将属性重要度的结果进行三分,重要度最大的属性划入到正域中,重要度为零的属性划入到负域中,其余属性划入到边界域中;3)循环计算边界域中属性的重要度并将结果继续三分,直至正域中的属性集合满足约简终止条件。为了验证所提集成投票方法与序贯三支加速方法的有效性,分别选取了8组UCI数据集,并将所提方法与传统方法在约简结果的分类精度和约简过程的时间消耗进行对比。实验结果表明:采用局部投票法得到的约简,能够有效提升分类器的分类性能;采用三支加速法可以进一步降低求解约简的时间消耗。