论文部分内容阅读
特征选择作为数据预处理的关键手段,是数据挖掘、模式识别和机器学习等领域的重要研究课题之一。它是指在原始数据中删除大量无关和冗余的特征,找到一组包含原始特征空间的全部或大部分分类信息的特征子集的过程。对于高维数据,借鉴表征整体的思想,将数据集由一个大信息粒细化为多个可有效表征其整体的小信息粒,有助于从多层次、多视觉分析数据。因此,本文利用信息粒化的表征机制,将其运用于特征选择中,并构造了一系列的基于信息粒化的特征选择模型。本文首先介绍特征选择问题的研究现状,重点讨论了邻域粒化,大间隔和局部子空间模型。然后,针对数据中冗余和无关特征的消除问题,以粒化为基础,分别从样本粒化、特征粒化以及样本特征双重粒化三个角度,展开一系列的研究来解决不同的数据分类预测问题,本文主要的研究成果有:(1)从样本粒化角度出发,结合特征本身具有质量这一情况,提出了基于特征质量的特征选择算法。该算法根据信息熵和大间隔分别定义了特征质量和最近邻,并利用该近邻实现了样本的粒化。实验从特征子集的紧凑性,分类精度,以及分类精度随着特征数目的变化情况这三方面对模型进行了验证,结果表明基于特征质量可以选择一组有效的特征子集。(2)从样本粒化角度出发,采用邻域关系,提出了基于最大近邻粗糙逼近的特征选择算法MNNRS。该算法以邻域粗糙集的特征选择算法NRS为框架,利用大间隔定义了最大近邻来粒化样本,并修正了正域的计算方法。MNNRS算法保留了NRS算法的优点,且有效降低了计算复杂性,提高了算法的分类性能。(3)从特征粒化角度出发,针对多标记数据集的高维性和标记与特征之间存在的类属关系,提出了基于局部子空间的多标记特征选择算法。该算法以局部子空间模型为基础,结合信息熵理论,鉴别了多标记中对标记集合相对次要,但却不可遗漏的特征。实验表明该算法能有效降低计算复杂性,提高分类性能,增强选择策略的灵活性。(4)从样本粒化和特征粒化角度出发,针对高维小样本数据存在高维性和易导致过拟合的问题,提出了一种启发式的局部随机特征选择方法。该算法利用局部子空间模型来粒化特征,结合样本的邻域粒化,以提高分类模型的分类精度,降低计算代价,并在一定程度上解决了过拟合问题。