论文部分内容阅读
特征选择是模式识别和数据挖掘领域中的关键环节之一,按照和后续分类算法结合的不同方式,特征选择算法可以分为嵌入式、封装式、过滤式三种模型。过滤式(Filter)算法凭借其算法较强的通用性和较低的复杂度等优势成为研究领域的热门,涌现出了大量的基于过滤式模型的特征选择算法。但是Filter模型的特征选择过程独立于分类过程,导致采用Filter模型特征选择算法所选出的特征与后续分类算法的性能有较大的偏差,会产生一定程度上的错分。许多特征选择算法在进行特征评价时由于缺乏对特征间相关性的考虑而产生了特征冗余,使得算法的效率降低并由于特征冗余影响到分类识别率。这就要求我们提出有效的改进算法进一步的降低Filter算法的错分率和去除特征子集中存在的特征冗余,最终得到无论是基于分类还是特征相关性都有效的特征子集。本文从这两方面着手展开工作,主要包括以下三个方面的内容:1、迹比算法是典型的Filter模型的特征选择算法,该算法采用一种全新的迭代方式直接计算特征子集一级的得分,以此为依据得到最终的特征子集。算法区别于计算特征一级得分的传统算法,在较短的时间内得到较为优秀的特征子集,但是由于Filter模型算法的缺陷,该算法得到的特征子集所指导的分类会产生一定程度上的错分。本文采用一种基于错分区域的特征选择算法对迹比算法进行改进,通过特征空间的映射在当前特征空间的补空间中寻找对正确区分错分样本贡献最大的特征,加入到特征子集中构成最优特征子集。该整合后的新特征选择算法有效的降低了错分率,在基于错分区域的处理中,对于特征的再选择使用前向搜索和+L-R两种方法,并进行实验比较两种改进算法的性能。2、为了有效应对特征冗余问题,本文对特征选择问题中特征间的相关性和特征与类的相关性做了详细的研究,给出了传统的基于特征相关性的特征选择算法的步骤和流程。并采用基于KNN聚类的非搜索特征选择算法对迹比算法进行改进,以特征间相关性度量为出发点,剔除特征子集中的冗余特征,在保证分类算法识别率的前提下有效地降低了数据维度。算法经由ORL人脸数据和UCI数据集的wine、australian验证,证明了改进算法有效的去除了特征冗余,程度略有不同。3、本文对Relief算法进行了研究和改进,从改善错分和剔除冗余两个角度对算法进行改进。Relief算法是典型的Filter算法,其选出的特征子集在指导后续分类算法时会产生错分数据,为了对其算法进行改进,我们使用基于错分区域的+L-R算法对错分区域进行处理;Relief算法在特征的选择过程中强调特征与类的关联,并以此作为特征评价的标准,算法在选择特征的时候缺少对特征之间关联性的考虑,我们结合之前的改进算法提出了一种双重改进ReliefF的优化算法,通过UCI数据集的实验证明新算法的特征子集优于原始单一改进算法的特征子集。