论文部分内容阅读
特征选择是统计模式识别中的一个基本步骤和重要任务,并被广泛的应用于图像处理、文本挖掘、计算神经学以及生物信息学等诸多领域。在这些实际应用中,研究对象的观测值(即样本)虽然含有大量的特征,但对于某个特定的识别任务来说,这些特征并非都是相关的有效特征,也同时存在冗余的或是与任务不相关的噪声特征。这些噪声严重影响分类精度。为解决这一问题,特征选择技术应运而生。特征选择旨在从样本的所有特征中将相关的有效特征挑选出来,同时将不相关的特征剔除。另一方面,特征选择也可以避免由于样本的特征数过多导致的维数灾难,降低模式识别的时间开销。样本的特征维数越高,特征选择的重要性也就越发突显出来。为了挑选出相关的、低冗余的更好的特征子集,研究者们提出了不同的优化方案。如最小冗余最大相关性特征选择(mRMR)方法,全局冗余最小化(GRM)方法,不相关LASSO(ULASSO)方法,等等9在前人研究的基础上,本文从一个新的角度提出了优化的特征选择方法,并提出了相应的有效算法。本文的主要研究内容有以下三部分:(1)弹性网络(EN)模型与常用的最小绝对收缩和选择算子(LASSO)相比,在选择相当数量的特征的情况下,EN模型的效果要优于LASSO。特别是在样本所含特征数远远大于样本数时,EN的效果比LASSO更令人满意。出于这种考虑,本文将特征与类别之间的相关性作为约束,以权重的形式融入EN模型中,提出了基于区分性弹性网络的二类别特征选择(TFS_DEN)方法。通过对回归系数加权的方式,在目标函数的优化过程中,使对应于与类别标签具有强相关性的特征的回归系数变大,反之则被压缩。这样一来,回归系数的区分性被放大,挑选出的特征与类别的相关性更强,同时有利于提高分类准确率。在这一部分选取两种相关性度量,并给出相应的4种不同形式的权重。对于TFS_DEN,在这一部分还给出了有效的迭代求解算法以及与算法相对应的收敛性证明。在多个二类数据集上的相关实验结果说明了 TFS_DEN的性能优于一些现有的特征选择方法。美中不足的是,TFS_DEN方法仅能处理只包含两类样本的特征选择问题。(2)本文进一步将TFS_DEN方法扩展到多类别的情况,使其适用于更多的实际应用问题,形成基于区分性扩展弹性网络的多类别特征选择(MFS__DEEN)方法。由于问题被扩展到多类别的情况,TFS_DEN中的权重形式不再适用。因此,针对MFS_DEEN给出了不同于TFS_DEN的4种权重形式,同时提出了不同于TFS_DEN的新的有效迭代求解算法,并给出了相应的收敛性证明。在多个多类别数据集上进行了相关实验,其结果验证了 MFS_DEEN的有效性。(3)作为MFS_DEEN方法的一种横向扩展,本文提出了一种基于自适应扩展弹性网络的多类别特征选择(NMFS_AEEN)方法。MFS_AEEN方法以另一种数据依赖的权重进行加权,并可以直接利用MFS_DEEN方法中的迭代算法求解。在多个二类别及多类别数据集上的实验结果证明了 MFS_AEEN方法也具有良好的特征选择性能。