论文部分内容阅读
特征选择是根据样本的分布特性,基于某种评价标准,从初始特征集空间中选取一个相关特征子集的过程。它能有效地剔除不相关或冗余特征,提高学习算法的分类性能和运行效率。然而,许多实际分类问题中的特征集往往包含大量的不相关或冗余特征,这些不相关或冗余特征不但会降低分类速度、扰乱学习过程,而且还会降低分类的性能。相对传统的特征选择方法具有的嵌套效应、关键参数难以设定、容易陷入局部最优等缺点,进化计算以其潜在的局部/全局搜索能力,在特征选择中得到了广泛而成功的应用。随着采样技术的发展,特征的维度急剧升高,且不同维度特征之间存在复杂的交互作用,这对基于进化计算的特征选择方法提出了新的挑战。
本文的总体目标是研究和改善基于进化计算的特征选择算法能力,以选择较小的特征子集,同时提高分类性能。为了精确、稳定地提取与分类目标高度相关的特征子集,需要深入地研究和设计新的特征选择方法。本文旨在基于进化计算,从特征选择目标个数(单目标/多目标),搜索机制,集成等方面对特征选择算法进行了研究,主要工作概括如下:
1.针对高维度大规模数据中存在大量的不相关、冗余特征及计算量巨大等问题,设计了一种基于协同进化两段式分解的特征选择(CCFS/TD)算法。该算法综合采用两段式分解策略和协同进化技术以降低数据维度,同时使用差分进化算法搜索特征子集。为了解决单独的进化算法或协同进化在处理高维问题时,保留下来的特征数目较多的问题,设计了一种新的分解策略。该策略将传统的进化过程逐级分解为多个依次相连的进化过程,并通过在特征维度上随机打乱顺序使得特征在每个子进化过程中都能组成不同的组合,从而使特征之间可以信息交互。实验表明,针对不同类型的高维数据,CCFS/TD算法能够有效地降低特征维度且选择最优特征子集,获得了较好的分类性能。
2.针对特征选择问题中存在多个最优或次优特征子集的情况,提出一种适应度欧式距离比的差分进化集成特征选择(EFS_FERDE)算法。为了尽量避免单一特征子集所构建的分类模型容易产生过拟合,研究采用FERDE多模态优化算法作为特征子集的搜索方法,以获得多个差异度较大且分类精度高的最优或次优特征子集;然后对每个特征子集训练构建个体分类器并进行集成,最后通过投票法得到强分类器。实验结果显示,EFS_FERDE算法具有较好的稳定性和泛化性能。
3.针对特征选择中的多模态和多目标特性,设计了一种多模态多目标的集成特征选择(EFS_FERDE_MO)算法。在特征选择中,决策者希望使用最少的特征获得满意的分类精度,因此可以将特征选择问题看作具有两个待优化目标的多目标优化问题,找到两个目标之间最优折衷解集。但在这个最优折衷解集中可能存在不同的特征组合,它们具有相同的特征个数,且使用这些特征组合可以达到相同的分类精度。本文通过将非支配解引入FERDE多模态优化算法中,并将其作为特征子集搜索方法,以找到多个帕累托最优解集。
本文的总体目标是研究和改善基于进化计算的特征选择算法能力,以选择较小的特征子集,同时提高分类性能。为了精确、稳定地提取与分类目标高度相关的特征子集,需要深入地研究和设计新的特征选择方法。本文旨在基于进化计算,从特征选择目标个数(单目标/多目标),搜索机制,集成等方面对特征选择算法进行了研究,主要工作概括如下:
1.针对高维度大规模数据中存在大量的不相关、冗余特征及计算量巨大等问题,设计了一种基于协同进化两段式分解的特征选择(CCFS/TD)算法。该算法综合采用两段式分解策略和协同进化技术以降低数据维度,同时使用差分进化算法搜索特征子集。为了解决单独的进化算法或协同进化在处理高维问题时,保留下来的特征数目较多的问题,设计了一种新的分解策略。该策略将传统的进化过程逐级分解为多个依次相连的进化过程,并通过在特征维度上随机打乱顺序使得特征在每个子进化过程中都能组成不同的组合,从而使特征之间可以信息交互。实验表明,针对不同类型的高维数据,CCFS/TD算法能够有效地降低特征维度且选择最优特征子集,获得了较好的分类性能。
2.针对特征选择问题中存在多个最优或次优特征子集的情况,提出一种适应度欧式距离比的差分进化集成特征选择(EFS_FERDE)算法。为了尽量避免单一特征子集所构建的分类模型容易产生过拟合,研究采用FERDE多模态优化算法作为特征子集的搜索方法,以获得多个差异度较大且分类精度高的最优或次优特征子集;然后对每个特征子集训练构建个体分类器并进行集成,最后通过投票法得到强分类器。实验结果显示,EFS_FERDE算法具有较好的稳定性和泛化性能。
3.针对特征选择中的多模态和多目标特性,设计了一种多模态多目标的集成特征选择(EFS_FERDE_MO)算法。在特征选择中,决策者希望使用最少的特征获得满意的分类精度,因此可以将特征选择问题看作具有两个待优化目标的多目标优化问题,找到两个目标之间最优折衷解集。但在这个最优折衷解集中可能存在不同的特征组合,它们具有相同的特征个数,且使用这些特征组合可以达到相同的分类精度。本文通过将非支配解引入FERDE多模态优化算法中,并将其作为特征子集搜索方法,以找到多个帕累托最优解集。