论文部分内容阅读
高维数据的处理一直是机器学习领域的热点问题。由于直接对高维数据进行处理会面临“维数灾难”、“算法失效”等问题,因此学者们针对这些问题提出了一系列有效的特征学习方法,但这些方法在复杂、高度非线性及多特征等场景下仍然存在各种问题,如何充分利用原有特征信息,实现高维特征的约简及融合仍然是一个十分具有挑战性的问题。为了降低高维数据的维度并且保留数据的有效特征,本文从特征学习的不同维度出发,开展了单特征多投影组合特征提取、多特征集成嵌入流形学习的特征融合以及组合核函数集成特征融合的研究,主要研究内容分为以下几个方面:1为了充分利用高维数据的全局信息,提出了一种基于有序回归核判别分析方法的多投影向量组合特征提取方法。考虑不同类的分布信息,利用类的序列信息进行有序回归,克服了现有有序回归算法中存在的忽略全局信息和高计算复杂度等缺陷。首先,通过正交空间递归得到投影向量,并在所得投影向量的正交子空间中搜索最优投影向量。其次,采用不同的组合策略将投影向量的决策规则进行组合,从而形成最终的决策方式,这使得该算法能够利用更多的原始信息提取出更有效的特征。通过与其它算法在有序回归实验上的多项指标进行对比,充分验证该算法具有非常好的性能。2针对使用单一特征很难获得令人满意的样本分类这一问题,提出了一种基于多特征集成嵌入流形学习的特征融合方法。将多特征集成到单个嵌入方向中,找到一个维数约简后的低维子空间,消除了冗余和无关信息从而提高特征融合的性能,并从监督学习与半监督学习两方面对算法进行讨论。通过在经典数据集上的全面实验,结果表明提出的方法在分类性能和算法稳定性上均好于其他特征融合方法。3针对传统集成分类器需训练多个分类器,导致计算量增加的问题,提出了一种基于组合核函数集成分类器的特征融合方法。首先,同时利用多个高维特征,用不同的核函数分别提取对应的特征。其次,利用核技巧将多种核函数进行组合,实现多特征空间融合,并只需训练一个分类器,得到最终分类结果,大大减少计算复杂度。本文给出了两种组合核方式:一种是基于简单平均的特征融合方法,一种是基于加权平均的的特征融合方法。实验分析表明,本文提出的组合核的特征融合方法在算法精度和稳定性上超过其他单核分类方法。