论文部分内容阅读
在机器学习分类算法的研究中,样本是由一系列特征所描述的,而这些特征可以来自一个视角或者是多个视角。根据数据包含视角数量的多少,机器学习算法可以分为单视角学习算法和多视角学习算法。在传统的机器学习应用场景中,数据通常由一个视角进行描述,单视角数据随处可见。随着技术的进步,多元化的数据采集方式以及多样化的特征构造方法使得描述一个问题的角度变得越来越丰富,很多数据集呈现出多视角性。与此同时,随着数据采集设备的迅速发展,在数据时代,我们拥有了越来越多的大规模、高维度的多视角数据。在面对越来越复杂的多视角数据时,许多传统的多视角学习算法因为过高的计算时间复杂度或者无法有效处理高维度数据等原因,往往很难取得满意的学习效果。面对实际应用中,大量存在的单视角数据和越来越复杂的多视角数据,有三种不同的数据处理的方式:单视角学习处理单视角数据、单视角学习处理多视角数据和多视角学习处理多视角数据。基于以上三种不同数据处理方式,本文以视角学习为主线,围绕分类算法,分别从单视角和多视角学习的角度对分类算法展开研究,创造性地提出了一系列单视角和多视角分类学习算法,并探讨了如何有效地处理单视角数据和多视角数据。针对如何使用单视角学习算法更好地处理单视角数据问题,本文提出了两种基于遗传算法的单视角分类学习算法,从优化模型参数和特征选择两个方面着手,提高模型的泛化能力和鲁棒性。在第一种方法中,本文通过使用遗传算法(GA)优化极限学习(ELM)的随机参数,并基于ELM泛化理论提出的了一种排序方法,选择优秀的模型进行集成(GE-ELM,Genetic ensemble of extreme learning machine),从而有效地得解决了 ELM因不良随机参数对模型泛化能力的影响,提高了模型的泛化能力和鲁棒性。在第二种方法中,本文利用GA算法强大的全局搜索能力结合ELM训练速度快的特点,提出了一种包装式特征选择方法(HGEFS,Hybrid genetic algorithm and extreme learning machine for feature selection)。通过提高搜索策略的效率、自动确定最优的模型参数避免不良模型参数带来的偏差和充分利用搜索过程中的对特征的统计信息等手段提高分类的效果。针对如何使用单视角学习算法更好地处理多视角数据以及如何高效地处理大规模多视角数据问题,本文探索了 一种有效融合单视角学习和多视角学习的方法,并提出了 一种基于单视角学习的多视角分类算法(LMVL,a linear computational cost multi-view learning method)。LMVL算法通过对基于多视角学习数据设计的目标函数进行优化,将多视角学习问题转化成一系列单视角学习问题进行求解。LMVL算法通过学习一个映射矩阵来学习所有来自不同视角的特征,并通过赋予每个视角数据一个权重来达到自动选择重要的视角数据的目的。不同于传统算法整体优化映射矩阵的方式,LMVL独立优化映射矩阵每一列(对应于不同类别),从而可以通过并行计算进一步降低模型训练时间。我们从理论上证明了 LMVL算法具有线性时间复杂度,加之可以进行并行计算的优势,使得LMVL可以有效应对大规模多视角数据的分类问题。针对如何更有效地处理高维度复杂多视角数据问题,我们提出了 一种基于子空间学习的多视角分类方法(MVSC,Multi-view feature learning with shared component)。与传统的多视角子空间学习算法仅仅挖掘不同视角的共享子空间不同的是,MVSC同时挖掘共享子空间和每个不同视角特征所包含的特有信息,因此MVSC算法可以更加有效地利用多视角数据中所包含的丰富信息。我们通过使用不同的映射矩阵将视角间的共享信息和每个视角的特有信息映射到不同的子空间中,通过在不同的子空间挖掘有效信息,从而大大降低了原有的视角特征维度,实现了降维的目的。因此,MVSC算法可以有效处理高维度的多视角数据。为了优化不平滑的目标函数,我们提出了一种新的迭代优化算法,并从理论上证明了 MVSC的算法收敛性。通过与不同的多视角学习算法进行对比,实验结果验证了 MVSC在大大降低视角特征维度的同时可以取得满意的学习效果。