论文部分内容阅读
在机器学习的许多实际问题中数据有多个视图,各个视图间有着互补信息和相关信息,可以通过对这些信息的挖掘来提高学习的性能。然而由于先验知识的缺乏,如何在多视图学习利用多个视图改善学习性能显得尤为重要,作为提高算法泛化性能的重要手段集成学习也因此被运用于其中,形成了多视图集成学习。然而,大多数现有的多视图集成学习方法在不同视图上独立、交替地训练分类器,这些方法利用了视图之间的互补信息却忽略了相关信息。在机器学习领域,典型相关分析常用于分析不同视图间的相关,提取不同视图间的相关特征,因此本文以典型相关分析作为基础对多视图集成学习进行了研究。在集成学习中,基分类器的差异性至关重要,现有的很多集成学习方法都是通过重采样样本或特征来实现。另一方面,由于样本间的相似性或不相似性约束的数目通常远多于样本数,因此对约束重采样有潜力获得比对样本重采样更好的多样性。本文围绕多视图集成学习,引入约束信息以获得更好的学习性能。同时为了适应实际应用的需求,对算法进行了扩展研究,使之适用于有样本缺失的情况。本文提出了一种基于约束的多视图集成学习算法,称为约束相关集成,并给出了该算法实现的两个版本。首先,我们将约束信息引入到多视图的集成学习中,利用对约束信息的随机采样获得基分类器的差异性,采样方式有bagging策略和boosting策略,分别对应于算法的两个版本,随后采用带约束的典型相关分析方法对多视图数据特征进行抽取与融合,并对信息融合后产生的新的训练样本进行训练获得基分类器,最后对各分类器进行集成。据此,我们保留了样本在不同视图之间的相关信息,同时引入了约束作为监督信息。在手写体数据库及人脸数据集上的实验说明了本算法的有效性。其次,本文考虑了有样本缺失的情况,由于传统的典型相关技术要求样本必须成对出现,在有样本缺失的情况下,以上算法并不适用。本文利用了类内相关与类间相关的思想,打破了样本必须成对出现的约束,对一些多视图集成算法包括随机相关集成以及约束相关集成的两个版本进行了推广,使之适用于样本缺失的情况。实验结果证明本算法对于样本缺失数量具有相对不敏感性,即在实际应用中有着较好的鲁棒性。