论文部分内容阅读
数据的爆炸式增长、广泛可用和巨大数量使得我们的时代成为真正的数据时代。在数据量增长的同时,数据的表现形式也越来越多样化,具有多种表现形式的数据称之为多视角数据。如何对高维数据进行降维以提高后续分类算法的性能,如何利用多视角数据各视角相容、互补的性质对多视角数据进行正确的分类是当前的研究热点。本文对特征选择算法和多视角学习进行了深入研究,提出了基于全局最小冗余的多视角协同训练算法,通过对UCI中的3个多视角数据集的分类实验,验证了算法的有效性。 本文对多视角数据特征选择采用了逐个视角进行特征选择的策略。在基于全局最小冗余的基础上对多视角数据进行了特征选择,重点考虑了特征在全局上的最小冗余性。在对多视角数据进行数据降维后,考虑到在实际应用中,每个视角都往往会受到属性退化和噪声的影响而没有充足的信息用于分类,提出了基于全局最小冗余的多视角协同训练算法。在协同训练的过程中,改进了传统的协同训练算法,我们把每个未标记数据通过分类器标记的标签信息都记录下来,分类器经过更新后重新对这些数据进行标记,如果前后标签信息不一致则删除这些数据从而提高算法的性能。该算法重点探索蕴含于多视角数据中的互补信息和关系,利用少量标记数据蕴含的信息协同未标记数据训练分类器,对多视角数据进行分类,用于处理“部分标记”的多视角数据。 本文的实验选取的数据集为UCI中的3个多视角数据集。因为协同训练需要在每个视角上分别训练一个分类器,因此实验首先在两个分类器都是支持向量机的情况下对基于全局最小冗余的多视角协同训练算法和传统协同训练算法在多视角数据集上进行了对比实验,通过比较训练出的分类器在测试集上的分类错误率来确定两种算法的优劣性。然后在两个视角上的分类器都为朴素贝叶斯分类时,对两种算法再次进行对比实验。两次实验的结果都表明本文提出的多视角数据分类方法具有更高的分类精确度,提高了传统协同训练方法的学习性能。