论文部分内容阅读
本文分别对近邻法、多视角学习以及组合学习进行了相关的理论和算法的研究,并对它们分别进行了改进。在实际应用中,近邻法是一种应用广泛而且简单有效的方法。但传统的近邻法仍有其不足之处,它在预测过程中没有完全利用近邻的全部信息。针对其这一缺点,本文对近邻法进行了改进。在新的近邻法中,用于预测样本标签的距离不再是查询点与近邻训练样本的直接距离,而是查询点与其近邻们的“重心”之间的距离。这里的“重心”指的就是能够体现近邻分布信息的近邻的“形心”。这样以来,在预测过程当中不但标签信息得到运用,分布信息也被考虑在内。在文章当中,我们对这个方法进行了详细的描述和分析。另外,在实验中我们在12个公共数据集上分别采用马氏距离和欧式距离的度量方式进行了实验。实验证明,形心近邻法能够提高传统近邻法的分类精度。多视角学习是近年来机器学习领域的一个热门的研究方向。多视角学习方法利用事物的两个独立或不相关的视角以特定的训练方式来进行学习。许多理论和实验都能证明多视角学习能够大大提高学习的效果。同时,一些研究人员证明采用多学习机的组合学习也能够提高学习的效果。但尚未有人将多视角学习与组合学习相结合来解决模式识别领域内的学习问题。本文依此对多视角学习与组合学习的结合做了一些相关研究。并提出了多视角多学习机的学习方法,并将其应用到半监督学习和主动学习领域。与此同时,本文也提出了一种称为模糊度的度量方法来计算视角之间对样本预测的分歧程度。从实验结果来看,这种方法是一种非常有效的方法。在多视角学习的领域内,有一个瓶颈的问题。多视角学习虽然可以很有效的提高学习效果,但是并不是所有问题都有多个内在的视角,这就意味着单视角问题是不能够用多视角学习方法来解决的。这就大大限制了多视角学习方法的应用范围。针对这个问题,本文提出了一种为单视角问题创建额外视角的方法。该方法利用PCA方法去产生原问题的另一个视角。另外,针对高维问题和非高维问题,文章也提出了不同的创建多视角策略。该方法在多个标准数据集上进行了实验,实验结果表明该方法所创建的视角是有用的,而且能够帮助学习方法提高学习效果。集成学习是将多个分类器以某种组合方式组合在一起进行学习。在传统的集成学习中,分类器的产生大都是并行的。也就意味着,参与集成的分类器数量越多,训练分类器的时间就越长。针对集成学习的这一缺点,本文提出了一种演化的集成学习方法。在该方法中,分类器不是以并行的方式产生的,而是以演化的形式产生的。在文章当中,详细地叙述了这种方法的过程和假设条件,并且将其推广到多视角的演化集成学习方法。从实验结果来看,当满足该方法所假设条件时,该组合学习方法的实验结果比非组合学习方法有更高的精度。而且,该方法比传统的集成学习方法要节省时间。