论文部分内容阅读
学习是人类具有的一种重要智能行为,模仿人类的学习过程是机器学习的主要目标。机器学习根据生理学、认知科学等对人类学习机理的研究成果,建立人类学习过程的计算模型,研究通用的学习算法,是人工智能和神经计算的核心研究内容之一。基于数据的机器学习从观测数据中构建模型,以对无法观测的数据或未见数据进行预测。随着信息时代的到来,数据大量存在,但获取数据的标记需要耗费人力物力。这里的“标记”是指数据所对应的输出,如在分类问题中标记就是数据的类别。传统的监督学习方法从有标记的数据中构建模型,当有标记的数据较少时所训练出的学习系统很难具有好的性能。半监督学习研究当有标记的数据较少时如何利用大量的未标记数据来改善学习性能,具有广泛的应用领域,是当前机器学习研究的热点问题之一。在机器学习的许多实际问题中数据有多个视图,如何综合利用数据的多个视图进行学习是具有挑战性的研究内容。本文研究多视图的半监督学习,对多视图半监督学习中的学习理论、学习算法、以及多视图的构造等关键问题进行了深入的研究,取得了一定的研究成果,并经过充分的实验验证,为进一步的研究和应用奠定了基础。本文创造性的研究成果主要有:1.提出一种多视图半监督学习中的正则化方法。从有限样本中学习往往是病态逆问题,解决的办法是对学习过程加以限制,这个过程称为正则化。针对多视图的半监督学习,利用假设空间的度量结构,定义学习函数的光滑性和一致性。在每个视图内的学习过程中限制函数的光滑性,在多个视图的协同学习过程中限制函数的一致性。提出一种两个层次的正则化算法,同时使用函数的光滑性和一致性进行正则化,并对算法预测误差进行理论分析。实验表明,该算法较仅使用光滑性或仅使用一致性的正则化方法在预测性能上有显著提高。2.提出一种基于图的多视图半监督学习方法。分析图表示法的适用性,使用多个图结构表示多视图数据,将基于图的半监督学习扩展到数据有多个视图的情况。提出一种多个图的半监督学习算法,在每个图上进行半监督学习,并在多个图上协同学习,从而同时优化多个图上的学习器。从概率角度分析多个图上的学习过程。实验表明,该算法较单个图上的半监督学习算法有更高的分类精度。3.提出一种随机子空间中的多视图构造及学习方法。在数据的特征空间中取随机子空间,将数据映射到多个随机子空间中,以构造数据的多个视图。提出一种随机子空间中的多视图半监督学习算法,将每个视图上的学习器预测置信度最高的未标记数据用于训练其它视图上的学习器,从而使各个视图上的学习器协同训练。使用随机判别理论对算法进行分析。实验表明,该算法在数据特征较多时较同类算法有更好的预测性能。4.提出一种排除学习器不确定性的主动学习方法,并将其与多视图半监督学习结合。运用主动学习思想选取学习器最不置信的未标记数据作为需要查询的数据。在每个视图内的学习过程中,对于最置信的未标记数据,将其用于训练其它视图上的学习器;对于最不置信的未标记数据,向外界查询它的标记。实验表明,该算法能够显著提高学习性能。