论文部分内容阅读
传统的机器学习技术需要使用大量有标记样本进行训练,但是在很多实际应用中,获取大量的有标记样本相当困难,因为标记样本往往需要耗费大量的人力物力以及时间,甚至必须依赖于少数领域专家和知识工程师来完成,而获取大量未标记样本则相对容易得多.所以只需标注少量样本的半监督学习方法在模式识别和机器学习领域引起了极大的关注,并在文本分类、图像识别、生物信息学等诸多领域取得了良好的应用效果.半监督多类分类问题和半监督多标记分类问题是半监督二类分类问题的实质性推广,由于它们更贴近实际问题,成为当前机器学习领域的一个研究热点.解决这两类问题的方法常常是将它们分解成一组半监督二类分类问题,而这会产生许多新问题,如半监督多类分类问题中会出现数据的不平衡问题,半监督多标记分类问题中未考虑类别之间的相关性,并且随着标记数目的增加分解出来的子问题的数目呈指数增长难以处理等.本文针对半监督多类分类问题和半监督多标记分类问题,采用基于图的半监督学习算法,从最优化的角度出发,根据“整体法”的研究思路,利用局部学习的优良特性对上述两类问题做了系统深入的研究.具体地说,本文的主要工作包括如下几个方面:1.第一章首先简要地介绍了机器学习的研究意义、发展概况及其理论基础——统计学习理论的基本知识;其次对本文所要研究的机器学习问题中的半监督学习和局部学习的发展历史和研究现状进行了综述;最后介绍了论文的选题动机和组织结构.2.第二章研究了基于局部学习的半监督多类分类算法.局部学习的内涵就是一个样本的类别应能很好地由其邻域内的样本估计,即每一个样本的类别实值与建立在其邻域样本集上的局部学习模型的输出值相同或相近.首先,基于局部学习在半监督二类分类问题中表现出的良好特性,分析和推导了半监督二类分类问题中的局部学习正则项;其次,提出了一种新的单位圆标记表示方法;最后,将局部学习从半监督二类分类问题推广到了半监督多类分类问题中,并用数值实验检验了基于局部学习的半监督多类分类算法的有效性和高效性.3.第三章研究了结合全局学习和局部学习的半监督多类分类算法.首先,针对多类分类问题中的标记本质上属于标称型变量的特性,提出了一种弹性的可学习可调节的标记表示方法;其次,提出了半监督多类分类问题的正则化方法,包括全局正则化和局部正则化,并完整地给出了局部正则项在半监督多类分类问题中的表达形式,并提出了两个算法:(1)基于局部学习和可调节标记表示方法的半监督多类分类算法;(2)结合全局和局部正则化的半监督多类分类算法;最后,通过在标准的二类数据集和多类数据集上进行数值实验,实验结果证明了两个算法的有效性和可行性.4.第四章研究了基于局部学习的半监督多标记分类算法.首先,通过分析发现,半监督多标记分类问题中每一个样本输入χi对应的输出yi的表示形式,与半监督多类分类问题中二进制序列标记表示方法本质上是一致的,因此可将局部学习正则项引入到半监督多标记分类问题中;其次,半监督多标记分类问题中有关类与类之间相关性的研究,正适合用“整体法”的研究方法来解决,这样,分别从样本和类别两个方面构建了两个加权无向图,分析得到针对样本的局部学习正则项和针对类别的全局正则项,从而得到基于局部学习的半监督多标记分类算法;最后,通过求解一个Sylvester方程得到类别的实值矩阵解,实验验证了基于局部学习的半监督多标记分类算法是可行的.5.第五章利用前面研究的基于局部学习思想的半监督多类分类算法解决电力变压器故障诊断问题,建立了电力变压器故障诊断的层次模型实现故障的定性和定位,为半监督多类分类算法在新领域的应用做了有意义的尝试.6.第六章对论文所作的工作做了总结,并提出了下一步工作的建议.