论文部分内容阅读
随着大数据时代的到来,弱监督机器学习技术成为了机器学习领域的一个热点研究方向,并被广泛应用于控制工程、系统工程、模式识别和信息安全等领域的实际问题中。偏标记学习是近年来提出的一种新型弱监督机器学习框架,在该框架下进行算法构建不需要准确标注训练样本的真实类别,而只需知道它属于类别标记集合的某一子集即可;同时由于偏标记学习框架在本质上是对传统强监督分类框架的一个扩展,区别是放松了训练数据集的构造条件,因此它与传统强监督分类框架一样具有广阔的应用空间,已经应用到图像处理、文本挖掘、医疗诊断等领域。虽然偏标记学习近年来已逐渐受到了人们的关注,但是由于样本的标记信息不再一一对应使得算法构建非常困难;而目前已建立了的算法还满足不了实际问题的需求,因此本文围绕偏标记学习算法构建问题开展了相关研究,主要包括以下几个方面的内容:1.偏标记学习算法的精度与其所采用的距离度量密切相关。本文利用几何均值度量学习模型,建立了一种面向偏标记数据的度量学习算法。该算法利用具有共享候选类别标记的距离相近的样本点来构造相似对,没有共享候选类别标记的样本点构造非相似对,同时为了保证原始度量空间中的有用流形结构信息在新的度量空间中保持不变,在目标函数中还加入了一个保持每个训练样本与其k个具有共享类别标记的近邻点之间的相对位置不变的模块。实验结果表明,该算法可以提高模型中使用了样本间欧氏距离的偏标记学习算法的精度,特别是对基于k近邻模型建立的偏标记学习算法精度的改进尤为明显。2.最大值损失函数可以较好地描述偏标记学习问题中样本与其候选类别标记间的关系,但建立的模型通常是一个非光滑函数,难以求解。本文利用凝聚函数来逼近max(.)函数建立了一种光滑的最大值损失函数,并且基于该损失函数以Logistic回归模型和高斯过程模型为建模工具构建了两种新的偏标记学习算法。这两种算法的理论分析和实验结果表明基于新的最大值损失函数构建的学习算法,不仅目标函数都是易于求解的光滑凹函数,而且可以取得比基于均值损失函数建立的学习算法更高的精度。3.为了降低偏标记学习算法的计算复杂度,本文基于稀疏高斯过程模型提出了两种快速核偏标记学习算法。第一种算法的基本思想是先利用纠错输出编码技术将原始偏标记训练集转换为若干标准二分类数据集,然后基于变分高斯过程模型在每个二分类数据集上构建一个具有较低计算复杂度的二分类算法。第二种算法是在基于最大值损失和高斯过程模型构建的算法的基础上,先利用快速聚类算法从训练集中选出一个数目较少的子集U来定义一组诱导变量FU,然后利用该组诱导变量辅助计算潜变量函数的后验概率,从而降低算法的计算复杂度,同时FU的后验概率利用拉普拉斯方法来进行快速计算。这两种算法不仅具有较高的预测精度,而且其计算复杂度为O(nm2),远低于其他核偏标记学习算法的复杂度(通常为O(n3))。