基于度量学习和最大值损失函数的偏标记学习算法研究

来源 :大连理工大学 | 被引量 : 3次 | 上传用户:wubingsen
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着大数据时代的到来,弱监督机器学习技术成为了机器学习领域的一个热点研究方向,并被广泛应用于控制工程、系统工程、模式识别和信息安全等领域的实际问题中。偏标记学习是近年来提出的一种新型弱监督机器学习框架,在该框架下进行算法构建不需要准确标注训练样本的真实类别,而只需知道它属于类别标记集合的某一子集即可;同时由于偏标记学习框架在本质上是对传统强监督分类框架的一个扩展,区别是放松了训练数据集的构造条件,因此它与传统强监督分类框架一样具有广阔的应用空间,已经应用到图像处理、文本挖掘、医疗诊断等领域。虽然偏标记学习近年来已逐渐受到了人们的关注,但是由于样本的标记信息不再一一对应使得算法构建非常困难;而目前已建立了的算法还满足不了实际问题的需求,因此本文围绕偏标记学习算法构建问题开展了相关研究,主要包括以下几个方面的内容:1.偏标记学习算法的精度与其所采用的距离度量密切相关。本文利用几何均值度量学习模型,建立了一种面向偏标记数据的度量学习算法。该算法利用具有共享候选类别标记的距离相近的样本点来构造相似对,没有共享候选类别标记的样本点构造非相似对,同时为了保证原始度量空间中的有用流形结构信息在新的度量空间中保持不变,在目标函数中还加入了一个保持每个训练样本与其k个具有共享类别标记的近邻点之间的相对位置不变的模块。实验结果表明,该算法可以提高模型中使用了样本间欧氏距离的偏标记学习算法的精度,特别是对基于k近邻模型建立的偏标记学习算法精度的改进尤为明显。2.最大值损失函数可以较好地描述偏标记学习问题中样本与其候选类别标记间的关系,但建立的模型通常是一个非光滑函数,难以求解。本文利用凝聚函数来逼近max(.)函数建立了一种光滑的最大值损失函数,并且基于该损失函数以Logistic回归模型和高斯过程模型为建模工具构建了两种新的偏标记学习算法。这两种算法的理论分析和实验结果表明基于新的最大值损失函数构建的学习算法,不仅目标函数都是易于求解的光滑凹函数,而且可以取得比基于均值损失函数建立的学习算法更高的精度。3.为了降低偏标记学习算法的计算复杂度,本文基于稀疏高斯过程模型提出了两种快速核偏标记学习算法。第一种算法的基本思想是先利用纠错输出编码技术将原始偏标记训练集转换为若干标准二分类数据集,然后基于变分高斯过程模型在每个二分类数据集上构建一个具有较低计算复杂度的二分类算法。第二种算法是在基于最大值损失和高斯过程模型构建的算法的基础上,先利用快速聚类算法从训练集中选出一个数目较少的子集U来定义一组诱导变量FU,然后利用该组诱导变量辅助计算潜变量函数的后验概率,从而降低算法的计算复杂度,同时FU的后验概率利用拉普拉斯方法来进行快速计算。这两种算法不仅具有较高的预测精度,而且其计算复杂度为O(nm2),远低于其他核偏标记学习算法的复杂度(通常为O(n3))。
其他文献
在分析棘胸蛙的生态习性,明确其栖息环境、生活习性等特征的基础上,探究了人工养殖的方法。提出了棘胸蛙人工养殖必须充分做好准备工作,科学建设养殖环境、展开繁殖管理工作,
针对一类分布时滞神经网络系统提出一种代数抗饱和补偿设计。在不考虑系统输入饱和的前提下,通过系统参数、M矩阵理论、迪尼导数设计出了一种代数判据。在此基础上,当发生输
北师大版初中数学实验教材,在内容和形式等方面与旧教材相比都有了很大的变化。内容上条理清晰、深入浅出,编排上图文并茂、形式活泼,注重创设问题情境、实践操作和探究发现。这
多媒体网络教学与自主性英语学习方式相结合,是当前大学英语教学的新思路和主流发展方向。本文从我国的大学英语教学现状出发,结合构建主义理论,论证了多媒体网络教学环境中
为提高机场地面运行安全,预防航空器产生滑行冲突,研究了基于航空器特性的机场地面交叉口冲突概率并建立了相应的估计模型。该模型将发动机喷流影响有效距离因素引入到交叉口
结合目前河北省实施“城镇面貌三年大变样”的活动,在总结分析国内外城市住区更新理论与实践的基础上,认真梳理从建国后至今邯郸市城市住区发展的历史。从住区物质要素、住区
<正>癫痫表现为慢性反复发作性短暂脑功能失调综合征,以脑神经元异常放电引起反复痫性发作为特征。全世界约有逾5000万癫痫患者[1],我国癫痫患病人数高达900万以上,约占全球
作为经济发达省份的相对落后地区,宿迁市的城市化进程仍在起步阶段。运用区域经济学相关知识,从城市化进程中的产业升级、城市定位、城市空间结构规划三个方面对宿迁市城市化
目的探究腹腔镜下前列腺癌根治术治疗高危前列腺癌的临床效果。方法选取2016年5月至2018年5月在我院行腹腔镜下前列腺癌根治术的18例高危前列腺癌患者为研究对象进行回顾性分
在中国南方水电富集的地区,水电站可以作为一种灵活性电源用于提高电网的新能源消纳能力。为此,文章提出了一种考虑灵活性的地区电网新能源消纳能力评估方法,该方法能够保证系统