引入样本差异消歧的偏标记学习算法

来源 :重庆邮电大学 | 被引量 : 0次 | 上传用户:cnlhong197416
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
偏标记学习是一种弱监督学习框架,它试图从样本的多个候选标签中选择唯一正确的标签。在偏标记学习框架中,一个样本对应一个候选标记集合,且只有一个是真实标记,在这样的训练样本下进行学习无法直接应用传统的监督学习算法,学者们在长期的研究中发现了非消歧、平均消歧和辨识消歧三种策略来优化算法使其适应于偏标记学习框架。其中,消歧的策略被广泛认为是实现偏标记学习的有效途径,但是这类策略存在两大问题:首先,研究人员普遍采用单一的特征空间或者标记空间进行消歧,容易导致算法受到不准确先验知识的引导而陷入鞍点;其次,由于传统的损失函数无法直接应用在偏标记学习过程中,大多数现有的方法致力于设计复杂的优化过程来嵌入数据集的先验知识以指导算法进行消歧,虽然达到了较好的效果,但其计算复杂性成为扩展到大数据的瓶颈。针对现有算法的不足,本文在前者的基础上做出了一些改进工作,主要研究工作有如下两个方面:1.针对消歧过程中算法容易受到不准确先验知识的引导而陷入鞍点这一问题,提出了一种离异图消歧引导消歧的偏标记学习算法。首先,本文从基于特征空间的相似点和相似图出发,结合标记空间的先验知识,定义了离异点和离异点图的概念;然后,利用离异图和相似图的双重约束,有效结合特征空间的相似性和标记空间的差异性用于算法的消歧;最后,通过对约束优化问题进行求解,得到了该消歧算法的优化过程。在五个真实数据集上的实验表明,与其他消歧算法相比,该算法具有更好的消歧性能。2.针对现有偏标记深度学习算法不能有效考虑数据样本间关系的问题,提出了基于批量样本差异的偏标记学习算法。首先,将流形假设推广到mini-batch的数据上,在随机优化过程中引入了相似点和不相似点的概念;然后,采用对比学习形式,在深度学习框架下捕捉小批量训练样本中的相似点和不相似点关系;最后,将样本的相似性与离异关系作为辅助任务来辅助网络层学习多目标回归分类器,使得在深度学习下也能嵌入样本差异性这一先验知识进行消歧指导。在真实数据集和人工数据集上的对比实验表明,该算法能够有效利用样本差异来减小算法在学习过程过拟合不准确消歧结果的影响,提高了模型的泛化效果。
其他文献
随着容器云平台的蓬勃发展,云中心托管的容器服务数量越来越多,随之承载的租户规模也越来越庞大。租户是向云中心付费的实体,是云任务的发布者,保障租户的服务质量(Qo S)在多租户容器云平台显得尤为重要,同时,节点负载动态变化会引发容器迁移,传统的单一目标迁移策略并不能满足大量租户的差异性需求。基于上述问题,论文重点研究了多租户环境下容器云资源放置和迁移策略,在保障租户Qo S的同时,减少云中心运营成本
学位
期刊
k-means算法被誉为十大经典数据挖掘算法之一,自被提出以来就因其高效的特性而被广泛应用于各个领域。但是,随着互联网的深入发展,网络上的数据呈爆发式增长,使得k-means算法的效率在大数据场景中面临挑战。为了进一步提升k-means算法的效率,本文分别针对精确k-means算法和近似k-means算法各提出了一种加速策略。本文的具体工作如下:1.本文针对精确k-means算法提出了一种基于多粒
学位
自改革开放以来,人们生活水平得到极大改善,对机动车的需求量逐年递增。机动车虽然能够方便人们出行,但是其数量的快速增长加剧了城市道路交通拥堵。交通流量预测是智能交通系统中必不可少的一部分,它不仅能帮助出行者做出更好的出行决策,还能辅助交通管理部门制定更有效的管理措施。因此,准确有效的交通流量预测是提高交通管理服务质量的重要基础。交通流量预测是通过挖掘历史交通流量数据的时间特征或空间特征进行预测,其研
学位
人们在感知世界时,视觉是最重要的一部分,而视觉又是基于图像的。对于一副包含了丰富信息的图像,研究学者们的关注重点是如何从众多图像信息中提取出那些对计算机视觉任务最有用的特征。因此,图像特征提取就成为了计算机视觉任务中极为关键的环节。基于手工设计的方法和基于深度学习的方法是特征提取中的两大分支领域。其中,手工方法通过人类的视觉特性去探索图像中的规律,并设计出具有特殊含义的特征。本论文主要针对手工方法
学位
深度神经网络作为深度学习领域中的关键技术,现已被广泛应用于各种人工智能系统以实现不同的任务需求,如图像分类、人体姿态检测、人脸识别等。然而近几年的研究表明深度神经网络是脆弱的,其极易受到对抗样本的攻击。所谓对抗样本是指添加了对抗扰动后的图像,其中扰动是精心制作且人眼难以察觉的。对抗样本能够使深度神经网络在推理时给出错误结果,这导致研究人员开始关注深度神经网络的安全性问题。因此,如何提高网络的鲁棒性
学位
随着移动互联网的蓬勃发展,大数据给机器学习的应用提出了新的挑战。稀疏多元逻辑回归(Sparse Multinomial Logistic Regression,SMLR)被广泛应用于文本分类、图像分类和多目标识别等领域。7)1正则化的引入让SMLR具备了特征选择的能力,这在处理图像和文本等具有稀疏性的分类任务时具有很好的分类性能,但也导致其目标函数无法直接求得解析解,因此SMLR通常采用迭代的方法
学位
目前生物医学文本数据增长迅速,但其中的有效信息难以提取,生物医学文本命名实体识别(Named Entity Recognition,NER)的目的就是快速有效地从文本中提取相关实体名称。作为自然语言处理的一个重要分支,同时也是关系提取和构建知识图谱的关键子任务,命名实体识别技术具有重要的意义和价值。当前一些主流先进的命名实体识别方法在普通文本中已经能取得较好的识别性能,例如GPT(Generati
学位
学位
在如今这样一个大数据时代,仅依靠人工方式对文本数据进行处理是效率低下、成本高昂的。随着计算机硬件与计算能力的蓬勃发展,使用机器通过文本分类算法来处理文本数据逐渐成为一类主流方法,受到了各行各业广泛地关注与应用。文本分类是自然语言处理领域中的一个热门的基础任务,其目的是为各式各样的文档指定预定义的类别标签。现有的文本分类算法面临的主要挑战,包括但不限于以下三个方面:1)如何提高算法模型对文本特征的提
学位