偏多标记学习研究

来源 :南京航空航天大学 | 被引量 : 0次 | 上传用户:zhu0756
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在传统机器学习研究中,学习对象仅由一个类别标记来描述其语义信息。在许多实际应用中,学习对象往往与多个类别标记相关联。多标记学习是解决该类任务的一种学习框架,并已成功地应用到了许多实际任务中。在多标记学习的实际任务中,精确标注对象的多个标记往往代价高昂且异常困难。更高效的标注方式是标注者仅粗略地赋予每个对象一个候选标记集合。该候选集包含数目未知的相关标记,并且往往掺杂着一些不相关的标记。这种方式降低了样本的标注代价,但同时也导致基于这些不精确标注的学习任务变得更加困难。因此,如何有效地对候选标记集合进行消歧,即,识别出候选标记中的相关标记,是解决该问题的核心研究内容。本文对此进行研究,主要工作包括:1.提出一个新的学习框架以形式化上述学习问题,并命名为偏多标记学习。在偏多标记学习中,学习对象与一个候选标记集合相关联,该集合同时包含多个相关标记和其它噪声标记。为了解决该问题,进一步提出偏多标记学习方法PML-lc和PML-fp为候选集中的每个标记维护一个置信度值,以估计该标记是其对应示例的相关标记的可能性。一方面,通过最小化以置信度加权的排序损失来优化标记的相关程度排序;另一方面,通过利用包括特征和目标空间在内的结构信息来优化标记的置信度值。实验结果表明PML-lc和PML-fp可以有效地解决偏多标记学习问题。2.提出一种通过对特征表示与噪声标记之间关系进行建模以检测候选集中噪声标记的偏多标记学习方法PML-NI。在偏多标记学习框架下,涌现出了许多基于偏标注样本的学习方法。然而,现有的偏多标记学习方法往往假设噪声标记是随机产生的,并根据该假设恢复候选集中真实标记信息。而在实际应用中,噪声标记往往是由于样本中的某些含有歧义的内容导致标注者误标产生的。本文提出的PML-NI方法,通过对特征表示与噪声标记进行建模,同时进行多标记的分类与对噪声标记的检测。实验结果显示PML-NI方法比假设噪声标记随机产生的方法有更强的泛化性能。3.提出一种基于少量偏标注样本以及大量未标注样本的偏多标记学习方法SSPML。以往偏多标记学习方法往往假设所有样本都是已标注的。然而,在许多现实场景中,通常仅有少量偏标注样本,还有大量的未标注样本。本文将上述问题形式化为一个新的学习框架,并命名为半监督偏多标记学习。在该框架下,本文提出的半监督偏多标记学习方法SSPML,假设样本的真实标记是其特征向量的低维嵌入表示,并对每个样本引入标记隐变量。一方面,通过保持样本相似度在特征空间和标记空间一致以复原标记隐变量;另一方面,通过标记隐变量的反馈信息更新样本相似度。实验结果表明SSPML能有效地解决半监督偏多标记学习问题。
其他文献
随着大数据、云计算和人工智能等新兴技术的普及,越来越多的数据被收集起来进行分析和利用,推动了城市的治理和发展。在这其中,城市居民的出行流量数据和城市功能区分布数据蕴含了与城市发展和居民生活息息相关的海量信息,对于探索智慧城市的发展具有重要的理论意义和应用前景。近几年来,利用城市功能区分布数据来辅助进行居民出行流量预测已经取得了一定的成就,但是,由于这两类数据的异构性以及相关城市计算问题的复杂性,据
学位
计算流体力学(Computational Fluid Dynamics,CFD)是研究湍流模型的重要手段,在基础流体力学研究和航空航天等领域发挥着重要作用。随着所研究问题的日益复杂化,对计算流体力学数值模拟的精度要求也越来越高。高精度的数值模拟结果依赖流场方程求解时的数值格式和计算网格的质量。网格自适应是一种有效提升网格质量的方法。常见的网格自适应方法可以分为局部加密,局部提高数值格式精度和移动网
学位
大脑是人体最重要的器官,多个不同的大脑区域广泛交互,共同构成了一个复杂的网络来发挥功能。随着现代神经影像技术的发展,脑影像为研究大脑的病理生理机制提供了有力的技术支撑。特别是功能磁共振成像技术,由于其对大脑功能连接的渐进性变化具有较高的敏感性,已经被广泛应用于计算机辅助诊断。近年来,大型多中心医学数据库的建立加速了脑影像数据共享,为了克服小样本量带来的模型过度拟合的挑战,越来越多的研究开始关注如何
学位
目的探究良性输尿管狭窄腔内手术治疗后置入海马型输尿管支架的临床效果。方法回顾性分析2020年1月至2021年12月于重庆医科大学附属第一医院行良性输尿管狭窄腔内手术治疗患者的临床资料。根据置入输尿管支架类型不同分为3组:A组为单根标准形状输尿管支架,B组为海马型输尿管支架,C组为多根标准形状输尿管支架,每组20例。同时收集3组间的基线资料(包括:年龄、性别、狭窄侧别、狭窄部位、狭窄长度、狭窄程度、
期刊
近年来,现实生活中的数据量急剧增长,信息过载成为当前时代的新问题。推荐系统可以快速地从海量数据中筛选出用户感兴趣的信息,在解决信息过载问题上发挥着重要的作用。然而用户和项目规模的增长产生的数据稀疏问题,导致推荐算法的精度降低,成为当前亟需解决的问题。异构信息网络描述了多种对象间的关系,可应用到许多数据挖掘任务中。知识图谱作为一种有向异构信息网络,包含了实体的描述信息和实体间在现实世界中的联系,可作
学位
数字孪生作为实现装配物理世界和虚拟世界实时交互和融合的有效手段被广泛研究和关注。本文以H企业伺服机构装配单元为应用对象,研究基于数字孪生的伺服机构装配单元管控技术,将数字孪生技术应用到伺服机构装配生产管控中,实现物理装配单元与虚拟装配单元的融合,为装配单元管控提供一种新措施。本文主要从以下几个方面来展开研究工作:(1)伺服机构装配单元数字孪生建模研究。分析伺服机构装配管控建模需求,分别从装配人员、
学位
作为计算机视觉领域基础及热点研究之一,文字检测与识别引起了大家的广泛关注与讨论。相较传统图像处理方法,基于深度学习的方法可以实现图像中文字信息的自动获取,从而进一步提高准确率,极大地节约人工及时间成本。但巨大的模型参数量以及内存消耗限制了其在小型设备如移动终端上的应用与发展,难以满足人们日益增长的需求。基于此,本文对轻量级文字检测与识别算法进行探讨并将其应用于公共数据集及不同领域的数据集之中,实现
学位
近年来,由于医疗从业人员培养周期等方面的限制,医疗效率和质量的提升变得缓慢。海量的电子健康系统(EMR)的数据中隐藏大量信息,为获取医学知识提供了新的途径。因此,如何通过挖掘EMR数据的潜在医学知识来治疗疾病成为进一步提升医疗水平的关键。本文旨在开发治疗引擎,其利用资深医生提供的治疗记录和满意治疗结果患者的电子病历提供的知识预测药物处方,从而提升医疗决策质量,避免意外医疗事故发生。然而这并非易事,
学位
期刊
特征选择是模式识别与数据挖掘的关键问题之一,它是削减假设空间大小、降低数据维度的重要方法。随着信息技术的极速发展,获取完整的有标记数据集变得更加困难,实践中常常需要处理部分标记信息缺失的数据集。半监督特征选择即是应用于上述半监督学习场景的特征选择技术,可以同时利用有标记数据和无标记数据进行特征选择。它一方面可以挖掘全体数据样本的结构、分布信息,另一方面也可以利用有标签样本数据标签提供的类别信息。不
学位