偏标记损失函数研究

来源 :东南大学 | 被引量 : 1次 | 上传用户:raoxinyan
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
偏标记学习是一类重要的弱监督学习框架,在该框架下标记信息不再具有单一性和明确性:一个示例对应于一个候选标记集合,而候选标记集合中仅有一个标记为其真实标记。由于训练数据的真实标记不可直接获取,常见的一些监督学习技术无法直接用于求解偏标记学习问题。一般而言,损失函数设计体现了算法对学习问题性质的描述。现有偏标记学习算法采用的损失主要存在两个方面的问题。一方面,现有偏标记损失函数设计仅仅关注示例与标记之间的映射关系,从而忽略了输入空间中示例之间的相关性。另一方面,现有偏标记损失函数设计赋予各候选标记相同的置信度,从而忽略了真实标记与伪标记模型输出重要性不同的性质。针对以上两方面问题,本文对偏标记损失函数设计进行了研究,主要围绕如下两个方面展开:机器学习算法通常假设样本之间满足一致性性质,即在特征空间中相似的示例在标记空间上也具有一定的相似性。基于此,我们提出基于一致性假设的偏标记学习算法COPAL。该算法在对候选标记集合进行消歧的过程中,其损失函数不仅考虑了在候选标记集合上的输出,同时考察了近邻示例输出的相似度。实验结果表明,在偏标记损失函数中引入一致性假设考察示例相似度,可以更好地实现训练样本的候选标记消歧。在偏标记学习中,真实标记上的模型输出往往被伪标记上的模型输出所湮没。因此,需要在损失函数设计过程中考虑不同标记上模型输出的置信度。基于此,我们提出基于标记置信度的偏标记学习算法CORD。该算法在对候选标记集合的消歧过程中,其损失函数综合了候选标记的模型输出及其置信度,通过迭代优化的方式估计训练样本的真实标记并更新候选标记置信度。实验结果表明,在偏标记损失函数中引入置信度,可以更好地实现训练样本的候选标记消歧。本文一共分为五章,第一章介绍偏标记学习算法研究背景、现状以及有待研究的问题。第二章简述目前已有的偏标记学习算法。第三章介绍基于一致性假设的偏标记损失函数。第四章介绍基于置信度的偏标记损失函数。第五章对本文工作进行总结。
其他文献
随着无线通信技术向高频点、宽频带的方向发展,可用的无线通信频谱资源的稀缺逐渐成为限制无线通信技术发展的瓶颈。如何更有效地利用现有的频谱资源成为了亟待解决的问题,认
学位
目前,随着移动互联网时代的到来,相关技术的不断发展以及移动智能设备的不断普及,基于位置的社交网络(LBSN)这种新的社交网络服务逐渐形成。由于移动计算和无线网络技术的进
随着互联网规模的日渐扩大和新业务的不断涌出,人们对网络的主要需求渐渐从传统的资源共享转变对内容的分发和获取。针对网络需求的变化,以资源共享为设计目标的传统TCP/IP网
本文旨在运用企业战略管理的理论与方法,在对全球乃至中国的分子诊断市场进行研究并对LT公司内外部环境进行分析的基础上,按照企业战略管理理论的研究思路,以波特竞争理论为
随着计算机技术、通信技术和控制技术的发展,利用网络实现系统各个节点间信息交互的网络化控制系统(NCSs)获得了迅速的发展,并在众多领域得到了广泛应用。由于NCSs有着布线少
偏振复用(Polarization Multiplexing,PM)光传输技术与相干接收技术相结合能够成倍地提升系统的通信容量,可以有效地实现人们对于信息传输容量的巨大需求,实现超高速、大容量
目的:棕榈酸,又名Palmitic acid,是一种十六碳长链饱和脂肪酸,从棕榈果的中果皮中提取。棕榈酸具有广泛的生物学和药理活性。研究表明棕榈酸与胰岛素抵抗、心血管疾病、代谢综合征、神经精神疾病以及炎症相关。目前在抗肿瘤领域有研究报道棕榈酸能够抑制乳腺癌细胞的增殖,降低骨髓瘤细胞活性,但其对人体前列腺癌的影响尚未见报道。本文主要研究棕榈酸对前列腺癌增殖和转移的抑制作用及其分子机制,为将其开发成为
金属复合板是以物理、化学及机械性能不同的金属为原料,通过一定方法实现界面稳定结合的一种兼具结构及功能的层状复合材料,在保持覆层金属特性的前提下,显著地增强复合材料的机械、物理与化学等综合性能,在航空航天、石油化工、船舶、建筑、电力、交通以及日常生活等领域拥有广阔的发展前景。在实际生产中由于异质金属的层状复合特点及差异化的理化属性,异质金属组元之间的协调变形是在带张力运行的复合板热处理过程中所面临的
现代作战指挥系统正朝着信息化,网络化发展。不同的作战席位之间有着大量的,错综复杂的数据交互关系。不同平台间的数据传输也面临着平台异构,动态配置等需求。因此,为了解决