基于标签传播的PU学习算法研究

来源 :兰州大学 | 被引量 : 0次 | 上传用户:liu_shuangde
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在很多分类场景中,已标记的负例样本难以获取甚至不能获取。因此,仅使用已标记正例样本和未标记样本训练分类器的PU学习受到了广泛的关注。目前,PU学习有一类方法使用“两阶段”式的策略训练分类器,其首先从未标记样本中抽取一部分可靠的负例样本并视为已标记负例样本集,然后使用已有的监督学习算法或半监学习算法训练分类器。“两阶段”式PU学习算法的重点在于抽取可靠的负例样本。在给出的已标记正例样本数量很少的情况下,已有的算法往往很难抽取到相对可靠的负例样本。基于图的半监督学习在给出的已标记样本较少的情况下有着相对较好的性能,将基于图的半监督学习思想与“两阶段”式PU学习方法结合在一起的基于图的PU学习在近几年被提出。目前已有的基于图的PU学习算法存在以下问题:1.目前已有的基于图的PU学习算法大多采用的是构造全连通图并基于样本之间欧式距离直接衡量相似性的方案,然而这种构图及衡量相似性的方案并不能准确地反映出所有样本之间的相似性。2.在给出的已标记正例样本很少的情况下,基于图的PU学习算法仍难以抽取到较为理想的可靠负例样本。针对以上问题,本文提出一个新的基于图PU学习算法:PU-LP。PU-LP算法有以下两个创新点:1.PU-LP算法首次使用了在kNN图的基础上通过基于路径的相似性指标衡量样本之间的相似性的方案。2.PU-LP采取了在抽取可靠的负例样本之前,首先抽取一小部分可靠的正例样本以扩大已标记正例样本集的方法,并设计了迭代抽取可靠正例样本的方案。通过基于UCI机器学习数据集上的对比实验,本人发现PU-LP算法在给出的已标记正例样本很少的情况下,所训练出的分类器有着相对优秀的性能。且通过参数实验验证了本文所提的相似度计算方案和迭代抽取方案具有良好的性能。
其他文献
当前高校贫困生工作在经济发展和制度创新的背景下不断变化发展,研究成果的理论性和系统性明显增强,但真正意义上的管理学研究成果不到10%的比例,并且还是在“教育理论和教育
互联网是随着时代发展产生的新型信息交流工具,如今已经进入了我们学习生活中的方方面面。与此同时网络上可交流的平台越来越多,在这些平台中各种各样的评论性文本也呈爆发式
现实应用中数据的不确定性广泛存在,如位置信息服务,传感器网络和医疗诊断。产生不确定数据的原因包括了测量不准确、网络延迟、过时数据、错误样本和隐私保护。完成传统的分
长期以来,宗教报道都是新闻报道的重要组成部分。作为中国共产党中央委员会机关报的《人民日报》,它是我们党和政府宣传国家政策方针的主要新闻媒体,其宗教报道也是宣传我国
随着科学技术的不断发展和普及,电视栏目和电视节目越来越多,但是蒙古族青年生活状态有关的蒙语电视栏目却有着普遍减少的现象。尤其对我区蒙古语卫视来说,专门针对青年话题
近年来随着服务机器人的快速发展,智能化已成为必然趋势,自主导航作为机器人智能化的重要指标,要求机器人拥有识别周围环境并定位的能力。但是实际生活中机器人所面对的环境
人脸作为人最显著的生物特征之一,包括丰富的个人信息。这些信息除了可用于身份认证和识别外,还可用于人脸年龄分类等应用,特别是可以将年龄及分布特征用于人机交互和商业智
近年来,全球范围内爆发了各种禽流感病毒,造成牲畜大范围死亡,甚至影响到人类健康和生命安全。无特定病原体(Special Pathogen Free,SPF)鸡胚在流感疫苗的制备中起着重要作用
传统的IP互联网架构已经服役了将近四十年,IP网络结构在软件服务业务不断的发展和前进中,已经变得臃肿不堪。现在4k视频,VR设备视频传输需要的网络质量要求也在不断的上升。
本文研究了一类径向对称函数.f生成的局部严格凸仿射超曲面M的两个性质.其主要内容包括以下两个方面:首先,我们给出了仿射超曲面M作为仿射极大曲面时f满足的方程,并对方程降