基于数据及标记关联的多标记学习算法研究

来源 :山东师范大学 | 被引量 : 0次 | 上传用户:jhuihui
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
多标记学习最早出现在文档分类问题中,由于歧义性问题的存在,造成一条数据可能同时具有多个不同的类别标记。多标记学习问题广泛存在于现实实际问题中,多标记学习已逐渐成为国际机器学习界一个新的研究热点,在众多领域得到了广泛应用。随着对多标记学习的逐步深入研究,还衍生出了多示例学习、多标记排序等新的研究问题,对多标记学习相关问题的研究有着重要的积极意义。本文绪论主要介绍了多标记学习的研究背景及研究意义、目前国内外多标记学习的研究现状及面临的主要问题;简要介绍了多标记学习的形式化定义与衡量多标记学习算法的评价准则等。详细介绍了多标记学习中几种典型的算法。本文主要从数据相关性与标记相关性两个方面对多标记学习问题进行了研究,并基于以上研究提出了相应的算法来解决多标记学习所遇到的问题,并对相应的算法进行了一定量的对比试验来验证算法的优越性。本文主要从以下两个方面开展对多标记学习问题的研究:(1)针对数据相关性问题的研究,提出了一种基于标记特征的多标记学习改进算法W-LIFT。样例具有一定的分布特性,具有相同标记的样例通常聚集到一起,一个样例的标记信息可能会对附近其他样例的学习提供有用信息,特别是在数据比较匮乏的情形下,利用已标记的数据与未标记数据间的相互关系,能够在一定程度上避免因为数据匮乏所造成的误差,使得分类性能更加准确。LIFT算法是基于标记特征的一种多标记学习算法,算法在分类过程中采用等权重方式,忽略了样例之间的相关性。基于对样例相关性问题的研究,本文提出了W-LIFT算法,算法在分类过程中考虑样例之间的相互关系,通过加权的方式使生成的特征集更加准确,用于提高多标记分类的效果。并对此进行了大量的对比实验,实验结果表明W-LIFT算法的分类性能良好。(2)针对标记相关性问题的研究,提出了一种局部顺序分类器链算法LOCC。在多标记的实际分类问题中,一个标记可能会为与其相关的其他标记提供有用信息,特别是那些含有少量训练样例的标记,考虑标记相关性能够减小因数据不足造成的误差。目前有研究将标记相关性引入多标记学习,通过分类器链的形式将标记结果引入属性空间,为学习其他标记提供有用信息。分类器链中标记的预测顺序具有随机性,分类结果存在着很大的不确定性与不稳定性,且容易造成错误信息的传播。,基于对标记相关性问题及分类器链算法的研究,本文提出了LOCC算法,算法充分考虑标记的局部分布特性,从概率角度给出样例可能具有的标记,并根据可能性大小对分类器进行排序,赋予标记一个有序的学习过程,解决分类器链中因分类器顺序问题造成的误差。通过与其他多标记分类算法的大量对比实验验证,LOCC算法在分类性能上得到了很大的提升。
其他文献
本文以动画自动生成技术为背景,对摄像机规划中导演知识库的结构、定性的虚拟导演及定量的虚拟摄像师算法进行了研究,建立了贯穿定性、定量两大层次的摄像机规划系统。 首先
软件的开发评价涉及很多方面,除了功能和性能要求外,其可用性、安全性要求相当重要。软件的价值不仅体现在软件的交付使用,更多体现在开发过程中的策略控制,容错策略是软件开
本论文主要研究了低空间分辨率的多光谱彩色图像与高空间分辨率的全色图像之间的融合问题。在图像融合领域中,目前还没有固定的融合方法和成熟的理论体系,所以本论文在众多融合
对不规则物体的建模和绘制一直是计算机图形学真实感最具有挑战性的研究方向之一。本文围绕基于硬件的不规则物体的绘制与建模展开讨论与研究,主要研究了基于硬件加速的实时
随着互联网和信息技术的高速发展,XML已经成为互联网上信息交换和表示的重要标准,如何高效、系统、科学地管理XML文档已成为数据库研究领域中的一个重要挑战。将XML存储在关
本文对中国软件外包行业的现状进行了探索性调查,调查主要针对以下几个问题:承包商和外包商之间的语言差异的问题、承包商和外包商之间的联系方式问题、以及承包商企业中的加班
环绕智能是近年来提出的一种对未来信息社会的构想,在环绕智能中,人们将置身于一种无处不在的电子环境中,该环境能够迅速地感知人们的行为并做出相应的智能反应。因此,选用何种无
随着互联网的迅速发展,在网络上传播的数字图像信息数量高速膨胀,其中包含不良信息的图像文件大量出现,因此人们迫切需要一种有效的图像检测技术,对图像文件是否包含不良信息进行
随着计算机技术的快速发展,地理信息系统(简称GIS)以其地理信息的电子化、可视化、中央存储管理等优点在信息领域得到很大的发展。近年来在国防、交通运输、农业、林业、水利
随着电子商务的飞速发展和广泛应用,网络安全及其形式化分析引起社会的密切关注,逐步成为计算机科学研究的热点领域。非否认技术作为网络安全中最具价值的研究问题之一,在避免电