论文部分内容阅读
多标记学习最早出现在文档分类问题中,由于歧义性问题的存在,造成一条数据可能同时具有多个不同的类别标记。多标记学习问题广泛存在于现实实际问题中,多标记学习已逐渐成为国际机器学习界一个新的研究热点,在众多领域得到了广泛应用。随着对多标记学习的逐步深入研究,还衍生出了多示例学习、多标记排序等新的研究问题,对多标记学习相关问题的研究有着重要的积极意义。本文绪论主要介绍了多标记学习的研究背景及研究意义、目前国内外多标记学习的研究现状及面临的主要问题;简要介绍了多标记学习的形式化定义与衡量多标记学习算法的评价准则等。详细介绍了多标记学习中几种典型的算法。本文主要从数据相关性与标记相关性两个方面对多标记学习问题进行了研究,并基于以上研究提出了相应的算法来解决多标记学习所遇到的问题,并对相应的算法进行了一定量的对比试验来验证算法的优越性。本文主要从以下两个方面开展对多标记学习问题的研究:(1)针对数据相关性问题的研究,提出了一种基于标记特征的多标记学习改进算法W-LIFT。样例具有一定的分布特性,具有相同标记的样例通常聚集到一起,一个样例的标记信息可能会对附近其他样例的学习提供有用信息,特别是在数据比较匮乏的情形下,利用已标记的数据与未标记数据间的相互关系,能够在一定程度上避免因为数据匮乏所造成的误差,使得分类性能更加准确。LIFT算法是基于标记特征的一种多标记学习算法,算法在分类过程中采用等权重方式,忽略了样例之间的相关性。基于对样例相关性问题的研究,本文提出了W-LIFT算法,算法在分类过程中考虑样例之间的相互关系,通过加权的方式使生成的特征集更加准确,用于提高多标记分类的效果。并对此进行了大量的对比实验,实验结果表明W-LIFT算法的分类性能良好。(2)针对标记相关性问题的研究,提出了一种局部顺序分类器链算法LOCC。在多标记的实际分类问题中,一个标记可能会为与其相关的其他标记提供有用信息,特别是那些含有少量训练样例的标记,考虑标记相关性能够减小因数据不足造成的误差。目前有研究将标记相关性引入多标记学习,通过分类器链的形式将标记结果引入属性空间,为学习其他标记提供有用信息。分类器链中标记的预测顺序具有随机性,分类结果存在着很大的不确定性与不稳定性,且容易造成错误信息的传播。,基于对标记相关性问题及分类器链算法的研究,本文提出了LOCC算法,算法充分考虑标记的局部分布特性,从概率角度给出样例可能具有的标记,并根据可能性大小对分类器进行排序,赋予标记一个有序的学习过程,解决分类器链中因分类器顺序问题造成的误差。通过与其他多标记分类算法的大量对比实验验证,LOCC算法在分类性能上得到了很大的提升。