论文部分内容阅读
多标记学习广泛存在于现实世界中,是当前机器学习和数据挖掘领域的研究热点。多标记学习的提出,更好的丰富和发展了现有的分类问题,解决了现实存在的二分类学习算法无法确定和解决的问题。现在对多标记的研究主要集中在三个方面,一是寻找更好的算法对样例进行准确的分类;二是对已分类样例的标记集合排序;三是对多标记学习中高维数据的处理。本文绪论简要介绍了多标记学习的背景、多标记学习的意义以及多标记学习的研究现状以及存在的问题;然后介绍了多标记学习的产生原因、基础理论以及研究进展;介绍多标记学习主要的研究方向;介绍多标记学习的具体框架;介绍多标记学习的评价方法及基准测试集;其次依次对多标记学习的三个研究方向进行讨论,将重点研究以下问题:一是寻找更好的加权方式以及数据取样方式以降低多标记学习算法时间复杂度以及提高算法分类精度;二是如何寻找更好的排序算法,以得到最好的样例的标记排序集合;三是寻找更好的方法处理多标记学习中的高维数据;最后根据以上研究,通过大量对比实验验证了本文提出算法的有效性。本文开展并完成了以下工作:1. ML-KNN算法是应用于多标记学习的一种分类方法,但其时间复杂度较高,且对于少数类分类精度较低,因此本文提出了WML-KNN算法。WML-KNN算法通过取样和加权的方法解决了ML-KNN算法存在的弊端。实验表明,WML-KNN算法的部分性能优于或与ML-KNN算法性能相当,与其他三种多标记分类算法相比,分类性能均较好。2.为解决标记排序的问题,本文根据基于排序关联度的考虑,提出一种基于APRIORI算法的标记排序算法。算法通过传统分类算法进行分类,通过APRIORI算法计算出每个示例标记间的关联度,并考虑到近邻对标记排序的影响,从而对每个示例的标记组合进行排序。通过算法基于两种评测标准上与其他算法的比较可以得出,APR-LR算法有令人满意的排序结果,且优于其他算法,3.提出一种解决高维多标记数据的分类算法以解决多标记分类中遇到高维数据问题,该算法运用了LLE降维方法,K-means聚类算法以及KNN算法。算法首先对数据进行降维,然后将降维后的数据聚类。LLE算法有局部保持的特性,对样例的准确聚类有帮助作用。算法的分类结果中考虑了样例近邻对样例分类的影响,实验证明,近邻确实对样例的分类有帮助作用,而且,对数据的降维处理确实有助于降低算法的时间复杂度。