多标记数据分类相关技术研究

来源 :山东师范大学 | 被引量 : 0次 | 上传用户:sz_davild
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
多标记学习广泛存在于现实世界中,是当前机器学习和数据挖掘领域的研究热点。多标记学习的提出,更好的丰富和发展了现有的分类问题,解决了现实存在的二分类学习算法无法确定和解决的问题。现在对多标记的研究主要集中在三个方面,一是寻找更好的算法对样例进行准确的分类;二是对已分类样例的标记集合排序;三是对多标记学习中高维数据的处理。本文绪论简要介绍了多标记学习的背景、多标记学习的意义以及多标记学习的研究现状以及存在的问题;然后介绍了多标记学习的产生原因、基础理论以及研究进展;介绍多标记学习主要的研究方向;介绍多标记学习的具体框架;介绍多标记学习的评价方法及基准测试集;其次依次对多标记学习的三个研究方向进行讨论,将重点研究以下问题:一是寻找更好的加权方式以及数据取样方式以降低多标记学习算法时间复杂度以及提高算法分类精度;二是如何寻找更好的排序算法,以得到最好的样例的标记排序集合;三是寻找更好的方法处理多标记学习中的高维数据;最后根据以上研究,通过大量对比实验验证了本文提出算法的有效性。本文开展并完成了以下工作:1. ML-KNN算法是应用于多标记学习的一种分类方法,但其时间复杂度较高,且对于少数类分类精度较低,因此本文提出了WML-KNN算法。WML-KNN算法通过取样和加权的方法解决了ML-KNN算法存在的弊端。实验表明,WML-KNN算法的部分性能优于或与ML-KNN算法性能相当,与其他三种多标记分类算法相比,分类性能均较好。2.为解决标记排序的问题,本文根据基于排序关联度的考虑,提出一种基于APRIORI算法的标记排序算法。算法通过传统分类算法进行分类,通过APRIORI算法计算出每个示例标记间的关联度,并考虑到近邻对标记排序的影响,从而对每个示例的标记组合进行排序。通过算法基于两种评测标准上与其他算法的比较可以得出,APR-LR算法有令人满意的排序结果,且优于其他算法,3.提出一种解决高维多标记数据的分类算法以解决多标记分类中遇到高维数据问题,该算法运用了LLE降维方法,K-means聚类算法以及KNN算法。算法首先对数据进行降维,然后将降维后的数据聚类。LLE算法有局部保持的特性,对样例的准确聚类有帮助作用。算法的分类结果中考虑了样例近邻对样例分类的影响,实验证明,近邻确实对样例的分类有帮助作用,而且,对数据的降维处理确实有助于降低算法的时间复杂度。
其他文献
近年来,一门新兴学科——数据挖掘,引起了人们的广泛关注,被应用到模式识别、统计学、数据库等众多领域。社会网络作为其中一个应用方向迅速发展,并且成为一个研究热点。对于社会
Reed-Solomon码是一种在移动通信,深空通信,数字存储中广泛应用的非二进制的循环纠错码。它具有严格的代数结构,对随机错误,突发错误和删除错误都有良好的纠错性能。本文主要研究
随着网络通信技术的发展及社交工具的普及,QQ、微信等即时通信工具得到了广泛应用,产生了大量的用于交互的短文本。这些交互式的短文本中包含了丰富的信息资源,具有很高研究价值
对等网络作为区别于传统C/S集中模式的全新共享方式,因其全网节点的参与互动性和平等性赢得了越来越多研究人员的青睐。对等网络按照结构类型可分为结构化和非结构化两种模式,
越来越多的软件系统部署在动态、开放和不可预测的环境中,为了提高系统的灵活性和健壮性,人们希望软件实体能够感知外部环境的变化,并根据环境变化和内部状态不断调整自身的
随着互联网的迅速发展和普及,因特网和计算机网络面临越来越多的安全威胁。网络攻击的直接表现是网络流量异常,这就要求必须快速有效的检测出异常。为了保护目标系统和网络免受
随着嵌入式技术、信息技术和网络技术的快速发展,信息世界和物理世界紧密的联系在一起,在这种的背景下CPS应运而生。CPS是物联网的智能化扩展,也是下一代网络化机电一体化控制系
随着移动互联网的迅速发展和移动终端的普及,微信成为人们学习生活中不可或缺的社交软件。移动端的文章推荐软件不断涌现,推荐效果不尽相同。在文章推荐领域,协同过滤推荐算法与
随着在线社交媒体的快速发展,在线社会网络的研究成为了当前数据科学的一个重要研究方向。复杂网络可以看作是这些真实网络的一种抽象,而发现这些复杂网络的社区结构是理解这些
学位