Sparse方法在多标签分类中的应用

来源 :浙江师范大学 | 被引量 : 0次 | 上传用户:xsnxj112
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
分类是数据挖掘领域的研究热点之一。在传统的分类学习中,假定每个样本只属于一个类别标签。而在现实应用中,每个样本可以和多个类别标签相关联,例如一篇关于巴西世界杯的新闻报道,可以同时被贴上“运动会”、“足球”和“巴西”等多个标签;根据不同的使用目的,一台电脑可以同时拥有“影音”“科研”和“网上购物”等多个功能,这类问题统称为多标签问题。多标签分类学习已经在文档分类、信息检索和生物信息学等多个领域得到广泛应用。然而,与传统分类学习相比,多标签学习面临更多的挑战。首先,在多标签学习中,标签之间通常不是互相独立的,而是存在相关性。如何度量这种相关性,并利用标签之间的相关性来提高分类器的性能是一个开放问题。其次,与传统的单标签分类相似,多标签学习同样受到高维数据的影响,而且高维性在样本的属性空间和标签空间中同时存在。特别地,随着标签数目的增加,标签变量空间一般比较稀疏,这种稀疏性给多标签学习带来了挑战,也带来了机遇。针对多标签学习中遇到的问题,本文通过对不同的偏最小二乘回归(PLSR)模型进行改造,提出三种新的多标签分类算法。理论分析和模拟实验表明,这三种多标签分类算法都可以获得有效的分类结果。利用奇异值分解(SVD)可以有效地提取矩阵空间重要信息的特点,提出基于SVD-PLSR的多标签分类算法,用于处理多标签数据(Multi-label Data),简称SPMD。该算法能够对多标签数据同时进行维数约简和回归分析。首先,将类别标签集合作为一个整体处理来探索标签相关性;其次,通过奇异值分解技术求得样本空间和标签空间的得分向量。最后,在偏最小二乘回归技术的基础上得到多标签分类模型。利用岭回归(Ridge regression)可以处理变量多重共线性的技术特点,在偏最小二乘判别分析(PLS-DA)的基础上,提出命名为RPLS-DA多标签分类算法。该算法对PLS-DA算法施加l2约束,克服了PLS-DA在处理高维数据时遇到的“高维数,小样本”问题。利用稀疏学习模型LASSO对非线性迭代偏最小二乘回归(NIPALS)进行稀疏改造,提出基于LASSO-NIPALS的多标签分类算法,用于处理多标签数据(Multi-label Data),简称LNMD。该算法可以同时对多标签数据实施维数约简和特征选择,并利用标签相关性来构建多标签分类模型,同时也提供了一种新的稀疏降维方法。
其他文献
随着WWW的迅猛发展,Web上聚集了海量的信息,因此如何快速、准确而全面的获取有用信息已经成为巨大的挑战。基于人工智能的信息内容的自动聚类、分类和文摘,以及深层次的文本挖掘
非处方药的推广和普及使用,对我国医疗制度改革具有重要的意义。非处方药智能咨询系统的研究对于非处方药的推广和普及有很大的帮助。本文阐述了非处方药的概念及其发展现状,从
本文研究嵌入式数据采集系统的设计方法及其与PC机的通信问题。论文完成了基于ARM芯片S3C4480的嵌入式数据采集系统的软硬件设计;编程实现了电压信号的采集、处理和LCD显示;同
数字图书馆的出现主要有两大原因,一是人们迫切需要对各种信息资源进行方便快捷查询;二是互联网的高速发展为这种需求提供了基础。和传统图书馆相比,数字图书馆利用最新的计
操作系统安全是计算机系统安全的基础,操作系统的安全研究是一个军用到商用的过程,目前国内针对关键商用体系框架的研究还很少。随着网络技术的飞速发展和安全威胁的多样化,
Web服务作为新的分布式计算技术,由于其自身的平台无关、自描述以及易部署等特性,被越来越广泛地接受。所谓Web服务是指由企业发布的完成其特别商务需求的在线应用服务,其他
IPv6网络性能测量与预报是发现IPv6网络弊端、改进网络拓扑结构和协议,提高网络服务质量的基本工具,对下一代IPv6网络的建设和应用研究具有重要意义。在“IPv6自由立体电视终
网络资源中的信息量随着网络技术的发展也在急剧增加,用户面对浩渺的信息如何寻找到自己感兴趣的项目变成了负担。用户兴趣的差异是不一样的,但大多数目前的网络应用程序都提
标准信息是指企业基本信息、企业标准备案、产品执行标准等信息。通过网络化及计算机技术手段提供标准信息的管理与服务。在填补省内空白的基础上进行二期开发。 本系统既
传统的HTML(超文本标记语言)只适合数据的浏览,而不适合数据间的交换。在Web领域,XML弥补了HTML的不足,它是由万维网协会(W3C)设计的用来自动描述数据信息的一种新标准语言。XQu