多标签分类中标签编码算法研究

来源 :南京师范大学 | 被引量 : 2次 | 上传用户:wucong520123
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在多标签分类中,一个样本可能同时包含多个标签,多个标签之间可存在相互重叠。随着数据集的标签维度增高,以及标签稀疏性问题,会导致分类算法的计算复杂度增加,分类性能下降。因此,对标签空间的编码研究是多标签分类中非常重要的过程。标签空间的编码方法,主要分为标签压缩类方法,标签扩张类方法以及标签特征同时压缩的方法。本文从标签压缩的角度,提出了两种用于多标签编码的模型:(1)最大化标签与特征之间依赖度的标签编码模型(LCCMD):该模型采用Hilbert-Schmidt独立性准则来度量特征空间与标签空间的依赖度,通过最大化依赖度求解出标签空间的最优投影,从而实现对标签空间的线性编码与解码;(2)基于对称网络的标签编码模型(LCCSN):该模型构建一个五层的对称自动编码网络,然后采用极限学习机的思想来训练该网络,求解出对称网络的最优权值,从而实现对标签空间非线性的编码与解码。在算法的实验部分,主要收集了10个多标签分类算法的评价准则,12个多标签数据集,与3个常用的标签压缩类代表算法(如CS, PLST和CPLST),进行实验比较。实验结果表明,本文提出的两种标签编码模型具有较好的编码效果,并且提高了分类器性能,尤其是基于对称网络的标签编码模型,明显优于CS、PLST和CPLST算法。
其他文献
室内定位服务从普通的商业活动,科学研究,直至紧急救助等各行业中都有着重要的应用。因此,室内定位是定位技术研究中的一个重要方向。通过分析和调查目前被广泛关注的几种无线室
分析遗传疾病的发病机理往往需要庞大并且昂贵的生物实验验证或者需要长时间遗传疾病的临床诊断的经验积累。相关生物数据的数据庞大,并且数据之间的关系复杂。因此,采用数据
随着网络技术的发展和信息量的激增,信息检索越来越受到人们的关注。而传统的信息检索大多集中在关键字匹配方面,对其语义的处理涉及的不多,因此虽然有较高查全率,但查准率却
网格是构筑在互联网基础之上的新兴分布式计算技术。它通过整合分布在各地的计算、存储和通信资源,为动态变化的虚拟组织的成员提供更为广泛的资源共享。网格是通过集中分散
随着多媒体信息技术和Internet的迅速发展,版权保护问题日益突出。数字水印技术作为信息隐藏技术研究领域的重要分支,也是版权保护的重要手段,己经受到越来越多的关注。其中,数字
学位
优化技术作为一个重要的科学分支,它一直受到人们的广泛重视,并在诸多工程领域得到迅速推广和应用,如规划、工程设计、医疗应用、图像处理和计算机科学等。约束性优化问题也一直
随着地理信息系统(GIS)理论和计算机图形学的飞速发展,三维GIS的建模和可视化成为当前国内外研究的一个热点。作为GIS应用的一个重要领域一城市,其三维模型的可视化和空间分析
传统的配色方法已经不能满足现代社会对染色配色技术的需求,针对这一问题,本文主要对从印染企业获取的实际数据进行相关性分析,最终建立了样本三刺激值CMY与染色染料浓度关系
嵌入式测控系统是当前工业自动化测控应用领域研究的热点之一。近年来,嵌入式Web成为实现嵌入式测控系统主要方式之一。本文利用Freescale公司2004年年底推出的集成了以太网