基于标签特征和相关性的多标签分类研究

来源 :西安电子科技大学 | 被引量 : 0次 | 上传用户:lixiang1989521
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着信息技术的不断发展和大数据时代的到来,各个不同的领域产生了大量的多标签数据集,而且数据集的规模也越来越大.如何有效地挖掘或者学习这种大规模的数据集以得到有价值的信息是一个亟需解决的问题.对于多标签学习,其有三个主要特征:(1)训练集中的每个数据样本均对应于由多个标签组成的标签集,而且标签和标签之间是有关联的;(2)对于每个标签而言,标签特有特征可以获取标签更多的信息,即丰富了标签的信息;(3)在多标签分类学习中存在着类不平衡的问题,即多标签数据集并非均匀分布.本文基于上述特征,对多标签数据集进行研究,主要工作如下:基于标签特征和标签相关性,本文提出了一种多标签分类算法LP-LFLC.该算法的基本思想是:对于每个标签,首先,通过聚类相关技术以及距离公式等构造一个特征映射函数;然后,将原始数据特征空间转化为特定的特征空间,以得到每个标签的标签特征集,这很好地丰富了标签的信息;其次,使用基于实例最近邻的方法利用标签之间的相关性以扩充每个标签的标签特征集;最后,利用MATLAB软件与六种经典的多标签分类算法在八个常见的数据集上进行实验仿真,实验结果证实了LP-LFLC算法有着较好的分类性能.考虑到如何更好地改善类不平衡的问题以及更加有效地利用标签特有特征和标签相关性,本文结合LP-LFLC算法中的基本思路,在该算法的基础上进行改进,提出了一种新的多标签分类算法LSFLC,它可以更加有效地集成标签特有特征和标签相关性以构建分类模型或分类器.LSFLC算法的主要过程为:首先,对于每个标签,我们通过重采样技术迭代产生新的正类实例以扩充标签的正类实例集;其次,通过LP-LFLC中构造的特征映射函数将原始数据特征空间转换为特定的特征空间,得到每个标签的标签特征集;然后,对于每个标签,通过构造共现矩阵找到与其最正相关的标签,进而复制该标签的正类实例以扩大其标签特征集;最后,在实验部分中,相比于LP-LFLC算法和其他几种经典的多标签分类算法,在八种不同的数据集上进行实验仿真,实验结果证实了LSFLC分类算法有着更好的分类性能.本文提出了两种基于标签特征和相关性的多标签分类算法,通过理论分析和实验仿真验证,证明了所提出的算法的有效性.
其他文献
目的:归纳肿瘤相关性贫血患者的证型特点,探究不同证型在贫血程度上的差异,收集肿瘤相关性贫血患者中符合口服汤药标准的病例,整理口服汤药前后血常规化验单,探究口服汤药后血红蛋白计数是否改善,并总结治疗肿瘤相关性贫血的饮片的使用频率及用药规律。方法:采用回顾性分析方法,研究对象是2017年10月至2018年5月于辽宁中医药大学附属医院住院部肿瘤科住院的肿瘤相关性贫血患者,将患者症状、体征、舌脉进行频次统
当前,我国社会得到了快速的发展,城市规模不断持续扩大,大多位于城区的老旧化工企业面临搬迁的压力。作为可持续发展和生态文明建设需要的一个方面,废弃化工生产场地的再利用问题,已成为环保、科研领域重要的研究课题。该类企业在多年的生产运营中,即排放废气、废水又存在废渣堆放,使得污染物在土壤中的蓄积和滞留,土壤污染物含量高于土壤背景值,甚至超过国家标准要求,不仅对场地周边的微生物、植物、动物等产生毒害,而且
本研究通过对2018FIBA3X3世界杯中国女篮与前三强球队的攻防能力进行比较研究,对比分析中国女篮在攻防能力方面与世界强队之间的存在的差异,以总结出对于中国女篮发展的经验,为中国女子三人篮球项目在攻防能力的提高方面提供借鉴和参考。本文采用文献资料法、录像分析法和数理统计法,以2018FIBA3X3世界杯中国女篮与前三强球队攻防能力为研究对象,通过比较中国女篮与世界前三强球队的基本情况、攻防能力指